CRW Web Scraper

CRW Web Scraper

usAGPL-3.0
133 звёзд10 форков
CRW Web Scraper (fastCRW) — самохостинговый веб-скрапер на Rust для AI-агентов. Альтернатива Firecrawl с полностью открытым исходным кодом. Извлекает текст со страниц, обходит сайты по ссылкам, строит карты ресурсов и ищет информацию. Доступно через MCP-протокол или REST API. Производительность — главная особенность. Один статический бинарник на Rust потребляет ~50 MB RAM. Точность извлечения данных — 63,74% truth-recall на публичном датасете из 1000 URL. Разверните сервер на своих мощностях бесплатно (AGPL-3.0) или используйте облачную версию на fastcrw.com.

Характеристики

Общее

  • СтатусСообщество
  • Разработчикus
  • ЛицензияAGPL-3.0

Технологии

  • Языки
    Rust
  • Транспорт
    stdio

Описание

Возможности

  • Извлекает контент веб-страниц (Scrape) — возвращает чистый HTML или Markdown.
  • Обходит сайты по всем внутренним ссылкам (Crawl).
  • Извлекает структурированные данные по заданной схеме (Extract).
  • Строит карту сайта — находит все URL на указанном домене (Map).
  • Ищет информацию в интернете через API (Search).
  • Поддерживает эндпоинты Firecrawl — /v1/scrape, /v1/crawl, /v1/extract, /v1/map, /v1/search.
  • Работает как MCP-сервер через stdio.
  • Потребляет ~50 MB RAM — один бинарник без зависимостей.
  • Доступен в исходниках — лицензия AGPL-3.0, можно адаптировать под себя.
  • Достигает 63,74% truth-recall на бенчмарках (fastcrw.com/benchmarks).

Как подключить

Установите сервер через cargo:

cargo install crw-server

Добавьте сервер в конфигурацию MCP-клиента. Для Claude Desktop настройте JSON:

{ "mcpServers": { "crw": { "command": "crw-server", "args": ["--mcp"], "env": {} } } }

Перезапустите клиент.

Примеры запросов

  • «Собери все страницы сайта mycompany.com и покажи их структуру.»
  • «Извлеки контактные данные со страницы контактов example.org.»
  • «Найди на сайте новости за последнюю неделю и сохрани тексты в Markdown.»
  • «Проверь карту сайта my-site.ru на битые ссылки.»

Технические детали

  • Язык: Rust
  • Транспорт: stdio (MCP), REST API
  • Лицензия: AGPL-3.0
  • Совместимые клиенты: Claude Code, Cursor, Windsurf, Cline, Copilot, Continue.dev, Codex, Gemini CLI
  • Размещение: собственный сервер или облачная версия на fastcrw.com

Поделиться