ShadowCrawl

ShadowCrawl

cortex-worksMIT
66 звёзд7 форков
ShadowCrawl — MCP-сервер на Rust для скрытного сбора данных из интернета. Он решает главную проблему AI-агентов: как получить контент со страниц, защищённых Cloudflare, DataDome или требующих входа на LinkedIn. В основе сервера лежит прогрессивная стратегия обхода блокировок. Сначала выполняется обычный HTTP-запрос. Если страница не открывается, подключается рендеринг через браузер Chromium (CDP). Если и это не помогло, запускается stateful E2E-автоматизация. В самых сложных случаях сервер запрашивает помощь человека (Human-in-the-Loop). Такой гибридный подход — Cyborg — добывает данные оттуда, куда обычные парсеры не пробиваются. ShadowCrawl подходит для анализа конкурентов, сбора данных для обучения моделей, мониторинга цен и проверки доступности сайтов.

Характеристики

Общее

  • СтатусСообщество
  • Разработчикcortex-works
  • ЛицензияMIT

Технологии

  • Языки
    Rust
  • Транспорт
    streamable-http

Описание

Возможности

  • Веб-поиск с одновременным извлечением содержимого страниц — один вызов web_search.
  • Загрузка страниц в трёх режимах: одиночная, пакетная или полный краулинг сайта по ссылкам.
  • Структурированное извлечение данных по заданным полям через extract_fields.
  • Stateful-автоматизация браузера: клики, заполнение форм, навигация по многостраничным сценариям.
  • Автоматический обход Cloudflare, DataDome и LinkedIn через CDP, ротацию прокси и повторные запросы.
  • Human-in-the-Loop для капч, аутентификации и сложных заданий (hitl_web_fetch, visual_scout).
  • Глубокое многошаговое исследование с синтезом итогового отчёта через deep_research.
  • Поиск по истории исследований — результат сохраняется в LanceDB и доступен для повторного использования.
  • Управление профилями и сессиями браузера.
  • Токен-эффективный вывод: HTML очищается от мусора, остаётся только чистый текст для LLM.

Как подключить

Сервер поставляется в виде одного бинарного файла на Rust. Установите его и подключите к любому MCP-клиенту.

1. Склонируйте репозиторий и соберите бинарник:

git clone https://github.com/cortex-works/cortex-scout.git
cd cortex-scout
cargo build --release

2. Скопируйте бинарник в систему:

cp target/release/cortex-scout /usr/local/bin/

3. Добавьте сервер в конфигурацию MCP-клиента (например, Claude Desktop):

{ "mcpServers": { "shadowcrawl": { "command": "/usr/local/bin/cortex-scout", "args": ["--stdio"] } } }

4. Перезапустите клиент. Сервер готов к работе.

Примеры запросов

Попросите AI-ассистента выполнить одно из действий:

  • «Проведи глубокое исследование рынка AI-агентов и сохрани результат в память для будущих отчётов.»
  • «Найди на LinkedIn профили тимлидов по продуктовому дизайну из Европы и собери их контакты.»
  • «Обойди Cloudflare на сайте example.com и извлеки актуальные цены на все товары в каталоге.»
  • «Запусти E2E-тест: открой страницу логина, введи тестовые данные, проверь редирект на дашборд.»

Технические детали

  • Язык разработки: Rust
  • Транспорт: streamable-http / stdio
  • Лицензия: MIT
  • Совместимость: Claude Desktop, Cursor, VS Code, Continue.dev, любые MCP-клиенты
  • Разработчик: cortex-works
  • Особенности: Stateful Browser Automation, Human-in-the-Loop, обход Cloudflare и DataDome

Поделиться