
ShadowCrawl
cortex-worksMIT
66 звёзд7 форков
ShadowCrawl — MCP-сервер на Rust для скрытного сбора данных из интернета. Он решает главную проблему AI-агентов: как получить контент со страниц, защищённых Cloudflare, DataDome или требующих входа на LinkedIn.
В основе сервера лежит прогрессивная стратегия обхода блокировок. Сначала выполняется обычный HTTP-запрос. Если страница не открывается, подключается рендеринг через браузер Chromium (CDP). Если и это не помогло, запускается stateful E2E-автоматизация. В самых сложных случаях сервер запрашивает помощь человека (Human-in-the-Loop). Такой гибридный подход — Cyborg — добывает данные оттуда, куда обычные парсеры не пробиваются.
ShadowCrawl подходит для анализа конкурентов, сбора данных для обучения моделей, мониторинга цен и проверки доступности сайтов.
Характеристики
Общее
- СтатусСообщество
- Разработчикcortex-works
- ЛицензияMIT
Технологии
- ЯзыкиRust
- Транспортstreamable-http
Описание
Возможности
- Веб-поиск с одновременным извлечением содержимого страниц — один вызов
web_search. - Загрузка страниц в трёх режимах: одиночная, пакетная или полный краулинг сайта по ссылкам.
- Структурированное извлечение данных по заданным полям через
extract_fields. - Stateful-автоматизация браузера: клики, заполнение форм, навигация по многостраничным сценариям.
- Автоматический обход Cloudflare, DataDome и LinkedIn через CDP, ротацию прокси и повторные запросы.
- Human-in-the-Loop для капч, аутентификации и сложных заданий (
hitl_web_fetch,visual_scout). - Глубокое многошаговое исследование с синтезом итогового отчёта через
deep_research. - Поиск по истории исследований — результат сохраняется в LanceDB и доступен для повторного использования.
- Управление профилями и сессиями браузера.
- Токен-эффективный вывод: HTML очищается от мусора, остаётся только чистый текст для LLM.
Как подключить
Сервер поставляется в виде одного бинарного файла на Rust. Установите его и подключите к любому MCP-клиенту.
1. Склонируйте репозиторий и соберите бинарник:
git clone https://github.com/cortex-works/cortex-scout.git
cd cortex-scout
cargo build --release2. Скопируйте бинарник в систему:
cp target/release/cortex-scout /usr/local/bin/3. Добавьте сервер в конфигурацию MCP-клиента (например, Claude Desktop):
{
"mcpServers": {
"shadowcrawl": {
"command": "/usr/local/bin/cortex-scout",
"args": ["--stdio"]
}
}
}4. Перезапустите клиент. Сервер готов к работе.
Примеры запросов
Попросите AI-ассистента выполнить одно из действий:
- «Проведи глубокое исследование рынка AI-агентов и сохрани результат в память для будущих отчётов.»
- «Найди на LinkedIn профили тимлидов по продуктовому дизайну из Европы и собери их контакты.»
- «Обойди Cloudflare на сайте example.com и извлеки актуальные цены на все товары в каталоге.»
- «Запусти E2E-тест: открой страницу логина, введи тестовые данные, проверь редирект на дашборд.»
Технические детали
- Язык разработки: Rust
- Транспорт: streamable-http / stdio
- Лицензия: MIT
- Совместимость: Claude Desktop, Cursor, VS Code, Continue.dev, любые MCP-клиенты
- Разработчик: cortex-works
- Особенности: Stateful Browser Automation, Human-in-the-Loop, обход Cloudflare и DataDome