Scrapling MCP Server

Scrapling MCP Server

D4VinciBSD-3-Clause
59.4k звёзд5.7k форков
Scrapling MCP Server — инструмент для веб-скрапинга, который автоматически обходит Cloudflare, Cloudfront и другие системы защиты. Если сайт использует JavaScript для рендеринга контента, сервер подключает реальный браузер. Данные можно извлекать по CSS-селекторам или XPath — всё это доступно через запросы к AI-ассистенту. Сервер создан для разработчиков и дата-сайентистов, которым нужно парсить защищённые сайты без ручной настройки обхода. Scrapling берёт на себя подмену отпечатков браузера, управление сессиями и выполнение JS.

Установка

uvx scrapling

Характеристики

Общее

  • СтатусСообщество
  • РазработчикD4Vinci
  • ЛицензияBSD-3-Clause

Технологии

  • Языки
    Python
  • Транспорт
    stdio

Описание

Возможности

  • Автоматический обход Cloudflare, Cloudfront и других WAF без необходимости вручную настраивать куки или заголовки.
  • Рендеринг JavaScript в реальном браузере на базе Playwright — для страниц с асинхронной загрузкой контента.
  • Извлечение данных по CSS-селекторам и XPath: гибкие запросы к DOM, поддержка атрибутов и вложенных селекторов.
  • Подмена цифровых отпечатков браузера (TLS, HTTP-заголовки, User-Agent) для имитации реального пользователя.
  • Управление сессиями и куками: автоматическое сохранение состояния между запросами.
  • Поддержка прокси-серверов HTTP, HTTPS, SOCKS4, SOCKS5 с аутентификацией.
  • Асинхронная обработка запросов — сервер работает параллельно, не блокируя ассистента.
  • Структурированный вывод: результат в виде текста, HTML-кода или значений атрибутов (href, src, data-*).
  • Интеграция с AI-агентами: готовый скилл для OpenClaw и документация для других платформ.

Как подключить

1. Установите сервер через UVX (менеджер пакетов uv):

uvx scrapling

2. Настройте MCP-клиент. Для Claude Desktop отредактируйте файл claude_desktop_config.json:

{ "mcpServers": { "scrapling": { "command": "uvx", "args": ["scrapling"] } } }

3. Перезапустите клиент. Инструменты сервера станут доступны в интерфейсе ассистента.

Примеры запросов

  • «Собери заголовки статей с сайта, защищённого Cloudflare. Используй CSS-селектор h2.article-title
  • «Открой страницу интернет-магазина с динамической подгрузкой товаров, извлеки названия, цены и ссылки. Включи браузерный рендеринг.»
  • «Сравни описание продукта на статичной версии страницы и после выполнения JavaScript. Верни оба варианта текста.»
  • «Найди все изображения на странице, верни их src. Пропусти изображения, заблокированные защитой.»

Технические детали

  • Язык: Python
  • Транспорт: stdio
  • Лицензия: BSD-3-Clause
  • Совместимость: Claude Desktop, VS Code, Cursor, Continue.dev и любые MCP-клиенты
  • Для работы требуется браузерный движок Playwright (устанавливается автоматически)

Поделиться