MinerU Open MCP

MinerU Open MCP

opendatalabApache-2.0
107 звёзд10 форков
MinerU Open MCP — это сервер, который через протокол MCP подключает AI-ассистентов к API MinerU для парсинга документов. Он преобразует PDF, Word, Excel, PPT, HTML и изображения в чистый Markdown. Внутри работает двухрежимный движок: VLM для сложной вёрстки и OCR для сканов и рукописного текста. Сервер подходит разработчикам, которые строят RAG-пайплайны, подготавливают данные для обучения LLM или автоматизируют обработку документов с помощью AI-агентов. Не нужно разбираться в тонкостях каждого формата — ассистент сам извлечёт текст, таблицы и формулы.

Установка

uvx mineru-open-mcp

Характеристики

Общее

  • СтатусСообщество
  • Разработчикopendatalab
  • ЛицензияApache-2.0

Технологии

  • Языки
    Python
  • Транспорт
    stdio

Описание

Возможности

  • Распознаёт PDF (включая сканированные копии и рукописные записи) и извлекает текст с сохранением структуры
  • Преобразует Word, Excel, PPT и HTML в Markdown — без потери таблиц, списков и заголовков
  • Конвертирует математические формулы в LaTeX, а таблицы — в HTML
  • Восстанавливает сложную вёрстку: многоколоночные тексты, объединённые ячейки, кросс-страничные таблицы
  • Автоматически удаляет колонтитулы и нумерацию страниц
  • Поддерживает 109 языков для OCR-распознавания
  • Выбирает движок: VLM для точного распознавания или OCR для быстрого извлечения
  • Возвращает результат в Markdown или JSON — в зависимости от настроек запроса
  • Не требует развёртывания собственной инфраструктуры: всё работает через облачное API MinerU

Как подключить

  1. Установите сервер:
    uvx mineru-open-mcp
  2. Добавьте конфигурацию в файл настроек MCP-клиента (например, для Claude Desktop):
    {
      "mcpServers": {
        "mineru-open-mcp": {
          "command": "uvx",
          "args": ["mineru-open-mcp"],
          "env": {
            "MINERU_API_KEY": "ваш_ключ_с_mineru.net"
          }
        }
      }
    }
  3. Перезапустите клиент. API-ключ получите на mineru.net после регистрации.

Примеры запросов

  • «Извлеки весь текст из этого PDF и верни в Markdown»
  • «Преобразуй файл Excel с таблицей в Markdown, сохрани форматирование»
  • «Распознай формулы на скане документа и выведи их в LaTeX»
  • «Извлеки содержимое из презентации PPT и структурируй по слайдам»

Технические детали

  • Язык: Python
  • Транспорт: stdio
  • Лицензия: Apache-2.0
  • Совместимые клиенты: Claude Desktop, Cline, Cursor, VS Code (через MCP) и любые другие MCP-клиенты
  • Требования: учётная запись на mineru.net и API-ключ (бесплатный тариф доступен)

Поделиться