evalview-mcp

evalview-mcp

hidai25Apache-2.0
112 звёзд20 форков
EvalView — MCP-сервер для регрессионного тестирования AI-агентов. Он решает проблему скрытых регрессий: агент может вернуть HTTP 200, но вести себя неправильно — выбрать другой инструмент, пропустить обязательный шаг уточнения или выдать результат хуже по качеству. Обычные end-to-end тесты не замечают такого дрифта. EvalView записывает эталонное поведение агента («золотой эталон») и при каждом новом запуске сравнивает с ним выбор инструментов, цепочки вызовов и метаданные. Пример из жизни: вы обновили модель с GPT-4 на GPT-4o. Код не менялся, health check проходит. Но агент начал использовать вместо инструмента «Поиск» инструмент «Генерация ответа» — пользователь получает неактуальные данные. EvalView обнаружит это изменение, классифицирует как дрифт провайдера и покажет оценку уверенности. Если режим исцеления настроен, сервер может автоматически повторить вызов с другим промптом или направить разработчику. Сервер подходит для команд любого размера — от соло-разработчиков до стартапов. Он интегрируется с CI/CD, поддерживает LangGraph, CrewAI, OpenAI и Claude. Код открыт под лицензией Apache-2.0.

Установка

uvx evalview

Характеристики

Общее

  • СтатусСообщество
  • Разработчикhidai25
  • ЛицензияApache-2.0

Технологии

  • Языки
    Python
  • Транспорт
    stdio

Описание

Возможности

  • Создание золотых эталонов: запись корректного поведения агента по каждому сценарию
  • Обнаружение скрытых регрессий: фиксация изменений в выборе инструментов, структуре ответа, качестве вывода
  • Разделение дрифта: сервер отличает смену модели/провайдера от регрессии вашего кода
  • Автоматическое исцеление: повтор проблемных вызовов с проверкой, шлюзами и аудитом
  • Детерминированное воспроизведение: кассеты записывают вызовы один раз, CI проигрывает их без живых сервисов
  • Фиксация метаданных: для каждого прогона сохраняется модель, провайдер, время, версия агента
  • Интеграция с CI/CD: проверки запускаются автоматически в пайплайне
  • Поддержка мультиагентных сред: LangGraph, CrewAI
  • Классификация изменений с градуированной оценкой уверенности (не бинарный ответ)
  • Инспекция дрифта: наглядное сравнение эталонного и нового выполнения
  • Аудит всех исцелений и проверок с логом для команды
  • Шлюзы проверки: перед автоматическим исцелением изменение должен одобрить разработчик

Как подключить

Установка через uvx:

uvx evalview

Пример конфигурации для Claude Desktop:

{ "mcpServers": { "evalview": { "command": "uvx", "args": ["evalview"] } } }

Перезагрузите клиент, и MCP-сервер появится в списке доступных инструментов. Для других клиентов (Windsurf, Cursor) укажите ту же команду в настройках MCP.

Примеры запросов

  • «Запусти регрессионный тест для агента поддержки и покажи, какие отклонения от эталона появились»
  • «Сравни последние десять выполнений с золотым эталоном и выдели изменения в выборе инструментов»
  • «Проверь, изменилось ли поведение после обновления модели GPT-4o, и дай оценку уверенности для каждого отклонения»
  • «Запиши новый эталон для сценария оформления заказа и настрой автоматический запуск проверки после каждого деплоя»
  • «Покажи историю дрифта за последнюю неделю и отфильтруй только регрессии системы (не провайдера)»

Технические детали

  • Язык: Python
  • Транспорт: stdio
  • Лицензия: Apache-2.0
  • Совместимые клиенты: Claude Desktop, GitHub Actions, любые MCP-клиенты (Windsurf, Cursor)
  • Поддерживаемые фреймворки агентов: LangGraph, CrewAI, OpenAI, Claude

Поделиться