Evalview MCP

Name: Evalview MCP
Author: hidai25

hidai25Apache-2.0

112 звёзд20 форков

EvalView — MCP-сервер для регрессионного тестирования AI-агентов. Он решает проблему скрытых регрессий: агент может вернуть HTTP 200, но вести себя неправильно — выбрать другой инструмент, пропустить обязательный шаг уточнения или выдать результат хуже по качеству. Обычные end-to-end тесты не замечают такого дрифта. EvalView записывает эталонное поведение агента («золотой эталон») и при каждом новом запуске сравнивает с ним выбор инструментов, цепочки вызовов и метаданные. Пример из жизни: вы обновили модель с GPT-4 на GPT-4o. Код не менялся, health check проходит. Но агент начал использовать вместо инструмента «Поиск» инструмент «Генерация ответа» — пользователь получает неактуальные данные. EvalView обнаружит это изменение, классифицирует как дрифт провайдера и покажет оценку уверенности. Если режим исцеления настроен, сервер может автоматически повторить вызов с другим промптом или направить разработчику. Сервер подходит для команд любого размера — от соло-разработчиков до стартапов. Он интегрируется с CI/CD, поддерживает LangGraph, CrewAI, OpenAI и Claude. Код открыт под лицензией Apache-2.0.

AI и машинное обучение Разработка

Подключить MCP Открыть на GitHub

Подключение

Подключить Evalview MCP

Выберите способ запуска и свой MCP-клиент. Ниже останется одна готовая инструкция, которую можно проверить и скопировать.

Способ подключения

Куда подключить

Скопируйте и проверьте

Claude Desktop / Claude Code

Клиент запускает MCP-сервер как локальный процесс.

1.Откройте настройки MCP в Claude.
2.Добавьте сервер с указанной командой и переменными окружения.
3.Перезапустите Claude, если сервер не появился автоматически.

json

{
  "mcpServers": {
    "evalview-mcp": {
      "command": "uvx",
      "args": [
        "evalview"
      ]
    }
  }
}

Сгенерировано из существующей команды запуска. Желательно сверить с README.

Инструкция собрана из данных карточки и пока не отмечена как проверенная редакцией. Сверьте команду с README источника и не передавайте лишние права или секреты.

Как оценить Evalview MCP

Evalview MCP относится к AI и машинное обучение, Разработка. Ниже собраны проверяемые признаки, по которым его можно сравнить с другими серверами каталога.

Происхождение: Проект сообщества
Лицензия: Apache-2.0
Реализация: Python
Транспорт: stdio

Что проверить перед выбором

Изучите README, открытые issues и историю последних изменений в репозитории.
Проверьте команду установки и зависимости перед запуском в рабочем окружении.
Ограничьте доступ MCP-сервера только нужными файлами, API и переменными окружения.

Карточка отредактирована 20.07.2026.

Автоматическая проверка источника ещё не выполнена. Внешних источников в карточке: 1.

Характеристики

Общее

СтатусСообщество
Разработчикhidai25
ЛицензияApache-2.0

Технологии

Языки
Python
Транспорт
stdio

Описание

Возможности

Создание золотых эталонов: запись корректного поведения агента по каждому сценарию
Обнаружение скрытых регрессий: фиксация изменений в выборе инструментов, структуре ответа, качестве вывода
Разделение дрифта: сервер отличает смену модели/провайдера от регрессии вашего кода
Автоматическое исцеление: повтор проблемных вызовов с проверкой, шлюзами и аудитом
Детерминированное воспроизведение: кассеты записывают вызовы один раз, CI проигрывает их без живых сервисов
Фиксация метаданных: для каждого прогона сохраняется модель, провайдер, время, версия агента
Интеграция с CI/CD: проверки запускаются автоматически в пайплайне
Поддержка мультиагентных сред: LangGraph, CrewAI
Классификация изменений с градуированной оценкой уверенности (не бинарный ответ)
Инспекция дрифта: наглядное сравнение эталонного и нового выполнения
Аудит всех исцелений и проверок с логом для команды
Шлюзы проверки: перед автоматическим исцелением изменение должен одобрить разработчик

Как подключить

Установка через uvx:

uvx evalview

Пример конфигурации для Claude Desktop:


{
  "mcpServers": {
    "evalview": {
      "command": "uvx",
      "args": ["evalview"]
    }
  }
}

Перезагрузите клиент, и MCP-сервер появится в списке доступных инструментов. Для других клиентов (Windsurf, Cursor) укажите ту же команду в настройках MCP.

Примеры запросов

«Запусти регрессионный тест для агента поддержки и покажи, какие отклонения от эталона появились»
«Сравни последние десять выполнений с золотым эталоном и выдели изменения в выборе инструментов»
«Проверь, изменилось ли поведение после обновления модели GPT-4o, и дай оценку уверенности для каждого отклонения»
«Запиши новый эталон для сценария оформления заказа и настрой автоматический запуск проверки после каждого деплоя»
«Покажи историю дрифта за последнюю неделю и отфильтруй только регрессии системы (не провайдера)»

Технические детали

Язык: Python
Транспорт: stdio
Лицензия: Apache-2.0
Совместимые клиенты: Claude Desktop, GitHub Actions, любые MCP-клиенты (Windsurf, Cursor)
Поддерживаемые фреймворки агентов: LangGraph, CrewAI, OpenAI, Claude

Telegram WhatsApp VK OK X

Обсудить с ИИ

ChatGPT Claude Gemini DeepSeek Perplexity

Совместимые AI-модели

Весь каталог

GPT-4oOpenAI · 128K GPT-4OpenAI · 8K