
evalview-mcp
hidai25Apache-2.0
112 звёзд20 форков
EvalView — MCP-сервер для регрессионного тестирования AI-агентов. Он решает проблему скрытых регрессий: агент может вернуть HTTP 200, но вести себя неправильно — выбрать другой инструмент, пропустить обязательный шаг уточнения или выдать результат хуже по качеству. Обычные end-to-end тесты не замечают такого дрифта. EvalView записывает эталонное поведение агента («золотой эталон») и при каждом новом запуске сравнивает с ним выбор инструментов, цепочки вызовов и метаданные.
Пример из жизни: вы обновили модель с GPT-4 на GPT-4o. Код не менялся, health check проходит. Но агент начал использовать вместо инструмента «Поиск» инструмент «Генерация ответа» — пользователь получает неактуальные данные. EvalView обнаружит это изменение, классифицирует как дрифт провайдера и покажет оценку уверенности. Если режим исцеления настроен, сервер может автоматически повторить вызов с другим промптом или направить разработчику.
Сервер подходит для команд любого размера — от соло-разработчиков до стартапов. Он интегрируется с CI/CD, поддерживает LangGraph, CrewAI, OpenAI и Claude. Код открыт под лицензией Apache-2.0.
Установка
uvx evalviewХарактеристики
Общее
- СтатусСообщество
- Разработчикhidai25
- ЛицензияApache-2.0
Технологии
- ЯзыкиPython
- Транспортstdio
Описание
Возможности
- Создание золотых эталонов: запись корректного поведения агента по каждому сценарию
- Обнаружение скрытых регрессий: фиксация изменений в выборе инструментов, структуре ответа, качестве вывода
- Разделение дрифта: сервер отличает смену модели/провайдера от регрессии вашего кода
- Автоматическое исцеление: повтор проблемных вызовов с проверкой, шлюзами и аудитом
- Детерминированное воспроизведение: кассеты записывают вызовы один раз, CI проигрывает их без живых сервисов
- Фиксация метаданных: для каждого прогона сохраняется модель, провайдер, время, версия агента
- Интеграция с CI/CD: проверки запускаются автоматически в пайплайне
- Поддержка мультиагентных сред: LangGraph, CrewAI
- Классификация изменений с градуированной оценкой уверенности (не бинарный ответ)
- Инспекция дрифта: наглядное сравнение эталонного и нового выполнения
- Аудит всех исцелений и проверок с логом для команды
- Шлюзы проверки: перед автоматическим исцелением изменение должен одобрить разработчик
Как подключить
Установка через uvx:
uvx evalview
Пример конфигурации для Claude Desktop:
{
"mcpServers": {
"evalview": {
"command": "uvx",
"args": ["evalview"]
}
}
}
Перезагрузите клиент, и MCP-сервер появится в списке доступных инструментов. Для других клиентов (Windsurf, Cursor) укажите ту же команду в настройках MCP.
Примеры запросов
- «Запусти регрессионный тест для агента поддержки и покажи, какие отклонения от эталона появились»
- «Сравни последние десять выполнений с золотым эталоном и выдели изменения в выборе инструментов»
- «Проверь, изменилось ли поведение после обновления модели GPT-4o, и дай оценку уверенности для каждого отклонения»
- «Запиши новый эталон для сценария оформления заказа и настрой автоматический запуск проверки после каждого деплоя»
- «Покажи историю дрифта за последнюю неделю и отфильтруй только регрессии системы (не провайдера)»
Технические детали
- Язык: Python
- Транспорт: stdio
- Лицензия: Apache-2.0
- Совместимые клиенты: Claude Desktop, GitHub Actions, любые MCP-клиенты (Windsurf, Cursor)
- Поддерживаемые фреймворки агентов: LangGraph, CrewAI, OpenAI, Claude