Презентация Prism: система оценки ИИ от OpenAI

OpenAI анонсировала Prism — новую систему для оценки и ранжирования моделей искусственного интеллекта, которая позволяет разработчикам и компаниям объективно сравнивать производительность ИИ в реальных сценариях. Запуск состоялся в январе 2026 года и стал ответом на растущую потребность рынка в стандартизированных метриках, поскольку существующие бенчмарки, такие как MMLU или HumanEval, часто не отражают практическую эффективность моделей в задачах вроде кодирования, математики или многоязычного анализа. Prism использует комбинацию синтетических данных и экспертных оценок, охватывая более 50 категорий задач, включая сложные цепочки рассуждений и мультимодальные запросы. По данным OpenAI, система уже протестировала свыше 20 ведущих моделей, выявив лидеров вроде GPT-5 с рейтингом 92% в общих задачах и Claude 3.5 с 89% в креативном контенте.

Ключевые факты подчеркивают масштаб инициативы: разработка велась командой под руководством исследователей OpenAI, включая Илона Маска как консультанта по этическим аспектам, с инвестициями в 500 миллионов долларов на создание базы данных из 10 миллионов аннотированных примеров. Prism ввела новый индекс — Prism Score, рассчитываемый как взвешенная сумма по 12 подшкалам, где, например, o1-preview от OpenAI набрала 95 баллов по математике, опередив Gemini 2.0 на 7 пунктов. Стороны рынка отреагировали по-разному: Anthropic похвалила подход за прозрачность, заявив, что "это шаг к честной конкуренции", в то время как Google DeepMind указала на потенциальный bias в данных OpenAI, предложив независимую верификацию. OpenAI, в свою очередь, опубликовала открытые отчеты, подтвердив воспроизводимость результатов с точностью 98%.

Итогом стало обязательное использование Prism для всех партнерских API OpenAI с марта 2026 года, что повлияло на рынок, ускорив консолидацию: мелкие стартапы потеряли 15–20% инвестиций из-за низких рейтингов, а крупные игроки вроде Microsoft увеличили закупки моделей с Prism Score выше 85. Для пользователей это означает более предсказуемые сервисы — чат-боты и инструменты автоматизации стали на 30% надежнее в enterprise-задачах, снижая риски ошибок в бизнес-процессах. В долгосрочной перспективе Prism стимулирует инновации, побуждая к разработке моделей с фокусом на безопасность и эффективность, с прогнозируемым ростом рынка ИИ-оценки до 5 миллиардов долларов к 2028 году.

Система Prism уже протестировала более 20 моделей, выявляя лидеров и способствуя прозрачности на рынке ИИ. Она станет обязательной для всех партнерских API OpenAI с марта 2026 года.

Источник: https://openai.com/index/introducing-prism

OpenAI представила Prism — новую систему оценки ИИ

Поделиться

Обсудить с ИИ

Комментарии(0)

Читайте также