К списку моделей

Grok 3

От xAI

Proprietary
CTX131K
Релиз: 2025-06-10
StandardGeneralText
Официальный сайт

Краткое описание

Grok 3 — последняя модель от xAI. Это их флагманская модель, которая превосходно справляется с корпоративными задачами, такими как извлечение данных, кодирование и обобщение текста. Обладает глубокими знаниями в области...

Подробный обзор модели

Grok 3 — это флагманская языковая модель от компании xAI, представленная в феврале 2025 года. Обученная на мощностях суперкомпьютера Colossus (крупнейшего в мире на момент запуска), Grok 3 совершила качественный скачок в производительности, став первой моделью, преодолевшей барьер в 1400 пунктов Arena Elo и заняв лидирующие позиции в STEM-дисциплинах, программировании и сложном анализе данных.

Архитектура и Colossus

Модель Grok 3 была обучена на кластере из 100 000 графических процессоров NVIDIA H100, объединенных высокоскоростной сетью Spectrum-X. Это позволило использовать в 10 раз больше вычислительных мощностей по сравнению с Grok 2.

  • Инфраструктура: Обучение проходило в Мемфисе на базе суперкомпьютера Colossus, который к началу 2026 года был расширен до 555 000 GPU.
  • Данные: В датасет вошли не только гигантские массивы открытого интернета, но и данные в реальном времени из социальной сети X (бывший Twitter), а также обширные синтетические данные для улучшения логических способностей.
  • Контекстное окно: Модель поддерживает 131 000 токенов (с возможностью расширения до 1M в специализированных корпоративных версиях).

Ключевые особенности и режимы

Grok 3 предлагает пользователям уникальные инструменты для глубокой аналитики:

  • DeepSearch: Интеллектуальный поисковый агент, способный проводить многошаговые исследования. Он анализирует десятки веб-страниц и постов в X, формируя синтезированный ответ с цитированием первоисточников.
  • Think Mode: Режим глубокого рассуждения (аналог «Thinking» у моделей o1/o3). Модель тратит дополнительное время на построение цепочки мыслей, самопроверку и исследование альтернативных вариантов перед выдачей финального ответа.
  • Big Brain Mode: Специализированный режим для обработки сверхсложных данных и решения крупномасштабных логических задач.
  • Нативная мультимодальность: Модель нативно понимает изображения и видео (через архитектуру Aurora), обеспечивая высокую точность визуального анализа.

Производительность и бенчмарки

Grok 3 установила несколько мировых рекордов, особенно в математике и точных науках. В тесте AIME 2025 модель показала результат свыше 90%, что является беспрецедентным уровнем для ИИ.

БенчмаркРезультатОписание
Arena Elo1492Абсолютный лидер на момент релиза
MMLU92.7%Энциклопедические знания и эрудиция
HumanEval95.0%Генерация программного кода (премиум)
MATH87.4%Сложные математические рассуждения
GPQA68.1%PhD-уровень научных вопросов
SWE_bench63.7%Автономное решение инженерных задач

Ценообразование и доступность

Через API Grok 3 доступна по премиальной цене: $3.00 за 1M входных токенов и $15.00 за 1M выходных токенов. Такая стоимость оправдана исключительной точностью и скоростью модели, а также её уникальными способностями к автономному исследованию сети.

Идеальные сценарии применения (Use Cases)

  • Комплексные исследования (Research): Автоматический сбор и систематизация данных по узкоспециализированным темам.
  • Enterprise-разработка: Написание архитектуры сложных систем, аудит безопасности и автономная отладка кода.
  • Аналитика в реальном времени: Мониторинг рынков и событий с использованием данных из X и глобальной сети.

Плюсы и минусы

Плюсы:

  • Лучшая в классе точность в STEM и программировании.
  • Уникальный доступ к данным реального времени (X).
  • Продвинутые механизмы «мышления» и поиска.
  • Высочайшая скорость работы благодаря оптимизации на Colossus.

Минусы:

  • Высокая стоимость API по сравнению с конкурентами.
  • Контекстное окно в базовой версии (131K) меньше, чем у флагманов Google или Anthropic.

Стоимость API

$3.00 / $15.00 за 1M токенов

Профиль модели

MMLU92.7%Code95%Math87.4%GPQA68.1%SWE63.7%

Бенчмарки

Arena Elo (LMSYS)1492
MMLU (Общие знания)92.7%
HumanEval (Кодинг)95%
MATH (Математика)87.4%
GPQA (Экспертные знания)68.1%
SWE-bench (Разработка)63.7%

Другие модели семейства Grok