К списку моделей

Grok 3

4.3

От xAI

Proprietary
CTX131K
Релиз: 2025-06-10
StandardGeneralText
Официальный сайт

Краткое описание

Grok 3 is the latest model from xAI. It's their flagship model that excels at enterprise use cases like data extraction, coding, and text summarization. Possesses deep domain knowledge in...

Подробный обзор модели

Grok 3 — это флагманская языковая модель от компании xAI, представленная в феврале 2025 года. Обученная на мощностях суперкомпьютера Colossus (крупнейшего в мире на момент запуска), Grok 3 совершила качественный скачок в производительности, став первой моделью, преодолевшей барьер в 1400 пунктов Arena Elo и заняв лидирующие позиции в STEM-дисциплинах, программировании и сложном анализе данных.

Архитектура и Colossus

Модель Grok 3 была обучена на кластере из 100 000 графических процессоров NVIDIA H100, объединенных высокоскоростной сетью Spectrum-X. Это позволило использовать в 10 раз больше вычислительных мощностей по сравнению с Grok 2.

  • Инфраструктура: Обучение проходило в Мемфисе на базе суперкомпьютера Colossus, который к началу 2026 года был расширен до 555 000 GPU.
  • Данные: В датасет вошли не только гигантские массивы открытого интернета, но и данные в реальном времени из социальной сети X (бывший Twitter), а также обширные синтетические данные для улучшения логических способностей.
  • Контекстное окно: Модель поддерживает 131 000 токенов (с возможностью расширения до 1M в специализированных корпоративных версиях).

Ключевые особенности и режимы

Grok 3 предлагает пользователям уникальные инструменты для глубокой аналитики:

  • DeepSearch: Интеллектуальный поисковый агент, способный проводить многошаговые исследования. Он анализирует десятки веб-страниц и постов в X, формируя синтезированный ответ с цитированием первоисточников.
  • Think Mode: Режим глубокого рассуждения (аналог «Thinking» у моделей o1/o3). Модель тратит дополнительное время на построение цепочки мыслей, самопроверку и исследование альтернативных вариантов перед выдачей финального ответа.
  • Big Brain Mode: Специализированный режим для обработки сверхсложных данных и решения крупномасштабных логических задач.
  • Нативная мультимодальность: Модель нативно понимает изображения и видео (через архитектуру Aurora), обеспечивая высокую точность визуального анализа.

Производительность и бенчмарки

Grok 3 установила несколько мировых рекордов, особенно в математике и точных науках. В тесте AIME 2025 модель показала результат свыше 90%, что является беспрецедентным уровнем для ИИ.

БенчмаркРезультатОписание
Arena Elo1492Абсолютный лидер на момент релиза
MMLU92.7%Энциклопедические знания и эрудиция
HumanEval95.0%Генерация программного кода (премиум)
MATH87.4%Сложные математические рассуждения
GPQA68.1%PhD-уровень научных вопросов
SWE_bench63.7%Автономное решение инженерных задач

Ценообразование и доступность

Через API Grok 3 доступна по премиальной цене: $3.00 за 1M входных токенов и $15.00 за 1M выходных токенов. Такая стоимость оправдана исключительной точностью и скоростью модели, а также её уникальными способностями к автономному исследованию сети.

Идеальные сценарии применения (Use Cases)

  • Комплексные исследования (Research): Автоматический сбор и систематизация данных по узкоспециализированным темам.
  • Enterprise-разработка: Написание архитектуры сложных систем, аудит безопасности и автономная отладка кода.
  • Аналитика в реальном времени: Мониторинг рынков и событий с использованием данных из X и глобальной сети.

Плюсы и минусы

Плюсы:

  • Лучшая в классе точность в STEM и программировании.
  • Уникальный доступ к данным реального времени (X).
  • Продвинутые механизмы «мышления» и поиска.
  • Высочайшая скорость работы благодаря оптимизации на Colossus.

Минусы:

  • Высокая стоимость API по сравнению с конкурентами.
  • Контекстное окно в базовой версии (131K) меньше, чем у флагманов Google или Anthropic.

Стоимость API

$3.00 / $15.00 за 1M токенов

Профиль модели

MMLU92.7%Code95%Math87.4%GPQA68.1%SWE63.7%

Бенчмарки

Arena Elo (LMSYS)1492
MMLU (Общие знания)92.7%
HumanEval (Кодинг)95%
MATH (Математика)87.4%
GPQA (Экспертные знания)68.1%
SWE-bench (Разработка)63.7%

Другие модели семейства Grok