OpenAI запускает GPT-5.6 Sol, Terra и Luna: новый этап ИИ

Двадцать шестого июня 2026 года компания OpenAI официально объявила о старте ограниченного предварительного доступа к новому поколению своих языковых моделей — серии GPT-5.6. В линейку вошли три модификации, призванные закрыть различные потребности рынка: флагманская модель максимальной производительности GPT-5.6 Sol, сбалансированная модель для повседневных задач GPT-5.6 Terra и самая быстрая и доступная GPT-5.6 Luna. Этот запуск знаменует собой не только технологический скачок в производительности, но и новую эру в подходе к безопасности и взаимодействию с государственными регуляторами. В отличие от предыдущих релизов, доступ к новинкам на начальном этапе строго ограничен.

Контекст запуска и взаимодействие с правительством США

Пожалуй, самым необычным аспектом релиза стало тесное и беспрецедентное сотрудничество OpenAI с правительством США. Компания заранее предоставила американским властям подробную информацию о планах запуска и о возможностях новых моделей. По прямой просьбе правительства, запуск начинается с очень ограниченной группы доверенных партнеров, чье участие было заранее согласовано с властями.

В официальном заявлении OpenAI подчеркивается временный характер этой процедуры. Компания прямо заявляет, что не считает подобную модель взаимодействия долгосрочным стандартом для индустрии.

«Мы не считаем, что подобная процедура согласования с государством должна стать долгосрочным стандартом, — заявили в OpenAI. — Это лишает лучших инструментов пользователей, разработчиков, предприятия, киберзащитников и глобальных партнеров, которые в них нуждаются. Мы делаем этот краткосрочный шаг, поскольку считаем его наиболее надежным путем к широкой доступности в ближайшие недели, продолжая работу с Администрацией над развитием кибер-исполнительного указа и повторяемого процесса для будущих релизов моделей».

Новая система именования и режимы работы

С выходом GPT-5.6 OpenAI вводит новую систему нейминга, призванную сделать выбор модели более прозрачным для пользователя. Цифра «5.6» обозначает поколение модели и её базовую архитектуру. В то же время имена Sol, Terra и Luna закрепляются за определёнными уровнями возможностей (capability tiers). Эти уровни могут развиваться независимо друг от друга по мере выхода новых поколений, предоставляя разработчикам и пользователям четкое и предсказуемое понимание соотношения интеллекта, скорости и стоимости.

GPT-5.6 Sol получила два новых ключевых режима рассуждений, расширяющих её возможности за пределы стандартного взаимодействия:

1. Режим `max`: Этот режим предоставляет Sol максимальное время для глубокого анализа и построения длинных, сложных цепочек рассуждений. Когда задача требует нетривиального логического вывода, `max` позволяет модели «думать дольше», что напрямую сказывается на качестве результата в сложных сценариях, таких как научные исследования, разработка сложного кода и стратегический анализ.

2. Режим `ultra`: Этот режим выводит концепцию агентности на совершенно новый уровень. Вместо того чтобы полагаться на одного агента, `ultra` использует систему субагентов (subagents). Эти субагенты могут работать параллельно над различными частями задачи или выполнять последовательные шаги в сложном рабочем процессе. По сути, это переход от одного «сверхинтеллекта» к координированной команде ИИ-агентов, что позволяет радикально ускорить решение масштабных и комплексных проблем.

Производительность: новый эталон в кодинге, биологии и кибербезопасности

По заявлению OpenAI, GPT-5.6 Sol является самой мощной моделью в истории компании. Результаты внутренних бенчмарков демонстрируют значительный скачок в агентных способностях модели — её умении самостоятельно планировать и выполнять многошаговые задачи, используя различные инструменты. Полный набор оценок будет опубликован при широком запуске.

Кодинг и работа с командной строкой

В бенчмарке Terminal-Bench 2.1, который специально разработан для оценки агентных способностей модели при работе с командной строкой (CLI), GPT-5.6 Sol Ultra установила новый абсолютный рекорд, набрав 91.9%. Этот тест требует от модели не просто написания кода, а полноценного планирования, итеративной разработки, отладки и координации различных инструментов и скриптов.

Модель Sol в стандартном режиме показала 88.8%, что уже ставит её значительно выше таких конкурентов, как Claude Mythos 5 (84.3%) и Claude Fable 5 (83.4%) от Anthropic. GPT-5.5, предыдущая флагманская модель OpenAI, набрала 84.3%, что демонстрирует уверенный отрыв нового поколения. GPT-5.6 Terra (82.5%) и GPT-5.6 Luna (78.9%) также показывают впечатляющие результаты, особенно учитывая их значительно более низкую стоимость по сравнению с GPT-5.5. Для сравнения, Gemini 3.1 Pro Preview от Google завершает список с результатом 70.7%.

Биология и геномика

В области наук о жизни на тесте GeneBench v1, оценивающем способность модели к долгосрочному анализу в геномике и количественной биологии, GPT-5.6 Sol превзошла результаты GPT-5.5, используя при этом меньшее количество токенов. Это означает, что модель стала не только умнее, но и эффективнее в обработке сложных биологических данных, таких как последовательности ДНК, анализ экспрессии генов и метаболические пути, что открывает новые возможности для исследований.

Кибербезопасность

Кибербезопасность стала одной из ключевых точек приложения усилий разработчиков нового поколения. GPT-5.6 Sol сдвигает границу «производительность-эффективность» для долгосрочных задач безопасности, включая исследование и эксплуатацию уязвимостей.

На тесте ExploitBench Sol показала результаты, конкурентоспособные с моделью Mythos Preview, используя при этом примерно на треть меньше выходных токенов. Это критически важно для практического применения, так как напрямую снижает стоимость использования модели для задач пентеста и анализа защищенности.

На бенчмарке ExploitGym, созданном исследователями Калифорнийского университета в Беркли совместно с OpenAI и другими ведущими лабораториями, все три модели семейства GPT-5.6 (Sol, Terra и Luna) демонстрируют значительное улучшение киберспособностей по мере увеличения выделяемого времени на рассуждения. ExploitGym представляет собой динамическую среду, где модель должна взаимодействовать с системой, находить уязвимости и разрабатывать эксплойты. Рост результатов на этом тесте подтверждает, что подход с масштабированием вычислительных ресурсов на этапе рассуждений (scaling reasoning compute) работает и для сложных интерактивных задач безопасности.

Философия безопасности: доминирование обороны

Ключевая особенность GPT-5.6 — это подход к безопасности, который OpenAI описывает как «сделать запрещенную наступательную деятельность более сложной, неопределенной и обнаруживаемой, без необоснованного ограничения полезных оборонительных применений, таких как ревью кода, исследование уязвимостей, разработка патчей, отладка, обучение безопасности и тестирование защиты».

Порог киберкритичности (Cyber Critical Threshold)

Согласно внутреннему Рамочному документу по подготовленности (Preparedness Framework), GPT-5.6 Sol не пересекает Кибер-критический порог. Что это значит на практике?
В ходе испытаний с браузерами Chromium и Firefox модель успешно находила уязвимости (баги) и примитивы эксплуатации (строительные блоки эксплойта). Однако она не смогла автономно собрать из этих блоков функциональную полноценную цепочку эксплойтов (full-chain exploit) без вмешательства человека в заданных условиях тестирования.

Компания прямо заявляет: «GPT-5.6 Sol значительно лучше помогает находить и исправлять уязвимости, чем надежно проводить атаки „под ключ"». Это ключевой сигнал для специалистов по кибербезопасности: OpenAI нацелена на то, чтобы усилить защитников, а не атакующих. Тем не менее, компания признает, что бенчмарки не могут предсказать все возможные сценарии использования, и именно сочетание возросших способностей с необходимостью защиты от неизвестных атак диктует применение беспрецедентных мер защиты.

Многоуровневая архитектура защиты

OpenAI отказалась от идеи одного «серебряного ключа» в защите. Вместо этого развернута многоуровневая эшелонированная оборона, конфигурации которой варьируются для каждой из трех моделей в зависимости от их возможностей. Вот как работают эти уровни:

1. Встроенные ограничения модели (Model-Level Guardrails): Модели обучены отказывать в помощи по запрещенным киберзапросам, даже если пользователь пытается обойти защиту с помощью джейлбрейков или маскировки намерений. Это первый, базовый уровень фильтрации, задающий границы дозволенного.

2. Классификаторы в реальном времени (Real-time Classifiers): Специализированные ИИ-классификаторы для областей кибербезопасности и биологии анализируют каждый генерируемый токен на лету. Для особо рискованных случаев действует усиленная процедура:

Если классификатор обнаруживает потенциальное нарушение, генерация текста приостанавливается.
В дело вступает более крупная и мощная модель-рассуждатель (reasoning model), которая полностью анализирует контекст всего диалога, намерения пользователя и потенциальный вред.
Если результат признается недопустимым, он безвозвратно блокируется до того, как пользователь его увидит.

3. Проверка на уровне аккаунта (Account-level Review): Система обучения безопасности не ограничивается одним диалогом. Помеченная активность анализируется в разрезе множества разговоров и сигналов риска, связанных с учетной записью. Это ключевой механизм для отличия настойчивого злонамеренного поведения от легитимной работы «белых хакеров» и специалистов по безопасности, где технические термины и концепции часто идентичны.

4. Дифференцированный доступ (Differentiated Access): Наиболее мощные и потенциально опасные возможности не делаются широкодоступными по умолчанию. Доступ к ним может контролироваться в рамках партнерских программ или корпоративных соглашений, позволяя сохранить доступ для оборонительных задач, не делая чувствительные инструменты доступными всем.

Вместе эти слои создают систему, значительно более надежную, чем любой отдельный компонент. Однако в период превью пользователи могут столкнуться с ложными срабатываниями — блокировками или задержками легитимных запросов, особенно в областях двойного назначения, где оборонительная и наступательная деятельность могут выглядеть одинаково на начальном этапе.

Openaway признает, что это является частью процесса тестирования. «Мы хотим понять не только то, сдерживают ли защитные механизмы злоупотребления, но и могут ли легитимные пользователи по-прежнему надежно и эффективно выполнять свою обычную работу», — заявили в компании. Обратная связь от пользователей в этот период имеет решающее значение для настройки тонкого баланса между безопасностью и функциональностью.

Кроме того, OpenAI работает с корпоративными заказчиками над долгосрочными подходами, включая технологии выявления угроз с сохранением приватности (privacy-preserving detection), системы контроля безопасности, управляемые заказчиком, и доступ, калибруемый под уровень риска конкретного клиента. Эти инициативы направлены на повышение безопасности без ущерба для требований к корпоративной конфиденциальности.

Автоматизированное тестирование на проникновение (Red Teaming)

Для того чтобы защита оставалась эффективной против эволюционирующих тактик злоумышленников, OpenAI применила беспрецедентные вычислительные ресурсы для обеспечения надежности защиты. На автоматизированный поиск уязвимостей (automated red teaming) было выделено более 700 000 часов GPU (в пересчете на мощность A100).

Цель поиска: «Универсальные джейлбрейки» (universal jailbreaks) — методы атаки, которые работают в широком спектре контекстов и промптов, а не только в одном узком сценарии. Сосредоточившись на этих общих, более сложных паттернах атак, OpenAI смогла протестировать защиту на неизмеримо большем количестве типов атак, чем это возможно при ручном тестировании. Это позволило выявить целые классы уязвимостей на ранней стадии и значительно сократить цикл «обнаружение — исправление».

«Сосредоточившись на этих более сложных и общих атаках, мы смогли протестировать защиту за пределами фиксированного набора известных сбоев. Это также позволило нам исследовать гораздо больше паттернов атак, чем может охватить ручное тестирование, быстрее выявлять типы отказов и сокращать путь от обнаружения уязвимости до её устранения», — поясняют в компании.

Автоматизированное тестирование дополняется обширным ручным тестированием с участием сторонних экспертов (human red teaming), которые пытаются обойти защиту творческими или нестандартными методами, не запрограммированными в автоматических системах. Этот процесс продолжится и в период предварительного показа.

Кроме того, OpenAI поддерживает процесс быстрого реагирования (rapid-response process), чтобы немедленно воспроизводить, оценивать, приоритезировать и устранять вновь найденные джейлбрейки, добавляя их в тестовые наборы для предотвращения повторения подобных сбоев в будущем.

Доступность и цены: что нужно знать

На этапе предварительного тестирования модели GPT-5.6 будут доступны через API и платформу Codex только для отобранной группы доверенных партнеров и организаций. Широкий доступ для пользователей ChatGPT, Codex и всех разработчиков через API планируется открыть в ближайшие недели.

Стоимость: разумная экономия для разных задач

OpenAI установила четкое и предсказуемое ценообразование за 1 миллион токенов:

Модель	Входные токены (Input)	Выходные токены (Output)
GPT-5.6 Sol (Флагманская)	$5.00	$30.00
GPT-5.6 Terra (Сбалансированная)	$2.50	$15.00
GPT-5.6 Luna (Бюджетная)	$1.00	$6.00

GPT-5.6 Terra заслуживает особого упоминания: она демонстрирует производительность, конкурентоспособную с GPT-5.5, но при этом стоит в два раза дешевле. Это делает её чрезвычайно привлекательной для повсеместного использования в бизнесе и разработке. GPT-5.6 Luna предлагает сильные возможности по самой низкой цене, открывая доступ к передовым ИИ-технологиям для стартапов и независимых разработчиков.

Кэширование промптов (Prompt Caching)

Вместе с новой серией моделей OpenAI представляет улучшенную систему кэширования, дающую разработчикам больший контроль и предсказуемость. Ключевые нововведения:

Явные точки остановки кэша (Explicit cache breakpoints): Разработчики могут точно указать, где начинается и заканчивается повторяющаяся часть запроса (системный промпт, контекстная информация), что позволяет максимально эффективно использовать кэш.
Минимальное время жизни кэша: 30 минут. Это гарантирует, что часто используемые промпты не будут удалены слишком рано, обеспечивая стабильное время ответа и предсказуемость расходов.
Тарифы: Запись в кэш тарифицируется с коэффициентом 1.25x от стандартной стоимости входных токенов. Чтение из кэша, как и прежде, получает стандартную скидку в 90% от стоимости входных токенов. Это стимулирует разработчиков оптимизировать свои запросы для достижения максимальной экономии.

Запуск на Cerebras: новый рубеж скорости

Отдельного внимания заслуживает партнерство с компанией Cerebras, специализирующейся на создании больших чипов для ИИ. Запуск GPT-5.6 Sol на их платформе ожидается в июле 2026 года. Платформа Cerebras обещает обеспечить скорость обработки до 750 токенов в секунду, что выводит скорость работы флагманской модели на совершенно новый уровень, недостижимый на стандартных облачных GPU-инстансах. На начальном этапе доступ к этой сверхбыстрой версии модели будет ограничен для избранных клиентов в рамках расширения инфраструктуры.

Технические примечания к оценке производительности

OpenAI также предоставила методологию тестирования для обеспечения прозрачности результатов:

1. Оценки задержки и стоимости API основаны на моделировании производственного поведения моделей и симуляции офлайн. Реальные результаты могут существенно различаться в зависимости от множества факторов, не учтенных в симуляции, таких как загрузка сети и серверов.
2. Тестирование ExploitBench проводилось с использованием API-обвязки с 5 сидами и непрерывностью рассуждений для обеспечения статистической значимости результатов.
3. Тестирование ExploitGym проводилось на альфа-версии API, которая отвечает быстрее публичного API. Результаты были перемасштабированы в соответствии со скоростью публичного API, что могло привести к превышению временных лимитов (2 и 6 часов) в симуляции, хотя в реальном тестовом прогоне они соблюдались. Для чувствительных к задержкам задач OpenAI предлагает приоритетную обработку в API и быстрый режим в Codex.
4. Модели, по которым не были предоставлены данные о стоимости выходных токенов, задержке или стоимости, отображались на графиках в виде горизонтальных пунктирных линий для честного сравнения.

Заключение

OpenAI делает ставку на сбалансированный и ответственный подход. GPT-5.6 Sol, Terra и Luna предлагают впечатляющий рост производительности, особенно в агентных сценариях, но этот рост сопровождается столь же впечатляющими инвестициями в безопасность. Ограниченный запуск и тесное сотрудничество с правительством США — это новый и, возможно, спорный, но прагматичный шаг, направленный на то, чтобы не допустить повторения прошлых ошибок и обеспечить максимально безопасное внедрение передовых технологий.

Компания явно дала понять, что не считает такую модель взаимодействия долгосрочной. Основная цель периода предварительного доступа — собрать достаточно данных и обратной связи, чтобы к моменту широкого запуска система безопасности была максимально отлажена, а «ложные срабатывания» сведены к минимуму. Как скоро GPT-5.6 станет доступна всем желающим, покажет время, но начало положено, и оно является крайне многообещающим шагом на пути к созданию мощных и одновременно безопасных систем искусственного интеллекта.