Правительство США 12 июня 2026 года ввело экспортный контроль на модели Anthropic Claude Fable 5 и Mythos 5, фактически заблокировав к ним доступ во всем мире. Причиной стал отчет исследователей Amazon, обнаруживших метод обхода защиты Fable 5, который позволял выявлять уязвимости в программном обеспечении и даже генерировать код для их эксплуатации.
30 июня ограничения были сняты. С 1 июля Fable 5 снова доступен пользователям по всему миру на платформе Anthropic (Claude.ai, Claude Code, Claude Cowork), а компания представила отраслевой стандарт оценки серьезности джейлбрейков и анонсировала углубленное сотрудничество с властями в области кибербезопасности.
**Хронология инцидента и устранение уязвимости**
Модели были выпущены 9 июня. Fable 5 получил мощные встроенные ограничения безопасности для общего использования, в то время как Mythos 5 (с минимумом защит) был доступен только узкому кругу партнеров по оборонной программе Glasswing.
Экспортные ограничения 12 июня стали ответом на находку исследователей Amazon: они нашли способ обойти защиту Fable 5 и заставить модель продемонстрировать идентификацию уязвимостей и эксплойт к одной из них. Проверка Anthropic показала, что аналогичные результаты могут воспроизвести и другие модели, включая Claude Opus 4.8, GPT-5.5 и Kimi K2.7. Речь шла о пограничном случае, а не о прорывных наступательных способностях уровня Mythos.
Для решения проблемы Anthropic разработала улучшенный классификатор безопасности, который блокирует конкретный метод атаки более чем в 99% случаев. В случае срабатывания защиты запрос перенаправляется на менее мощную модель Opus 4.8. Эффективность нового механизма подтверждена экспертами Центра стандартов и инноваций в области ИИ Министерства торговли США (CAISI).
Плата за возросшую безопасность — увеличение ложных срабатываний: классификатор стал чаще блокировать безобидные запросы во время рутинной отладки кода. Компания обещает постепенно снижать этот показатель.
**Принципы безопасности: запас прочности и типы угроз**
Mythos 5 остается самой мощной моделью для поиска и эксплуатации уязвимостей, превосходящей всех, кроме самых квалифицированных хакеров. Fable 5, напротив, не дает уникальных наступательных возможностей благодаря самой строгой системе защит в истории компании.
Ключевой элемент — «запас прочности» (safety margin). Классификаторы безопасности блокируют не только заведомо опасные действия, но и все запросы, которые с минимальной вероятностью могут быть вредоносными. Для Fable 5 этот запас был сделан максимально широким, что приводит к отказам модели на многие легитимные запросы, но практически исключает пропуск реальной угрозы.
Anthropic делит джейлбрейки на три типа:
* **Незначительные:** Позволяют проникнуть в «серую зону» защит, но не дают доступа к опасному функционалу. Именно к таким отнесен инцидент с Amazon.
* **Узкие опасные:** Открывают доступ к конкретному вредоносному действию.
* **Универсальные:** Снимают защиту с целого класса опасных сценариев. На данный момент для Fable 5 таких джейлбрейков не обнаружено.
**Новый отраслевой стандарт для оценки джейлбрейков**
Anthropic совместно с Amazon, Microsoft, Google и другими партнерами по Glasswing разрабатывает первую общепринятую систему оценки серьезности джейлбрейков. Отсутствие такого стандарта, по мнению компании, создает неопределенность как для разработчиков, так и для правительств.
Предложено оценивать уязвимости по четырем критериям:
1. **Прирост возможностей (Capability Gain):** Насколько результат джейлбрейка превосходит возможности уже доступных инструментов (включая более слабые ИИ-модели).
2. **Широта применения (Breadth):** Работает ли метод против одной задачи или открывает доступ к множеству различных сценариев.
3. **Легкость превращения в атаку (Ease of Weaponization):** Требует ли джейлбрейк высокой квалификации и множества попыток или срабатывает с первого запроса.
4. **Доступность информации (Discoverability):)** Известен ли метод узкому кругу специалистов или уже распространен в открытых источниках.
В зависимости от набранного балла компания планирует выбирать скорость и масштаб реакции. Для самых серьезных угроз будет развернуто круглосуточное дежурство команды по блокировке. Для сбора данных о новых уязвимостях запускается программа HackerOne.
**Расширение сотрудничества с правительством США**
Инцидент привел к значительному углублению взаимодействия Anthropic с администрацией США. Компания берет на себя четыре новых обязательства:
1. **Предварительный доступ:** Правительство получит ранний доступ к будущим моделям и их защитам для независимой оценки до публичного релиза.
2. **Обмен данными:** Информация о серьезных джейлбрейках будет мгновенно передаваться властям вместе с инструментами для их блокировки.
3. **Совместные исследования:** Anthropic выделит вычислительные мощности и команды инженеров для работы над правительственными приоритетами в сфере ИИ-безопасности.
4. **Единый стандарт:** Компания будет работать над созданием добровольных отраслевых стандартов безопасности, которые правительство сможет применять ко всем разработчикам frontier-моделей.
В Anthropic подчеркивают, что будущие правила должны быть закреплены в законодательстве и создавать прозрачную процедуру для выпуска мощных моделей, дающую уверенность разработчикам и пользователям.
Источник: https://www.anthropic.com/news/redeploying-fable-5
Комментарии(0)
Оставьте комментарий
Войдите, чтобы присоединиться к обсуждению