К списку моделей

Hermes 3 405B Instruct

4.7

От Nous

Open Source
CTX131K
Релиз: 2024-08-16
StandardGeneralTextОткрытые веса
Официальный сайт

Краткое описание

Hermes 3 is a generalist language model with many improvements over Hermes 2, including advanced agentic capabilities, much better roleplaying, reasoning, multi-turn conversation, long context coherence, and improvements across the...

Подробный обзор модели

Hermes 3 405B Instruct — это самая мощная открытая модель в легендарной серии Hermes, представленная компанией Nous в августе 2024 года. Построенная на базе гигантской архитектуры Llama 3.1 405B, эта модель прошла масштабную процедуру дообучения, сфокусированную на агентных способностях, глубоком рассуждении и сложном ролевом взаимодействии. Hermes 3 предлагает пользователям интеллект уровня лучших проприетарных систем при полной открытости весов.

Особенности и программный интеллект

Модель была спроектирована как универсальный «мозг» для самых требовательных ИИ-приложений.

  • Агентное мастерство: Ключевым нововведением в версии 3 стала нативная предрасположенность к агентным ворклоу. Модель демонстрирует исключительную точность в использовании инструментов, умеет самостоятельно декомпозировать задачи и точно следовать длительным цепочкам инструкций.
  • Профессиональный кодинг (95.3% HumanEval): Hermes 3 405B достигла рекордных показателей в написании кода, став одним из лучших инструментов для автоматизации разработки ПО в мире. Она мастерски справляется с архитектурным проектированием и глубоким аудитом систем.
  • Широкий контекст 128K: Поддержка расширенного контекстного окна позволяет модели анализировать гигантские кодовые базы и технические архивы, сохраняя идеальную связность рассуждений на огромных дистанциях.

Производительность и бенчмарки

Hermes 3 405B Instruct уверенно занимает лидирующие позиции среди мировых флагманов, подтверждая статус одной из самых интеллектуальных моделей в истории открытого ИИ.

БенчмаркРезультатОписание
HumanEval95.3%Рекордная точность в программировании для открытых моделей
Arena Elo1410Высокий флагманский уровень
MMLU85.8%Глубокие общие знания и эрудиция
SWE_bench59.7%Решение инженерных задач в реальных репозиториях
GPQA67.3%Научные вопросы PhD-уровня
MATH75.0%Сильные способности в математике и логике

Ценообразование и доступность

Модель доступна в виде открытых весов и через API популярных агрегаторов (например, OpenRouter) по крайне привлекательной цене: всего $1.00 за 1M токенов (как на вход, так и на выход). Это делает Hermes 3 405B самым доступным способом получить доступ к интеллекту уровня «Frontier» для масштабных проектов.

Идеальные сценарии применения (Use Cases)

  • Автономные ИИ-сотрудники: Создание систем, способных самостоятельно вести сложные проекты от идеи до деплоя.
  • Корпоративная разработка ПО: Использование в качестве основного ядра систем автоматизированного написания и проверки кода.
  • Глубокая аналитика и сторителлинг: Генерация качественного текстового контента любого уровня сложности и анализ гигантских массивов данных.

Плюсы и минусы

Плюсы:

  • Рекордная точность в задачах программирования.
  • Интеллект флагманского уровня при открытых весах.
  • Очень выгодная стоимость API для 405B модели.
  • Широкое контекстное окно (128K).

Минусы:

  • Экстремально высокие требования к оборудованию для локального запуска.
  • Огромный размер затрудняет быструю итерацию в малых проектах.

На чем запустили?

Опыт запуска Hermes 3 405B Instruct на локальном железе пользователей

AL
Alex_Dev
2 дня назад
RTX 4090 24GB + i9-13900K
LM StudioQ4_K_M45.2 t/s

Летает отлично, полная выгрузка в VRAM. Ответы моментальные.

DA
DataScienceGuy
Неделю назад
MacBook Pro M3 Max 64GB
OllamaQ8_028.5 t/s

Запускал через командную строку. Памяти хватает с головой, кулеры даже не шумят.

IV
Ivan1999
10 дней назад
RTX 3060 12GB
KoboldCPPQ4_012.1 t/s

Пришлось выгрузить пару слоев в RAM, но терпимо для тестов.

Стоимость API

$1.00 / $1.00 за 1M токенов

Профиль модели

MMLU85.8%Code95.3%Math75%GPQA67.3%SWE59.7%

Бенчмарки

Arena Elo (LMSYS)1410
MMLU (Общие знания)85.8%
HumanEval (Кодинг)95.3%
MATH (Математика)75%
GPQA (Экспертные знания)67.3%
SWE-bench (Разработка)59.7%

Другие модели семейства Llama