К списку моделей

Llama 4 Maverick

4.2

От Meta

Open Source
CTX1M
Релиз: 2025-04-05
StandardGeneralMultimodalОткрытые весаЛокальная
Официальный сайт

Краткое описание

Llama 4 Maverick 17B Instruct (128E) is a high-capacity multimodal language model from Meta, built on a mixture-of-experts (MoE) architecture with 128 experts and 17 billion active parameters per forward...

Подробный обзор модели

Llama 4 Maverick — это высокопроизводительная мультимодальная языковая модель от компании Meta, представленная в апреле 2025 года. Она является важной вехой в развитии четвертого поколения Llama, используя инновационную архитектуру Mixture-of-Experts (MoE) с рекордным количеством экспертов (128). Модель была специально оптимизирована для задач, требующих гигантского контекстного окна и глубокого мультимодального понимания, предлагая открытую альтернативу проприетарным флагманам.

Архитектура и экспертные возможности

Llama 4 Maverick (также известная как Maverick 17B Instruct) — это первая массовая модель от Meta, использующая столь разреженную MoE-структуру.

  • Сверхразреженная MoE (128E): Из общего объема параметров, благодаря наличию 128 экспертов, в процессе генерации каждого токена активируется всего 17 миллиардов параметров. Это обеспечивает рекордную скорость работы и низкое потребление памяти при сохранении интеллекта уровня 100B+ плотных моделей.
  • Гигантский контекст 1M: Maverick поддерживает контекстное окно в 1 миллион токенов, что в сочетании с нативной мультимодальностью позволяет модели анализировать целые библиотеки документов, часы видео или гигантские архивы изображений за один проход.
  • Нативное зрение: Модель изначально обучалась как vision-language система. Она демонстрирует глубокое понимание визуальных сцен, текста на изображениях и сложных пространственных взаимосвязей.

Производительность и бенчмарки

Maverick устанавливает новые стандарты для открытых мультимодальных систем, показывая выдающиеся результаты в тестах на общие знания и логику.

БенчмаркРезультатОписание
Arena Elo1434Топ-уровень открытых моделей
HumanEval93.8%Исключительное качество генерации кода
MATH89.2%Математические способности и логика
MMLU87.8%Глубокие общие знания и эрудиция
GPQA68.4%Научные вопросы PhD-уровня
SWE_bench54.7%Решение инженерных задач

Интеграции и инструменты

Будучи ведущей open-source моделью, Llama 4 Maverick широко применяется в открытых инструментах:

  • OpenCode — терминальная среда разработки, которая может работать с Llama 4 через локальные инференс-серверы (Ollama) или API.
  • OpenRouter — единый API для доступа к Llama 4 без необходимости поднимать собственные серверы.

Ценообразование и доступность

Llama 4 Maverick доступна для скачивания (Open-Source) и через API популярных агрегаторов (например, OpenRouter). Стоимость по API составляет около $0.15 за 1M входных токенов и $0.60 за 1M выходных токенов, что делает её одним из самых выгодных решений для обработки сверхбольших объемов мультимедийных данных.

Идеальные сценарии применения (Use Cases)

  • Анализ мультимедийных архивов: Автоматическое описание и поиск по часовым видеозаписям и гигантским пакетам документов.
  • Профессиональная разработка ПО: Использование широкого контекста для анализа всей кодовой базы проекта и автоматического рефакторинга.
  • Интеллектуальные персональные ассистенты: Создание помощников, способных помнить детали многомесячных переписок и визуальных материалов.

Плюсы и минусы

Плюсы:

  • Огромное контекстное окно (1M токенов).
  • Нативная мультимодальность высшего уровня.
  • Рекордная эффективность благодаря архитектуре 128 экспертов.
  • Открытый доступ к технологиям Meta.

Минусы:

  • Требует специфической инфраструктуры для эффективного инференса MoE.
  • В сверхсложных философских рассуждениях может уступать плотным флагманам.

На чем запустили?

Опыт запуска Llama 4 Maverick на локальном железе пользователей

AL
Alex_Dev
2 дня назад
RTX 4090 24GB + i9-13900K
LM StudioQ4_K_M45.2 t/s

Летает отлично, полная выгрузка в VRAM. Ответы моментальные.

DA
DataScienceGuy
Неделю назад
MacBook Pro M3 Max 64GB
OllamaQ8_028.5 t/s

Запускал через командную строку. Памяти хватает с головой, кулеры даже не шумят.

IV
Ivan1999
10 дней назад
RTX 3060 12GB
KoboldCPPQ4_012.1 t/s

Пришлось выгрузить пару слоев в RAM, но терпимо для тестов.

Стоимость API

$0.15 / $0.60 за 1M токенов

Профиль модели

MMLU87.8%Code93.8%Math89.2%GPQA68.4%SWE54.7%

Бенчмарки

Arena Elo (LMSYS)1434
MMLU (Общие знания)87.8%
HumanEval (Кодинг)93.8%
MATH (Математика)89.2%
GPQA (Экспертные знания)68.4%
SWE-bench (Разработка)54.7%

Другие модели семейства Llama