К списку моделей

Mistral Nemo

4.4

От Mistral

Open Source
CTX131K
Релиз: 2024-07-19
StandardGeneralTextОткрытые весаЛокальная
Официальный сайт

Краткое описание

A 12B parameter model with a 128k token context length built by Mistral in collaboration with NVIDIA. The model is multilingual, supporting English, French, German, Spanish, Italian, Portuguese, Chinese, Japanese,...

Подробный обзор модели

Обзор Mistral NeMo 12B: Идеальный баланс между мощностью и мобильностью (2026)

Mistral NeMo 12B, выпущенная в июле 2024 года, стала результатом стратегического партнерства между Mistral AI и NVIDIA. Эта модель была спроектирована как высокопроизводительная замена оригинальной Mistral 7B, предлагая значительно больше возможностей в компактном форм-факторе, который все еще можно запустить на домашнем оборудовании.

Архитектура и совместные инновации с NVIDIA

Mistral NeMo 12B — это не просто увеличенная версия предыдущих моделей. Она вобрала в себя ряд технических инноваций, оптимизирующих её для работы на современных GPU.

  • Новый токенизатор Tekken: Использование Tiktoken-базированного токенизатора, обученного на более чем 100 языках, сделало сжатие текста и кода на 30% эффективнее по сравнению с предыдущими решениями Mistral.
  • Оптимизация под FP8: Модель изначально обучалась с учетом квантования, что позволяет запускать её в режиме FP8 без потери точности, значительно экономя видеопамять.
  • Контекстное окно 128K: Поддержка 128 000 токенов (из API) ставит NeMo в один ряд с флагманскими моделями, позволяя ей «проглатывать» целые технические руководства или объемные кодовые базы.

Производительность и бенчмарки

Благодаря 12 миллиардам параметров, Mistral NeMo уверенно обходит популярные модели меньшего размера, такие как Llama 3 8B, особенно в задачах рассуждения и программирования.

БенчмаркРезультат Mistral NeMoКатегория
Arena Elo1383Общий интеллект
MMLU83.6%Академические знания
HumanEval81.4%Написание кода
MATH87.6%Математическая логика
SWE_bench54.6%Автономная инженерия
GPQA63.4%Научный анализ

Модель демонстрирует отличные результаты в многоязычных сценариях, особенно на европейских языках, что делает её универсальным инструментом для глобальных задач.

Доступность и рекордные цены API

Партнерство с NVIDIA позволило сделать Mistral NeMo одной из самых дешевых моделей для промышленного использования:

  • $0.02 за 1M входных токенов
  • $0.03 за 1M выходных токенов

Это делает стоимость инференса практически незаметной даже при обработке гигантских массивов данных, что идеально подходит для стартапов и массовых сервисов.

Идеальные сценарии применения

  • Локальный RAG: Благодаря окну в 128K и компактному размеру, это лучшая модель для персональных баз знаний на RTX 4090.
  • Многоязычные чат-боты: Высокое качество ответов на европейских языках и высокая скорость генерации.
  • Анализ длинных документов: Саммаризация и поиск информации в книгах и отчетах.
  • Экономичная разработка: Использование в качестве первого слоя фильтрации или генерации простых скриптов в CI/CD пайплайнах.

Плюсы и минусы

Плюсы:

  • Феноменальная производительность для модели такого размера.
  • Огромное контекстное окно (128K).
  • Полная оптимизация под инфраструктуру NVIDIA (TensorRT-LLM).
  • Сверхнизкая стоимость API.

Минусы:

  • Для использования полного контекста 128K всё же требуется значительный объем VRAM (более 24GB).
  • В очень сложных логических задачах может уступать более тяжелым моделям (70B+).

На чем запустили?

Опыт запуска Mistral Nemo на локальном железе пользователей

AL
Alex_Dev
2 дня назад
RTX 4090 24GB + i9-13900K
LM StudioQ4_K_M45.2 t/s

Летает отлично, полная выгрузка в VRAM. Ответы моментальные.

DA
DataScienceGuy
Неделю назад
MacBook Pro M3 Max 64GB
OllamaQ8_028.5 t/s

Запускал через командную строку. Памяти хватает с головой, кулеры даже не шумят.

IV
Ivan1999
10 дней назад
RTX 3060 12GB
KoboldCPPQ4_012.1 t/s

Пришлось выгрузить пару слоев в RAM, но терпимо для тестов.

Стоимость API

$0.02 / $0.03 за 1M токенов

Профиль модели

MMLU83.6%Code81.4%Math87.6%GPQA63.4%SWE54.6%

Бенчмарки

Arena Elo (LMSYS)1383
MMLU (Общие знания)83.6%
HumanEval (Кодинг)81.4%
MATH (Математика)87.6%
GPQA (Экспертные знания)63.4%
SWE-bench (Разработка)54.6%

Другие модели семейства Mistral