От Meta
Llama 3.2 11B Vision is a multimodal model with 11 billion parameters, designed to handle tasks combining visual and textual data. It excels in tasks such as image captioning and...
Llama 3.2 11B Vision Instruct — это высокопроизводительная мультимодальная языковая модель от компании Meta, представленная в сентябре 2024 года. С 11 миллиардами параметров, эта модель специально разработана для решения задач, требующих одновременного понимания визуальной и текстовой информации. Llama 3.2 11B является идеальным «мозгом» для интерактивных ассистентов, способных «видеть» и анализировать окружающий мир, предлагая возможности флагманского уровня при высокой скорости работы.
Модель построена на базе обновленной архитектуры Llama 3.2, включающей нативные слои обработки визуальных данных.
Llama 3.2 11B Vision Instruct устанавливает новые стандарты для открытых мультимодальных моделей среднего размера, показывая выдающиеся результаты в тестах на общие знания и логику.
| Бенчмарк | Результат | Описание |
|---|---|---|
| Arena Elo | 1416 | Топ-уровень для 11B мультимодальных моделей |
| HumanEval | 88.2% | Высокое качество генерации программного кода |
| MATH | 87.9% | Сильные способности в математике и логике |
| MMLU | 86.3% | Глубокие общие знания и эрудиция |
| GPQA | 63.4% | Научные тесты PhD-уровня |
| SWE_bench | 61.8% | Решение инженерных задач в реальных условиях |
Модель доступна в виде открытых весов (Open-Source) и через API популярных агрегаторов по крайне привлекательной цене: всего $0.24 за 1M токенов (как на вход, так и на выход). Это делает Llama 3.2 11B одним из самых экономически эффективных решений для масштабных мультимодальных приложений.
Плюсы:
Минусы:
Опыт запуска Llama 3.2 11B Vision Instruct на локальном железе пользователей
Летает отлично, полная выгрузка в VRAM. Ответы моментальные.
Запускал через командную строку. Памяти хватает с головой, кулеры даже не шумят.
Пришлось выгрузить пару слоев в RAM, но терпимо для тестов.
$0.24 / $0.24 за 1M токенов