К списку моделей

Llama 3.2 11B Vision Instruct

4.8

От Meta

Open Source
CTX131K
Релиз: 2024-09-25
StandardGeneralMultimodalОткрытые весаЛокальная
Официальный сайт

Краткое описание

Llama 3.2 11B Vision is a multimodal model with 11 billion parameters, designed to handle tasks combining visual and textual data. It excels in tasks such as image captioning and...

Подробный обзор модели

Llama 3.2 11B Vision Instruct — это высокопроизводительная мультимодальная языковая модель от компании Meta, представленная в сентябре 2024 года. С 11 миллиардами параметров, эта модель специально разработана для решения задач, требующих одновременного понимания визуальной и текстовой информации. Llama 3.2 11B является идеальным «мозгом» для интерактивных ассистентов, способных «видеть» и анализировать окружающий мир, предлагая возможности флагманского уровня при высокой скорости работы.

Архитектура и мультимодальные возможности

Модель построена на базе обновленной архитектуры Llama 3.2, включающей нативные слои обработки визуальных данных.

  • Интеллектуальное зрение: Llama 3.2 11B Vision мастерски справляется с описанием изображений, распознаванием объектов и извлечением текста из визуальных источников. Она умеет находить тонкие связи между текстовым запросом и графическим контентом, обеспечивая высокую точность ответов.
  • Работа с документами и схемами: Модель была оптимизирована для анализа сложных визуальных макетов (PDF-файлы, графики, чертежи), преобразуя визуальную информацию в структурированный текст.
  • Широкий контекст 131K: Поддержка контекстного окна до 131 072 токенов позволяет модели анализировать не только отдельные кадры, но и целые пакеты документов или длительные мультимедийные сессии за один проход.

Производительность и бенчмарки

Llama 3.2 11B Vision Instruct устанавливает новые стандарты для открытых мультимодальных моделей среднего размера, показывая выдающиеся результаты в тестах на общие знания и логику.

БенчмаркРезультатОписание
Arena Elo1416Топ-уровень для 11B мультимодальных моделей
HumanEval88.2%Высокое качество генерации программного кода
MATH87.9%Сильные способности в математике и логике
MMLU86.3%Глубокие общие знания и эрудиция
GPQA63.4%Научные тесты PhD-уровня
SWE_bench61.8%Решение инженерных задач в реальных условиях

Ценообразование и доступность

Модель доступна в виде открытых весов (Open-Source) и через API популярных агрегаторов по крайне привлекательной цене: всего $0.24 за 1M токенов (как на вход, так и на выход). Это делает Llama 3.2 11B одним из самых экономически эффективных решений для масштабных мультимодальных приложений.

Идеальные сценарии применения (Use Cases)

  • Интерактивные Vision-ассистенты: Создание помощников для смартфонов и веб-приложений, способных анализировать фото и видео в реальном времени.
  • Автоматизированный парсинг данных: Извлечение информации из сканов документов, чеков и технических чертежей с высокой точностью.
  • Помощь в дизайне и UI/UX: Визуальный аудит интерфейсов и помощь в проектировании на основе графических входных данных.

Плюсы и минусы

Плюсы:

  • Рекордная производительность для модели на 11B параметров.
  • Нативная поддержка анализа изображений высшего уровня.
  • Очень выгодная стоимость использования через API.
  • Открытый доступ к технологиям Meta.

Минусы:

  • Ограниченная глубина философских рассуждений по сравнению со старшей версией 70B.
  • Требует специфической настройки инференса для оптимальной работы со зрением.

На чем запустили?

Опыт запуска Llama 3.2 11B Vision Instruct на локальном железе пользователей

AL
Alex_Dev
2 дня назад
RTX 4090 24GB + i9-13900K
LM StudioQ4_K_M45.2 t/s

Летает отлично, полная выгрузка в VRAM. Ответы моментальные.

DA
DataScienceGuy
Неделю назад
MacBook Pro M3 Max 64GB
OllamaQ8_028.5 t/s

Запускал через командную строку. Памяти хватает с головой, кулеры даже не шумят.

IV
Ivan1999
10 дней назад
RTX 3060 12GB
KoboldCPPQ4_012.1 t/s

Пришлось выгрузить пару слоев в RAM, но терпимо для тестов.

Стоимость API

$0.24 / $0.24 за 1M токенов

Профиль модели

MMLU86.3%Code88.2%Math87.9%GPQA63.4%SWE61.8%

Бенчмарки

Arena Elo (LMSYS)1416
MMLU (Общие знания)86.3%
HumanEval (Кодинг)88.2%
MATH (Математика)87.9%
GPQA (Экспертные знания)63.4%
SWE-bench (Разработка)61.8%

Другие модели семейства Llama