От Qwen
Qwen3-VL-32B-Instruct is a large-scale multimodal vision-language model designed for high-precision understanding and reasoning across text, images, and video. With 32 billion parameters, it combines deep visual perception with advanced text...
Qwen3 VL 32B Instruct — это высокопроизводительная мультимодальная модель флагманского уровня от команды Qwen, представленная в октябре 2025 года. С 32 миллиардами параметров, эта модель специально разработана для высокоточного понимания и глубокого анализа текстовой, графической и видеоинформации. Qwen3 VL 32B является одной из самых мощных открытых мультимодальных систем, предлагая пользователям исключительное качество визуального восприятия в сочетании с передовым текстовым интеллектом.
Модель была спроектирована для бесшовной работы в рамках единого нейросетевого пайплайна, объединяющего зрение и язык.
Qwen3 VL 32B Instruct занимает топовые позиции среди мультимодальных моделей среднего и крупного веса, подтверждая статус универсального интеллектуального инструмента.
| Бенчмарк | Результат | Описание |
|---|---|---|
| HumanEval | 86.9% | Высокое качество генерации программного кода |
| Arena Elo | 1406 | Высокий флагманский уровень |
| MMLU | 85.5% | Глубокие общие знания и эрудиция |
| GPQA | 62.7% | Научные вопросы PhD-уровня |
| SWE_bench | 54.5% | Решение инженерных задач в реальных условиях |
| MATH | 74.1% | Достойные способности в математике и логике |
Модель доступна через API по крайне привлекательной цене: всего $0.10 за 1M входных токенов и $0.42 за 1M выходных токенов. Это делает Qwen3 VL 32B идеальным выбором для масштабных проектов, требующих глубокого анализа мультимедиа при минимальных эксплуатационных расходах.
Плюсы:
Минусы:
Опыт запуска Qwen3 VL 32B Instruct на локальном железе пользователей
Летает отлично, полная выгрузка в VRAM. Ответы моментальные.
Запускал через командную строку. Памяти хватает с головой, кулеры даже не шумят.
Пришлось выгрузить пару слоев в RAM, но терпимо для тестов.
$0.10 / $0.42 за 1M токенов