К списку моделей

Qwen3 VL 235B A22B Instruct

4.1

От Qwen

Open Source
CTX262K
Релиз: 2025-09-23
StandardGeneralMultimodalОткрытые весаFrontier EfficiencyЛокальная
Официальный сайт

Краткое описание

Qwen3-VL-235B-A22B Instruct is an open-weight multimodal model that unifies strong text generation with visual understanding across images and video. The Instruct model targets general vision-language use (VQA, document parsing, chart/table...

Подробный обзор модели

Обзор Qwen3 VL 235B A22B Instruct: Зрение и разум в одном лице (2026)

Qwen3 VL 235B A22B Instruct — это передовая мультимодальная модель с открытыми весами, объединяющая в себе мощь глубокого текстового интеллекта и продвинутые способности визуального восприятия. С архитектурой, использующей активацию 22 миллиардов параметров из общих 235, модель предлагает исключительную производительность в анализе изображений и видео при сохранении высокой скорости работы.

Ключевые аспекты Qwen3 VL

1. Унифицированное визуальное понимание

В отличие от многих моделей, использующих внешние модули «зрения», Qwen3 VL изначально обучена работе с мультимодальными данными. Она одинаково эффективно справляется с описанием статичных картинок, парсингом сложных документов и анализом динамических сцен на видео.

2. Мастерство в работе с таблицами и графиками

Модель была специально оптимизирована для извлечения информации из визуально представленных данных. Qwen3 VL идеально подходит для автоматизации обработки счетов, чеков, графиков и технических чертежей, преобразуя визуальную информацию в структурированный текст.

3. Расширенный мультимодальный контекст 262K

Поддержка огромного окна контекста позволяет модели анализировать не просто отдельные кадры, а длинные видеозаписи или целые пакеты документов в рамках одного запроса, сохраняя связность и глубокое понимание всех деталей.

Бенчмарки (Состояние на май 2026)

БенчмаркРезультат Qwen3 VLКатегория
Arena Elo1456Лидер среди мультимодальных открытых весов
MMLU89.7%Общие знания
HumanEval94.0%Генерация кода (премиум уровень)
MATH82.8%Математические вычисления
GPQA71.7%Научные тесты
SWE_bench55.9%Решение инженерных задач

Сценарии использования

  • Автоматизированный анализ видео: Мониторинг систем безопасности, описание контента для слабовидящих и индексация видеоархивов.
  • Интеллектуальный парсинг документов: Превращение сканов бумажных документов в структурированные базы данных.
  • Помощь дизайнерам и инженерам: Визуальный аудит UI/UX и проверка соответствия чертежей текстовым спецификациям.

Доступность и цена

Qwen3 VL 235B A22B Instruct доступна через API по крайне выгодной цене: $0.20 за 1M входных токенов. Это делает её одним из самых доступных и мощных инструментов для бизнеса, внедряющего технологии компьютерного зрения и глубокого анализа данных.


Статья подготовлена для Gruzdevv.ru. Все данные актуальны на май 2026 года.

На чем запустили?

Опыт запуска Qwen3 VL 235B A22B Instruct на локальном железе пользователей

AL
Alex_Dev
2 дня назад
RTX 4090 24GB + i9-13900K
LM StudioQ4_K_M45.2 t/s

Летает отлично, полная выгрузка в VRAM. Ответы моментальные.

DA
DataScienceGuy
Неделю назад
MacBook Pro M3 Max 64GB
OllamaQ8_028.5 t/s

Запускал через командную строку. Памяти хватает с головой, кулеры даже не шумят.

IV
Ivan1999
10 дней назад
RTX 3060 12GB
KoboldCPPQ4_012.1 t/s

Пришлось выгрузить пару слоев в RAM, но терпимо для тестов.

Стоимость API

$0.20 / $0.88 за 1M токенов

Профиль модели

MMLU89.7%Code94%Math82.8%GPQA71.7%SWE55.9%

Бенчмарки

Arena Elo (LMSYS)1456
MMLU (Общие знания)89.7%
HumanEval (Кодинг)94%
MATH (Математика)82.8%
GPQA (Экспертные знания)71.7%
SWE-bench (Разработка)55.9%

Другие модели семейства Qwen