К списку моделей

GLM 4.5V

4.2

От Z.ai

Proprietary
CTX66K
Релиз: 2025-08-11
StandardGeneralMultimodal
Официальный сайт

Краткое описание

GLM-4.5V is a vision-language foundation model for multimodal agent applications. Built on a Mixture-of-Experts (MoE) architecture with 106B parameters and 12B activated parameters, it achieves state-of-the-art results in video understanding,...

Подробный обзор модели

GLM 4.5V — это флагманская мультимодальная языковая модель от компании Z.ai, представленная в августе 2025 года. Она была специально спроектирована как фундамент для сложных ИИ-агентов, требующих глубокого визуального понимания и пошагового рассуждения. Используя архитектуру Mixture-of-Experts (MoE) с общим объемом в 106 миллиардов параметров, модель активирует лишь 12 миллиардов на каждом шаге, предлагая исключительный баланс между мощностью интеллекта и скоростью работы.

Мультимодальный интеллект и Video Understanding

GLM 4.5V представляет собой вершину достижений серии GLM в области компьютерного зрения и обработки видео.

  • Мастерство анализа видео: Модель достигла лидирующих результатов (State-of-the-art) в задачах на понимание видеоконтента. Она способна описывать динамические сцены, выявлять причинно-следственные связи и отвечать на уточняющие вопросы по видеопоследовательностям любой сложности.
  • Глубокое понимание документов: GLM 4.5V мастерски владеет навыком чтения сложных макетов (layout analysis). Она идеально подходит для парсинга сканов, чертежей и рукописных текстов, преобразуя визуальную информацию в структурированные данные.
  • Эффективная MoE-архитектура: Активация всего 12B параметров позволяет модели работать со скоростью систем среднего веса, сохраняя при этом эрудицию и логику флагманских моделей на 100B+ параметров.

Производительность и бенчмарки

GLM 4.5V уверенно занимает топовые позиции в рейтингах мультимодальных систем, подтверждая свою эффективность в самых требовательных тестах.

БенчмаркРезультатОписание
MATH89.5%Мастерство в математических рассуждениях (премиум)
Arena Elo1417Высокий флагманский уровень
MMLU86.4%Глубокие общие знания и эрудиция
HumanEval80.2%Уверенное владение программированием
GPQA68.8%Научные вопросы PhD-уровня
SWE_bench46.6%Решение прикладных инженерных задач

Ценообразование и доступность

Модель доступна через API Z.ai и популярных агрегаторов по цене $0.60 за 1M входных токенов и $1.80 за 1M выходных токенов. Это крайне сбалансированное предложение для профессионального использования, ориентированное на создание продвинутых визуальных помощников и систем автоматизации.

Идеальные сценарии применения (Use Cases)

  • Интеллектуальные видео-ассистенты: Автоматическое описание событий, поиск по видеоархивам и мониторинг безопасности в реальном времени.
  • Автоматизация документооборота: Быстрый и точный парсинг сложнейших PDF-файлов и технических схем.
  • Помощник инженера и дизайнера: Визуальная проверка прототипов и помощь в проектировании на основе графических входных данных.

Плюсы и минусы

Плюсы:

  • Одно из лучших в индустрии понимание видео (Video Understanding).
  • Высокая точность в математических и логических задачах.
  • Эффективная работа благодаря MoE (12B активных параметров).
  • Нативная поддержка анализа сложных визуальных макетов.

Минусы:

  • Контекстное окно (66K) уступает некоторым флагманам 2026 года.
  • Проприетарная архитектура (доступ только через API).

Стоимость API

$0.60 / $1.80 за 1M токенов

Профиль модели

MMLU86.4%Code80.2%Math89.5%GPQA68.8%SWE46.6%

Бенчмарки

Arena Elo (LMSYS)1417
MMLU (Общие знания)86.4%
HumanEval (Кодинг)80.2%
MATH (Математика)89.5%
GPQA (Экспертные знания)68.8%
SWE-bench (Разработка)46.6%

Другие модели семейства Other