К списку моделей

DeepSeek V3 0324

4.5

От DeepSeek

Open Source
CTX164K
Релиз: 2025-03-24
StandardGeneralTextОткрытые веса
Официальный сайт

Краткое описание

DeepSeek V3 — это флагманская модель типа Mixture-of-Experts (MoE) с 685 млрд параметров. Версия 0324 является обновлением основной линейки, демонстрируя отличные результаты в программировании, математике и общих задачах рассуждения.

Подробный обзор модели

DeepSeek-V3.1 (версия 0324), представленная весной 2026 года, подтвердила репутацию DeepSeek как самого агрессивного игрока в плане соотношения цены и качества. Модель предлагает возможности уровня GPT-4o, будучи в десятки раз дешевле в эксплуатации.

Архитектура и особенности

V3.1 базируется на инновационной архитектуре MoE с 671 миллиардом параметров (37 млрд активных), используя проприетарные методы обучения на синтетических данных и rejection sampling.

  • Гибридное мышление: новая функция, позволяющая модели активировать цепочку рассуждений только там, где это необходимо.
  • Контекстное окно: до 163 840 токенов.
  • Непревзойденная эффективность: DeepSeek-V3.1 тратит в разы меньше вычислительных ресурсов на один токен по сравнению с западными аналогами.

Производительность и бенчмарки

Обновление 3.1 значительно подтянуло навыки модели в следовании инструкциям и кодинге.

БенчмаркПоказательОписание
SWE-bench66.0%На уровне топовых моделей для разработки
MMLU-Pro81.2%Высочайшая общая эрудиция
AIME59.4%Уверенное решение сложных задач
GPQA68.4%Научное мышление

Цены и доступность

DeepSeek продолжает демпинговать рынок, делая использование мощных ИИ доступным даже для стартапов с минимальным бюджетом.

  • Input: $0.20 за 1 млн токенов.
  • Output: $0.77 за 1 млн токенов.

Идеальные сценарии применения

  • Высоконагруженные сервисы: чат-боты с миллионами пользователей.
  • Автоматизация контента: массовая генерация и перевод текстов без потери качества.
  • Разработка ПО: использование в качестве доступного и умного помощника.
  • Образовательные платформы: предоставление доступа к мощному ИИ тысячам студентов.

Плюсы и минусы

Плюсы:

  • Лучшая цена на рынке среди моделей такого уровня.
  • Высокая скорость работы и стабильность API.
  • Сильные навыки в математике и кодировании.
  • Отличная управляемость и следование форматам (JSON и др.).

Минусы:

  • Контекстное окно меньше, чем у Mistral или Claude.
  • Иногда может быть излишне краткой в ответах.

На чем запустили?

Опыт запуска DeepSeek V3 0324 на локальном железе пользователей

AL
Alex_Dev
2 дня назад
RTX 4090 24GB + i9-13900K
LM StudioQ4_K_M45.2 t/s

Летает отлично, полная выгрузка в VRAM. Ответы моментальные.

DA
DataScienceGuy
Неделю назад
MacBook Pro M3 Max 64GB
OllamaQ8_028.5 t/s

Запускал через командную строку. Памяти хватает с головой, кулеры даже не шумят.

IV
Ivan1999
10 дней назад
RTX 3060 12GB
KoboldCPPQ4_012.1 t/s

Пришлось выгрузить пару слоев в RAM, но терпимо для тестов.

Стоимость API

$0.20 / $0.77 за 1M токенов

Профиль модели

MMLU82.3%Code87.7%Math79.9%GPQA64.1%SWE60.5%

Бенчмарки

Arena Elo (LMSYS)1368
MMLU (Общие знания)82.3%
HumanEval (Кодинг)87.7%
MATH (Математика)79.9%
GPQA (Экспертные знания)64.1%
SWE-bench (Разработка)60.5%

Другие модели семейства DeepSeek