От Qwen
Qwen-Plus, based on the Qwen2.5 foundation model, is a 131K context model with a balanced performance, speed, and cost combination.
Опыт запуска Qwen-Plus на локальном железе пользователей
Летает отлично, полная выгрузка в VRAM. Ответы моментальные.
Запускал через командную строку. Памяти хватает с головой, кулеры даже не шумят.
Пришлось выгрузить пару слоев в RAM, но терпимо для тестов.
$0.26 / $0.78 за 1M токенов