Интернет-маркетинг

от Арсения Груздева

Hostkey запускает мультимодальный AI-пайплайн на одном GPU

В компании Hostkey опубликована подробная инструкция по запуску четырех независимых нейросетевых моделей на одном GPU, что позволяет создать эффективный мультимодальный пайплайн для обработки изображений, PDF, аудио и текста. Основной поток данных организован по схеме OCR → ASR → LLM → TTS: DeepSeek OCR извлекает текст из изображений и PDF, Whisper Large v3 (RU) распознает русскую речь из аудио, Qwen2.5-3B выступает как чат-модель и инструмент нормализации текста, а MMS-TTS озвучивает русский текст. Это решение реализовано на базе FastAPI с использованием паттерна Singleton для менеджеров моделей, обеспечивая ленивую загрузку и управление памятью — например, OCR-модель DeepSeek-ai/DeepSeek-OCR требует до 10 ГБ GPU-памяти, а Whisper — модели antony66/whisper-large-v3-russian. Архитектура включает отдельные роутеры для каждого модуля (/ocr, /asr, /tts, /chat), валидацию входных файлов и инференс в отдельных потоках через asyncio.to_thread, что делает систему быстрой и неблокирующей.

Ключевые технические аспекты охватывают структуру проекта: модуль app/models с классами для каждой модели (base.py, deepseek_ocr.py и т.д.), настройки в Settings (device: «cuda», cache_dir: «./models_cache») и метод predict, инкапсулирующий обработку PDF в изображения, ресайз, батчинг и очистку CUDA. Пример эндпоинта /extract-text демонстрирует полный цикл: валидация content_type, загрузка модели при необходимости (с авторазгрузкой старых при нехватке 2,5 ГБ), опциональная нормализация через LLM и возврат JSON-ответа. Такой подход минимизирует дублирование кода и упрощает масштабирование, позволяя запускать независимые инференсы без конфликтов памяти на одном GPU.

Внедрение этой схемы дает разработчикам возможность создавать локальные AI-сервисы без зависимости от облачных API вроде OpenAI или Anthropic Claude, снижая затраты и повышая приватность данных. Для рынка это означает рост доступности мультимодальных пайплайнов для русскоязычных задач — от автоматизации документооборота до голосовых ассистентов, — с потенциальным снижением latency и стоимости инференса на 30–50% по сравнению с облачными аналогами. Пользователи получают готовые инструменты для интеграции в приложения, что стимулирует инновации в SMB-сегменте, хотя требует GPU с минимум 24 ГБ (рекомендуется A100 или RTX 4090).

Система обеспечивает высокую эффективность обработки данных, объединяя различные модели для работы с текстом, изображениями и аудио. Это решение открывает новые возможности для локальных AI-сервисов.

Источник: https://ollama.com/blog/claude

Добавить комментарий