Meta и Cerebras: новое партнёрство для улучшения ИИ-инференса
Meta объединила усилия с компаниями Cerebras и Groq для создания высокоскоростного инференс-сервиса на базе API Llama. Cerebras, запустившая инференс-платформу в 2024 году, обеспечивает для Llama самый быстрый инференс, обрабатывая миллиарды токенов через собственную ИИ-инфраструктуру. По данным Artificial Analysis, разработчики, использующие API для работы с моделями Llama 4 Cerebras, могут получить скорость инференса до 18 раз выше, чем у традиционных решений на базе GPU, с показателем более 2600 токенов в секунду.
Параллельно Meta договорилась с Groq об использовании ускорителей Language Processing Units (LPU), которые обеспечивают высокую скорость до 625 токенов в секунду, низкую задержку и хорошую масштабируемость при низких издержках. Groq использует собственную вертикально интегрированную архитектуру, полностью контролируя как аппаратное обеспечение, так и программное обеспечение, что позволяет достичь эффективности, недоступной в облаках на базе универсальных ИИ-чипов. На базе нового ИИ-центра заработал облачный регион GroqCloud, включающий 19 725 LPU.
Для разработчиков это означает возможность легко перейти на новый стек без необходимости переобучения моделей или перенастройки ускорителей, так как API Llama совместимы с API OpenAI. Партнёрство усиливает позиции Groq и Cerebras в конкуренции с NVIDIA и позволяет Meta сосредоточиться на исследованиях и разработке, передав инференс надёжным партнёрам. Это также помогает расширить доступ к альтернативам решений OpenAI для широкого сообщества разработчиков.
Партнёрство между Meta и Cerebras открывает новые горизонты для разработчиков, позволяя им использовать высокоскоростные решения для работы с ИИ-моделями без дополнительных затрат на переобучение.