Новости

Groq ускоряет работу языковых моделей

В Groq разработали специализированное железо — LPU (Language Processing Units).

Опубликовано

2 года назад

21.02.2024

Автор:

AppTractor

По сравнению с человеком, языковые модели могут генерировать текст невероятно быстро. Но для некоторых, например для стартапа Groq, этого недостаточно.

Чтобы добиться еще более высокой производительности, в Groq разработали специализированное железо — LPU (Language Processing Units).

Эти LPU специально сделаны для работы с языковыми моделями и обеспечивают скорость до 500 лексем в секунду. Для сравнения, относительно быстрые LLM Gemini Pro и GPT-3.5 обрабатывают от 30 до 50 лексем в секунду, в зависимости от нагрузки, запроса, контекста и доставки.

В демонстрационном ролике, опубликованном на сайте X, основатель и генеральный директор компании Джонатон Росс в режиме реального времени ведет устный разговор с чат-ботом, находящимся на другом конце света. Хотя ChatGPT, Gemini и другие чат-боты впечатляют, Groq может сделать их молниеносными. Достаточно быстрыми, чтобы найти практическое применение в реальном мире.

Первый GroqChip использует «тензорную потоковую архитектуру», которая, по словам Groq, разработана для обеспечения производительности, эффективности, скорости и точности.

По словам представителей стартапа, в отличие от традиционных графических процессоров, чип предлагает упрощенную архитектуру, обеспечивающую постоянную задержку и пропускную способность. Это может стать преимуществом для ИИ-приложений, работающих в реальном времени, например, в играх.

LPU также более энергоэффективны, утверждает Groq. Они позволяют снизить затраты на управление несколькими потоками и избежать неполного использования ядер, что позволяет выполнять больше вычислений на ватт.

Дизайн чипа Groq позволяет подключать несколько TSP без традиционных узких мест, связанных с кластерами GPU. По мнению Groq, это делает систему масштабируемой и упрощает требования к аппаратному обеспечению для больших ИИ-моделей .

Системы Groq поддерживают распространенные фреймворки машинного обучения, что должно облегчить интеграцию в существующие проекты. Groq продает оборудование, а также предлагает облачный API с моделями с открытым исходным кодом, такими как Mixtral. Проверить скорость работы Groq с Mixtral и Llama можно здесь.

В целом, LPU могут улучшить развертывание ИИ-приложений и стать альтернативой чипам A100 и H100 от Nvidia, которые широко используются сегодня, но являются дефицитом.

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.