Французский ИИ-стартап Mistral, известный своими мощными ИИ-моделями с открытым исходным кодом, сегодня представил две новые языковые модели (LLM) — математическую модель и модель генерации кода для программистов и разработчиков, основанную на новой архитектуре, известной как Mamba.
Codestral для кода
Mamba призвана повысить эффективность архитектуры трансформеров, используемой в большинстве ведущих LLM, за счет упрощения механизмов внимания. Модели на основе Mamba, в отличие от более распространенных моделей на основе трансформеров, могут иметь более быстрое время вывода и больший контекст. Другие компании и разработчики, включая AI21, уже выпустили новые модели ИИ на ее основе.
Сейчас, используя эту новую архитектуру, система Codestral Mamba 7B обеспечивает быстрое время отклика даже при длинных входных текстах. Codestral Mamba отлично подходит для повышения производительности в области создания кода, особенно для локальных проектов.
Mistral протестировала модель, которую можно будет бесплатно использовать на API-платформе Mistral la Plateforme, на обработку ввода до 256,000 лексем — вдвое больше, чем GPT-4o от OpenAI.
В бенчмарк-тестах Mistral показала, что Codestral Mamba лучше конкурирующих открытых моделей CodeLlama 7B, CodeGemma-1.17B и DeepSeek в тестах HumanEval.
Разработчики могут изменять и внедрять Codestral Mamba из репозитория GitHub и через HuggingFace. Модель будет доступна с открытым исходным кодом под лицензией Apache 2.0.
Mistral утверждает, что предыдущая версия Codestral превосходила другие генераторы кода, такие как CodeLlama 70B и DeepSeek Coder 33B.
Mathstral для исследований
Вторая модель, выпущенная компанией Mistral, Mathstral 7B, ИИ-модель специально для математических рассуждений и научных изысканий. Компания Mistral разработала Mathstral совместно с Project Numina.
Mathstral имеет 32-килобайтное контекстное окно и будет работать под лицензией Apache 2.0 с открытым исходным кодом. По словам компании, модель превзошла все модели, разработанные для математических рассуждений. Она может достичь «значительно лучших результатов» в бенчмарках с большим количеством вычислений во время вывода. Пользователи могут использовать ее как есть или доработать модель.
«Mathstral — еще один пример отличного соотношения производительности и скорости, достигаемого при построении моделей для конкретных целей — философия развития, которую мы активно продвигаем в la Plateforme, особенно с ее новыми возможностями тонкой настройки», — говорится в сообщении Mistral в блоге.
Доступ к Mathstral можно получить через la Plataforme и HuggingFace компании Mistral.
Недавно компания привлекла 640 миллионов долларов в рамках финансирования Серии B, в результате чего ее оценка приблизилась к 6 миллиардам долларов. Компания также получила инвестиции от таких технологических гигантов, как Microsoft и IBM.