Новости
Apple выпустила новый визуальный энкодер FastVLM
Apple опубликовала FastVLM — визуальный энкодер, которая позволяет улучшить работу с большими мультимодальными языковыми моделями.
Apple опубликовала FastVLM — визуальный энкодер, которая позволяет улучшить работу с большими мультимодальными языковыми моделями.
Visual Language Model (VLM) — это модель искусственного интеллекта, которая сочетает в себе обработку изображений (визуальных данных) и текста (языковых данных). Такие модели умеют одновременно анализировать и понимать как картинки, так и текст, что позволяет им выполнять мультиформатные задачи.
VLM использует два типа нейросетей:
- Визуальный энкодер — преобразует изображение в векторное представление.
- Языковая модель — обрабатывает текст и встраивает его в общий векторный контекст вместе с визуальными данными.
FastVLM как раз является новым визуальным энкодером, разработанным для вывода меньшего количества токенов и значительного сокращения времени энкодинга изображений высокого разрешения.
Модель доступна в конфигурациях с параметрами 0,5B, 1,5B и 3B.
Apple также предоставила демонстрационное приложение для запуска модели на устройствах Apple и распознавания изображения.
-
Маркетинг и монетизация4 недели назад
Как ML-подход удвоил первые покупки при снижении CPI, CAC, ДРР: «Яндекс Маркет» и Bidease
-
Видео и подкасты для разработчиков3 недели назад
КодРевью лидера мнений: как можно нарушить сразу все принципы разработки
-
Новости4 недели назад
Видео и подкасты о мобильной разработке 2026.7
-
Устройства4 недели назад
Upside Robotics сокращает использование удобрений и потери при выращивании кукурузы
