Новости

Apple выпустила новый визуальный энкодер FastVLM

Apple опубликовала FastVLM — визуальный энкодер, которая позволяет улучшить работу с большими мультимодальными языковыми моделями.

Опубликовано

1 год назад

14.05.2025

Автор:

AppTractor

Visual Language Model (VLM) — это модель искусственного интеллекта, которая сочетает в себе обработку изображений (визуальных данных) и текста (языковых данных). Такие модели умеют одновременно анализировать и понимать как картинки, так и текст, что позволяет им выполнять мультиформатные задачи.

VLM использует два типа нейросетей:

Визуальный энкодер — преобразует изображение в векторное представление.
Языковая модель — обрабатывает текст и встраивает его в общий векторный контекст вместе с визуальными данными.

FastVLM как раз является новым визуальным энкодером, разработанным для вывода меньшего количества токенов и значительного сокращения времени энкодинга изображений высокого разрешения.

Модель доступна в конфигурациях с параметрами 0,5B, 1,5B и 3B.

Apple также предоставила демонстрационное приложение для запуска модели на устройствах Apple и распознавания изображения.

FastVLM на GitHub: https://github.com/apple/ml-fastvlm
Платформа: iOS
⭐️: 1.9K

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.

Разработка4 недели назад

Горячая перезагрузка AGSL-шейдеров без пересборки: пошаговое руководство для Compose

Новости4 недели назад

Видео и подкасты о мобильной разработке 2026.21

Исследования4 недели назад

Как Apple боролась с мошенничеством в App Store в 2025

Видео и подкасты для разработчиков4 недели назад

N техник, которые улучшат работу видеоленты

AppTractor

Apple выпустила новый визуальный энкодер FastVLM

Новости

Apple выпустила новый визуальный энкодер FastVLM

Популярное

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Ваш комментарий (необязательно):