Исследователи Apple выпустили новую ИИ модель, которая позволяет пользователям описывать на понятном языке, что они хотят изменить в фотографии, не прибегая к помощи программ для редактирования фотографий.
Модель MGIE, над которой Apple работала совместно с Калифорнийским университетом в Санта-Барбаре, позволяет обрезать, изменять размер, переворачивать и добавлять фильтры к изображениям с помощью текстовых подсказок.
MGIE, что расшифровывается как MLLM-Guided Image Editing, может применяться как для простых, так и для более сложных задач редактирования изображений, например, для изменения определенных объектов на фотографии, чтобы придать им другую форму или сделать более яркими. Модель сочетает в себе два различных применения мультимодальных языковых моделей. Сначала она учится интерпретировать подсказки пользователя. Затем она «представляет», как будет выглядеть редактирование (например, просьба сделать небо на фотографии более голубым становится увеличением яркости на части изображения, посвященной небу).
При редактировании фотографии с помощью MGIE пользователю нужно просто набрать то, что он хочет изменить в изображении. В статье приводится пример редактирования изображения пиццы пепперони. Набрав запрос «сделать ее более здоровой», можно добавить овощные начинки. Фотография тигров в Сахаре выглядит темной, но после указания модели «добавить больше контраста, чтобы имитировать больше света», изображение становится ярче.
Apple сделала MGIE доступной на GitHub, а также выпустила веб-демонстрацию на Hugging Face Spaces. Компания не сообщила, какие у нее планы на эту модель, помимо исследовательских.
Некоторые платформы для генерации изображений, например DALL-E 3 от OpenAI, могут выполнять простые задачи по редактированию фотографий, которые они создают с помощью текстового ввода. Создатель Photoshop компания Adobe, к которой большинство людей обращается для редактирования изображений, также имеет свою собственную модель редактирования с помощью искусственного интеллекта. Ее модель искусственного интеллекта Firefly обеспечивает генеративную заливку, которая добавляет сгенерированные фоны к фотографиям.
Apple не была крупным игроком в области генеративного ИИ, в отличие от Microsoft, Meta* или Google, но генеральный директор Apple Тим Кук заявил, что компания хочет добавить больше функций ИИ в свои устройства в этом году. В декабре исследователи Apple уже выпустили фреймворк машинного обучения с открытым исходным кодом под названием MLX, чтобы облегчить обучение моделей ИИ на чипах Apple.