Connect with us

GitHub

Apple выпустила исследовательский датасет для обучения моделей редактирования изображений

Pico-Banana-400K послужит «надежной основой для обучения и сравнительного анализа следующего поколения моделей редактирования изображений с текстовым управлением».

Опубликовано

/

     
     

Исследовательская группа Apple опубликовала интересное исследование под названием «Pico-Banana-400K: крупномасштабный набор данных для текстового редактирования изображений».

В дополнение к исследованию они также опубликовали полный набор из 400,000 изображений, который имеет некоммерческую исследовательскую лицензию. Это означает, что любой может использовать его и изучать при условии, что это делается в академических целях или для исследований в области искусственного интеллекта. Другими словами, его нельзя использовать в коммерческих целях.

Да, но зачем

Несколько месяцев назад Google выпустила модель Gemini-2.5-Flash-Image, также известную как Nanо-Banana, которая, пожалуй, является передовой моделью для редактирования изображений.

Другие модели также продемонстрировали значительные улучшения, но, как отмечают исследователи Apple:

«Несмотря на эти достижения, открытые исследования по-прежнему ограничены отсутствием масштабных, высококачественных и полностью общедоступных наборов данных для редактирования. Существующие наборы данных часто основаны на синтетических данных, полученных с помощью проприетарных моделей, или на ограниченных поднаборах, отобранных людьми. Более того, эти наборы данных часто демонстрируют сдвиги доменов, несбалансированное распределение типов редактирования и нестабильный контроль качества, что препятствует разработке надежных моделей редактирования».

И Apple решила что-то с этим сделать.

Создание Pico Banana 400K

Первым делом Apple извлекла из набора данных OpenImages неопределенное количество реальных фотографий, «отобранных таким образом, чтобы обеспечить покрытие людей, объектов и текстовых сцен».

Затем был составлен список из 35 различных типов изменений, которые пользователь мог попросить сделать модель, сгруппированных в восемь категорий. Например:

  • Пиксельные и фотометрические параметры: добавить зернистость плёнки или винтажный фильтр.
  • Ориентация на человека: фигурка человека в стиле Funko-Pop.
  • Композиция сцены и многообъектность: изменить погодные условия (солнечно/дождливо/снег).
  • Семантические параметры на уровне объекта: переместить объект (изменить его положение/пространственные отношения).
  • Масштаб: увеличить масштаб.

Затем исследователи загружали изображение в Nano-Banana вместе с одним из этих промптов. После того, как Nano-Banana завершала редактирование изображения, исследователи просили Gemini-2.5-Pro ​​проанализировать результат, одобрив или отклонив его в зависимости от соответствия инструкциям и визуального качества.

Apple выпустила исследовательский датасет для обучения моделей редактирования изображений

Результатом стала модель Pico-Banana-400K, которая включает изображения, созданные с помощью редактирования в один ход (один промпт), последовательностей редактирования в несколько ходов (множество итеративных промптов) и референсных пар, сравнивающих успешные и неудачные результаты (чтобы модели также могли понять, как выглядят нежелательные результаты).

Признавая ограничения Nano-Banana в области детального пространственного редактирования, экстраполяции макета и типографики, исследователи выражают надежду, что Pico-Banana-400K послужит «надежной основой для обучения и сравнительного анализа следующего поколения моделей редактирования изображений с текстовым управлением».

Исследование доступно на arXiv, а набор данных — на GitHub.

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.
Telegram

Популярное

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: