Исследовательская группа Apple опубликовала интересное исследование под названием «Pico-Banana-400K: крупномасштабный набор данных для текстового редактирования изображений».
В дополнение к исследованию они также опубликовали полный набор из 400,000 изображений, который имеет некоммерческую исследовательскую лицензию. Это означает, что любой может использовать его и изучать при условии, что это делается в академических целях или для исследований в области искусственного интеллекта. Другими словами, его нельзя использовать в коммерческих целях.
Да, но зачем
Несколько месяцев назад Google выпустила модель Gemini-2.5-Flash-Image, также известную как Nanо-Banana, которая, пожалуй, является передовой моделью для редактирования изображений.
Другие модели также продемонстрировали значительные улучшения, но, как отмечают исследователи Apple:
«Несмотря на эти достижения, открытые исследования по-прежнему ограничены отсутствием масштабных, высококачественных и полностью общедоступных наборов данных для редактирования. Существующие наборы данных часто основаны на синтетических данных, полученных с помощью проприетарных моделей, или на ограниченных поднаборах, отобранных людьми. Более того, эти наборы данных часто демонстрируют сдвиги доменов, несбалансированное распределение типов редактирования и нестабильный контроль качества, что препятствует разработке надежных моделей редактирования».
И Apple решила что-то с этим сделать.
Создание Pico Banana 400K
Первым делом Apple извлекла из набора данных OpenImages неопределенное количество реальных фотографий, «отобранных таким образом, чтобы обеспечить покрытие людей, объектов и текстовых сцен».
Затем был составлен список из 35 различных типов изменений, которые пользователь мог попросить сделать модель, сгруппированных в восемь категорий. Например:
- Пиксельные и фотометрические параметры: добавить зернистость плёнки или винтажный фильтр.
- Ориентация на человека: фигурка человека в стиле Funko-Pop.
- Композиция сцены и многообъектность: изменить погодные условия (солнечно/дождливо/снег).
- Семантические параметры на уровне объекта: переместить объект (изменить его положение/пространственные отношения).
- Масштаб: увеличить масштаб.
Затем исследователи загружали изображение в Nano-Banana вместе с одним из этих промптов. После того, как Nano-Banana завершала редактирование изображения, исследователи просили Gemini-2.5-Pro проанализировать результат, одобрив или отклонив его в зависимости от соответствия инструкциям и визуального качества.
Результатом стала модель Pico-Banana-400K, которая включает изображения, созданные с помощью редактирования в один ход (один промпт), последовательностей редактирования в несколько ходов (множество итеративных промптов) и референсных пар, сравнивающих успешные и неудачные результаты (чтобы модели также могли понять, как выглядят нежелательные результаты).
Признавая ограничения Nano-Banana в области детального пространственного редактирования, экстраполяции макета и типографики, исследователи выражают надежду, что Pico-Banana-400K послужит «надежной основой для обучения и сравнительного анализа следующего поколения моделей редактирования изображений с текстовым управлением».

