ИИ-стартап Stability AI продолжает совершенствовать свои генеративные модели в условиях растущей конкуренции и этических проблем.
Сегодня компания объявила о выпуске Stable Diffusion XL 1.0, модели преобразования текста в изображение, которую компания называет «самой продвинутой» на сегодняшний день. Stable Diffusion XL 1.0, доступная с открытым исходным кодом на GitHub, в виде API и в потребительских приложениях ClipDrop и DreamStudio, обеспечивает «более яркие» и «точные» цвета, а также лучшую контрастность, тени и освещение по сравнению со своей предшественницей, утверждает Stability.
В интервью TechCrunch Джо Пенна, руководитель отдела прикладного машинного обучения Stability AI, отметил, что модель Stable Diffusion XL 1.0, содержащая 3.5 млрд. параметров, позволяет получать полноценные изображения с разрешением 1 мегапиксель «за считанные секунды». «Параметры» — это части модели, полученные на основе обучающих данных и, по сути, определяющие мастерство модели в решении той или иной задачи, в данном случае — генерации изображений.
Модель Stable Diffusion предыдущего поколения, Stable Diffusion XL 0.9, также могла генерировать изображения с более высоким разрешением, но требовала большей вычислительной мощности.
«Stable Diffusion XL 1.0 — это настраиваемая модель, готовая к тонкой настройке концепций и стилей», — говорит Пенна. «Она также более проста в использовании и способна создавать сложные проекты с помощью базовых подсказок, основанных на обработке естественного языка».
Кроме того, Stable Diffusion XL 1.0 усовершенствована в области генерации текста. По словам Пенны, многие лучшие модели преобразования текста в изображение с трудом генерируют изображения с разборчивыми логотипами, не говоря уже о каллиграфии или шрифтах, но Stable Diffusion XL 1.0 способен генерировать «продвинутый» текст и обеспечивать его разборчивость.
Stable Diffusion XL 1.0 поддерживает функции inpainting (восстановление недостающих частей изображения), outpainting (расширение существующих изображений) и “image-to-image” подсказок — то есть пользователь может ввести изображение и добавить несколько текстовых подсказок для создания более детальных вариаций этого изображения. Кроме того, модель понимает сложные многокомпонентные инструкции, представленные в виде коротких подсказок, в то время как предыдущие модели Stable Diffusion требовали более длинных текстовых промптов.
«Мы надеемся, что благодаря выпуску этой гораздо более мощной модели с открытым исходным кодом не только разрешение изображений увеличится в четыре раза, но и произойдут улучшения, которые принесут большую пользу всем пользователям», — добавил он.
Однако, как и в случае с предыдущими версиями Stable Diffusion, эта модель поднимает непростые моральные вопросы.
Версия Stable Diffusion XL 1.0 с открытым исходным кодом теоретически может быть использована злоумышленниками для создания токсичного или вредного контента, например, несанкционированных deepfakes. Отчасти это связано с данными, которые использовались для ее обучения: миллионы изображений из Интернета.
Бесчисленные учебные пособия демонстрируют, как использовать собственные инструменты Stability AI, включая DreamStudio, фронт-энд с открытым исходным кодом для Stable Diffusion, для создания дипфейков. Бесчисленные другие примеры показывают, как тонко настраивать базовые модели Stable Diffusion для создания порнографии.
Пенна не отрицает, что злоупотребления возможны — и признает, что модель также содержит определенные погрешности. Однако он добавил, что Stability AI предприняла «дополнительные шаги» для уменьшения вредного контента, отфильтровав обучающие данные модели на предмет «небезопасных» изображений, выпустив новые предупреждения, связанные с проблемными подсказками, и заблокировав как можно больше отдельных проблемных терминов в инструменте.
Одновременно с выпуском Stable Diffusion XL 1.0 компания Stability AI выпускает бета-версию функции тонкой настройки для своего API, которая позволит пользователям использовать всего пять изображений для «специализации» генерации на конкретных людях, продуктах и т.д. Компания также выводит Stable Diffusion XL 1.0 на Bedrock, облачную платформу Amazon для размещения генеративных моделей ИИ, расширяя ранее объявленное сотрудничество с AWS.
Налаживание партнерских отношений и расширение возможностей происходит на фоне затишья в коммерческих начинаниях Stability, столкнувшейся с жесткой конкуренцией со стороны OpenAI, Midjourney и других компаний. В апреле компания Semafor сообщила, что Stability AI, которая на сегодняшний день привлекла более 100 млн. долл. венчурного капитала, страдает от нехватки денежных средств, что послужило толчком к закрытию конвертируемого облигационного займа на сумму 25 млн. долл. в июне и поиску руководителей для увеличения объемов продаж.
«Последняя модель SDXL представляет собой следующий шаг в инновационном наследии Stability AI и способности выводить на рынок самые передовые открытые модели для сообщества ИИ», — заявил в пресс-релизе генеральный директор Stability AI Эмад Мостак. «Представление версии 1.0 на платформе Amazon Bedrock демонстрирует нашу твердую приверженность сотрудничеству с AWS для обеспечения лучших решений для разработчиков и наших клиентов».