OpenAI открыла Point-E — систему преобразования текста в 3D-модели

AppTractor

2 года назад

Следующим прорывом в мире искусственного интеллекта могут стать генераторы 3D-моделей. На этой неделе OpenAI открыл исходный код Point-E, системы машинного обучения, которая создает 3D-объект по текстовому описанию. Согласно документу, опубликованному вместе с кодовой базой, Point-E может создавать 3D-модели за одну-две минуты на одном графическом процессоре Nvidia V100.

Point-E не создает 3D-объекты в традиционном понимании. Скорее, он генерирует облака точек или дискретные наборы точек данных в пространстве, которые представляют трехмерную форму — отсюда и дерзкая аббревиатура («Е» в названии — это сокращение от «эффективность», потому что это якобы быстрее, чем предыдущие подходы к созданию 3D-объектов). Облака точек легче синтезировать с вычислительной точки зрения, но они не охватывают детализированную структуру объекта, форму или текстуру — ключевое ограничение Point-E в настоящее время.

Чтобы обойти это ограничение, команда Point-E обучила дополнительную систему ИИ для преобразования облаков точек Point-E в полигональные сетки (мэши). Сетки — наборы вершин, ребер и граней, которые определяют объект — обычно используются в 3D-моделировании и дизайне. Но в статье отмечается, что модель иногда может пропускать определенные части объектов, что приводит к блочным или искаженным формам.

Помимо модели для создания мэшей, которая стоит отдельно, Point-E состоит из двух моделей: модели преобразования текста в изображение и модели преобразования изображения в 3D. Модель преобразования текста в изображение, аналогичная системам генеративного искусства, таким как собственный DALL-E 2 и Stable Diffusion от OpenAI, была обучена на размеченных изображениях, чтобы понять ассоциации между словами и визуальными понятиями. С другой стороны, модель преобразования изображения в 3D получала набор изображений, соединенных с 3D-объектами, чтобы научиться эффективно переводить одно в другое.

При получении текстовой подсказки — например, «одна шестерня диаметром 3 дюйма и толщиной полдюйма для 3D печати» — text-to-image модель Point-E генерирует синтетический визуализированный объект, который подается на image-to-3D модель, которая создает облако точек.

По словам исследователей OpenAI, после обучения моделей на наборе данных из «нескольких миллионов» 3D-объектов и связанных с ними метаданных, Point-E может создавать цветные облака точек, которые часто соответствуют текстовым подсказкам. Работает все не идеально — модель преобразования изображения в 3D Point-E иногда не может понять изображение из text-to-image модели, в результате чего форма не соответствует текстовой подсказке. Тем не менее, в случае успеха это работает на несколько порядков быстрее, чем предыдущие ручные операции — по крайней мере, согласно команде OpenAI.

«Хотя наш метод дает худшие результаты в этой оценке, чем самые современные методы, он выдает образцы за небольшую долю времени», — написали они в статье. «Это может сделать его более практичным для определенных приложений или позволит делать более качественные 3D-объекты».

Исследователи OpenAI отмечают, что облака точек Point-E можно использовать для изготовления объектов реального мира, например, с помощью 3D-печати. С дополнительной моделью преобразования в мэши система может — после того, как она немного отполируется — также найти свое применение в рабочих процессах разработки игр и анимации.

OpenAI может быть новой компанией, вступившей в борьбу за генерацию 3D-объектов, но, как упоминалось ранее, она определенно не первая. Ранее в этом году Google выпустил DreamFusion, расширенную версию Dream Fields, генеративной 3D-системы, которую компания представила еще в 2021 году. В отличие от Dream Fields, DreamFusion не требует предварительного обучения, а это означает, что он может создавать 3D-представления объектов без 3D-данных.

В то время как в настоящее время все внимание обращено на генераторы 2D-графики, искусственный интеллект, синтезирующий модели, может стать следующим крупным прорывом в отрасли. 3D-модели широко используются в кино и на телевидении, в дизайне интерьеров, архитектуре и различных областях науки. Архитектурные фирмы используют их, например, для демонстрации предлагаемых зданий и ландшафтов, в то время как инженеры используют модели для проектирования новых устройств, транспортных средств и конструкций.

Однако создание 3D-моделей обычно занимает некоторое время — от нескольких часов до нескольких дней. ИИ, такой как Point-E, может изменить это, если когда-нибудь будут устранены “перегибы на местах”, и одарить OpenAI приличной прибылью.

Впрочем, пока исследователи упоминают, что они ожидают, что Point-E будет страдать от разных проблем и осторожно называют Point-E «отправной точкой», которая, как они надеются, вдохновит всех на «дальнейшую работу» в области синтеза текста в 3D.