OpenAI выпускает Point-E, искусственный интеллект для 3D-моделирования

В мире 22 Декабрь 2022

OpenAI, основанный Илоном Маском стартап искусственного интеллекта, стоящий за популярным генератором текста в изображение DALL-E, объявил во вторник (PDF) о выпуске своей новейшей машины для создания изображений POINT-E, которая может создавать 3D-облака точек непосредственно из текста, подсказки.

Engadget сообщает: В то время как существующим системам, таким как DreamFusion от Google, обычно требуется несколько часов и GPU для создания изображений, Point-E требуется только один GPU и одна или две минуты. Point-E, в отличие от аналогичных систем, «использует большой набор пар (текст, изображение), что позволяет ему следовать разнообразным и сложным подсказкам, в то время как наша модель преобразования изображения в 3D обучается на меньшем наборе данных (изображение, 3D) пары», — написала исследовательская группа OpenAI во главе с Алексом Николом в книге Point-E: A System for Generation 3D Points from Complex Prompts, опубликованной на прошлой неделе. «Чтобы создать 3D-объект из текстовой подсказки, мы сначала сэмплируем изображение, используя модель преобразования текста в изображение, а затем сэмплируем 3D-объект, обусловленный сэмплированным изображением. Оба эти шага могут быть выполнены за несколько секунд. и не требуют дорогостоящих процедур оптимизации».

Если вы введете текстовое приглашение, скажем, «Кошка ест буррито», Point-E сначала сгенерирует синтетическое 3D-рендеринг указанного кота, поедающего буррито. Затем это сгенерированное изображение будет пропущено через серию диффузионных моделей для создания трехмерного облака точек RGB исходного изображения — сначала будет создана грубая модель облака с 1024 точками, а затем более точная модель с 4096 точками. «На практике мы предполагаем, что изображение содержит соответствующую информацию из текста, и не обусловливаем явно облака точек текстом», — отмечает исследовательская группа. Каждая из этих диффузионных моделей была обучена на «миллионах» 3D-моделей, все они были преобразованы в стандартизированный формат. «Хотя наш метод дает худшие результаты в этой оценке, чем самые современные методы, — признает команда, — он производит образцы за небольшую долю времени.

OpenAI разместил открытый исходный код проекта на Github.

Фото: Engadget