OpenAI анонсирует Point-E, систему машинного обучения, которая быстро создает 3D-изображения из текста
Группа исследователей из OpenAI, расположенной в Сан-Франциско, объявила о разработке системы машинного обучения, которая может создавать трехмерные изображения из текста гораздо быстрее, чем другие системы. Группа опубликовала статью с описанием своей новой системы, названной Point-E, на сервере препринтов arXiv.
За последний год несколько групп анонсировали продукты или системы, которые могут генерировать 3D-моделированное изображение на основе текстовой надписи, например, «синий стул на красном полу» или «молодой парень в зеленой шапке и на фиолетовом велосипеде». Такие системы обычно состоят из двух частей. Первая читает текст и пытается понять его смысл. Вторая, обученная на основе поисковых запросов в Интернете, выдает желаемое изображение.
Из-за сложности задачи, эти системы могут потратить много времени на создание модели, от нескольких часов до нескольких дней. В новой работе исследователи создали аналогичную систему, которая выдает результаты в течение нескольких минут, хотя они с готовностью признают, что результаты «не соответствуют современному уровню качества образцов».
Для более быстрого создания изображений исследователи применили подход, несколько отличающийся от других. Их система даже не создает изображения в традиционном смысле этого слова. Вместо этого она генерирует облака точек, которые при совместном рассмотрении напоминают желаемое изображение. Команда выбрала такой подход, потому что генерировать облака точек гораздо проще, чем создавать реальные изображения. Для создания результатов система направляет найденные изображения через другую разработанную ими систему искусственного интеллекта, которая преобразует полученные изображения в сетки, создающие трехмерную модель облака точек предполагаемого объекта.
Первая часть системы была сделана с использованием двух модулей: первый преобразует текст в идею изображения, а второй находит изображения, которые используются для создания типового изображения. В работе система работает точно так же, как и другие подобные системы — пользователь вводит описательную текстовую подсказку, а система возвращает модель изображения. Авторы отмечают, что, хотя качество изображения не сравнимо с другими системами, оно может быть более подходящим для других приложений, например, для изготовления реальных объектов с помощью 3D-принтера.
Похожие статьи
Передовой чип, формирующий будущее сверхскоростных технологий
Исследователи под руководством Университета Монаша, RMIT и Университета Аделаиды разработали точный метод управления оптическими схемами на фотонных интегральных схемах размером
Читать еще…
Исследователи разработали улучшенный спинтронный вероятностный компьютер
Исследователи из Университета Тохоку, Университета Мессины и Калифорнийского университета в Санта-Барбаре (UCSB) разработали улучшенную версию вероятностного компьютера (p-компьютера) со стохастическими
Читать еще…
Ученые улучшили функцию сортировки в Python
Ученые-компьютерщики Ливерпульского университета решили давнюю алгоритмическую головоломку для ускорения работы одного из основных строительных блоков Python, самого популярного языка программирования
Читать еще…
DfAI: недостающая часть разработки искусственного интеллекта
Учитывая, как быстро инженерное проектирование и производство развиваются вместе с вычислительными разработками, вас может удивить тот факт, что очень немногие
Читать еще…
Дешевый, устойчивый водород: Новый катализатор в 10 раз эффективнее предыдущих устройств для разделения воды с помощью солнечной энергии
Новый вид солнечных батарей, разработанный в Мичиганском университете, достиг 9% эффективности при преобразовании воды в водород и кислород, что имитирует
Читать еще…
Вертикальный электрохимический транзистор продвигает вперед электронику
Трансдисциплинарная исследовательская группа Северо-Западного университета разработала революционный транзистор, который, как ожидается, идеально подойдет для легкой, гибкой и высокопроизводительной биоэлектроники. Электрохимический
Читать еще…