OpenAI анонсує Point-E, систему машинного навчання, яка швидко створює 3D-зображення з тексту
Група дослідників з OpenAI, розташованої в Сан-Франциско, оголосила про розробку системи машинного навчання, яка може створювати тривимірні зображення з тексту набагато швидше, ніж інші системи. Група опублікувала статтю з описом своєї нової системи, названої Point-E, на сервері препринтів arXiv.
За останній рік кілька груп анонсували продукти або системи, які можуть генерувати 3D-модельоване зображення на основі текстового напису, наприклад, “синій стілець на червоній підлозі” або “молодий хлопець у зеленій шапці та на фіолетовому велосипеді”. Такі системи зазвичай складаються з двох частин. Перша читає текст і намагається зрозуміти його зміст. Друга, навчена на основі пошукових запитів в Інтернеті, видає бажане зображення.
Через складність завдання, ці системи можуть витратити багато часу на створення моделі, від кількох годин до кількох днів. У новій роботі дослідники створили аналогічну систему, яка видає результати протягом декількох хвилин, хоча вони з готовністю визнають, що результати “не відповідають сучасному рівню якості зразків”.
Для більш швидкого створення зображень дослідники застосували підхід, який дещо відрізняється від інших. Їхня система навіть не створює зображення в традиційному сенсі цього слова. Замість цього вона генерує хмари точок, які при спільному розгляді нагадують бажане зображення. Команда обрала такий підхід, тому що генерувати хмари точок набагато простіше, ніж створювати реальні зображення. Для створення результатів система направляє знайдені зображення через іншу розроблену ними систему штучного інтелекту, яка перетворює отримані зображення на сітки, що створюють тривимірну модель хмари точок передбачуваного об’єкта.
Перша частина системи була зроблена з використанням двох модулів: перший перетворює текст на ідею зображення, а другий знаходить зображення, які використовуються для створення типового зображення. У роботі система працює так само, як і інші подібні системи – користувач вводить описову текстову підказку, а система повертає модель зображення. Автори зазначають, що, хоча якість зображення не можна порівняти з іншими системами, вона може бути більш придатною для інших додатків, наприклад, для виготовлення реальних об’єктів за допомогою 3D-принтера.
Схожі статті
Передовий чип, що формує майбутнє надшвидкісних технологій
Дослідники під керівництвом Університету Монаша, RMIT та Університету Аделаїди розробили точний метод управління оптичними схемами на фотонних інтегральних схемах розміром
Читати далі…
Дослідники розробили поліпшений спінтронний імовірнісний комп’ютер
Дослідники з Університету Тохоку, Університету Мессіни та Каліфорнійського університету в Санта-Барбарі (UCSB) розробили поліпшену версію ймовірнісного комп’ютера (p-комп’ютера) зі стохастичними
Читати далі…
Вчені поліпшили функцію сортування в Python
Науковці-комп’ютерники Ліверпульського університету вирішили давню алгоритмічну головоломку для прискорення роботи одного з основних будівельних блоків Python, найпопулярнішої мови програмування та
Читати далі…
DfAI: відсутня частина розробки штучного інтелекту
З огляду на те, як швидко інженерне проєктування і виробництво розвиваються разом з обчислювальними розробками, вас може здивувати той факт,
Читати далі…
Дешевий, стійкий водень: Новий каталізатор у 10 разів ефективніший за попередні пристрої для розділення води за допомогою сонячної енергії
Новий вид сонячних батарей, розроблений у Мічиганському університеті, досяг 9% ефективності при перетворенні води на водень і кисень, що імітує
Читати далі…
Вертикальний електрохімічний транзистор просуває вперед електроніку
Трансдисциплінарна дослідницька група Північно-Західного університету розробила революційний транзистор, який, як очікується, ідеально підійде для легкої, гнучкої та високопродуктивної біоелектроніки. Електрохімічний
Читати далі…