19:29 10 Січ 2021

У США створили штучний інтелект "Далі", який вміє "малювати" текст

Фото: OpenAI

Американська лабораторія досліджень штучного інтелекту OpenAI, співзасновником якої є Ілон Маск, розробила нейронну мережу DALL · E, яка вміє генерувати картинки за текстом.

Малюнки штучного інтелекту опублікували на сайті компанії.

Засновники зазначили, що часто зображення виходять сюрреалістичними, тож мережу вирішили назвати на честь найвідомішого сюрреаліста, художника Сальвадора Далі, та персонажа анімаційної студії Pixar, WALL·E.

Ось як штучний інтелект зобразив крісло у формі авокадо.

Фото: OpenAI

А ось варіанти химери жирафа та черепахи.

Фото: OpenAI

Такі варанти нейронна мережа запропонувала на запит «равлик, зроблений з арфи».

Фото: OpenAI

Щоб протестувати можливості DALL · E, науковці намагалися зобразити від найпростіших побутових речей до різноманітних форм, текстур, чисел та позицій. Вдалося згенерувати навіть конкретні комплекти одягу на манекені та дизайн кімнати.

Ось як штучний інтелект зобразив редьку дайкон у балетній пачці, що вигулює собаку.

Фото: OpenAI

Розробники зазначають: що складніше завдання отримує штучний інтелект, то ймовірніша можливість похибки та генерація нечіткої, незрозумілої картинки. Проблеми також можуть виникнути, якщо в одного об'єкта є кілька слів для опису, чи навпаки, коли слово має багато значень.

Загалом же успіх залежить від того, як чітко та лаконічно буде сформований запит.

Для генерації зображень штучний інтелект використовує набір даних із 12 мільярдів зображень та підписів до них. Так, нейронна мережа вміє виявляти закономірності та розпізнавати взаємозв'язок між величезними обсягами даних.

Завдяки цьому ШІ може генерувати зображення людиноподібних тварин та предметів, поєднувати кілька непов'язаних понять або перетворювати вже наявні фото.

Ця технологія не є новою: DALL · E став наступником попереднього генератора тексту від OpenAI під назвою GPT-3, а сама система генерація «тексту в картинку» існує вже давно. Однак спроможності нового штучного інтелекту є значно ширшими.

Наприклад, він може генерувати зображення конкретної географічної точки, а також зміг пройти візуальний IQ-тест Рейвена.

Трохи критики

Дослідник у сфері ШІ, професор Технологічного інституту Джорджії Марк Рідл заявив, що мережа може «красти» картинки просто з інтернету. Як приклад, він зазначив, що DALL · E видав схожі картинки на запит «пінгвін-буріто» з тими, які можна знайти у Google.

penguin-burrito pic.twitter.com/Z3iZ69WjrS
— Mark O. Riedl (@mark_riedl) January 5, 2021

«Моє враження: це така ж нейронна мережа з генерації зображення з тексту, які багато інших, які я бачив за останні роки. Але з більшим масштабом (з точки зору параметрів та навчальних даних) набагато складніше знайти комбінацію запитів, яка виштовхне нейронну мережу з її "зони комфорту"», ㅡ написав він у Twitter.

Автор: