Создание ИИ-изображений для проекта «Иmperфeкtionz»
Алексей Полеухин

Создание ИИ-изображений для проекта «Иmperфeкtionz»




Алексей Полеухин,
основатель студии «Gonzo: Research&Art»

В процессе работы над текстами «Иmperфeкtionz» (художественного исследования несовершенств в формате цифрового словаря) мы параллельно размышляли, что на визуальном уровне могло бы органично дополнить проект.
Первой идеей было попробовать использовать сервисы фотобанков. Изображения оттуда нередко гротескно представляют наиболее типичные ситуации, транслируя в ряде случаев стереотипные культурные, гендерные и расовые установки (1). Получается, что за фасадом достаточно совершенной профессиональной техники съемки часто кроется несовершенство смыслов. Однако когда мы собрали версию словаря с такими фотографиями, то поняли, что привлекательно это звучало лишь на умозрительном уровне.

Поиск альтернатив привел нас к технологиям генерации графики с помощью искусственного интеллекта (AI) нейронных сетей и конкретно к сервису Midjourney. Нейронные сети позволяют создавать AI-изображения через программный интерфейс посредством текстовых запросов в произвольной форме (так называемых промптов), которые могут описывать как стилистику и технику изображения, так и любые детали содержательного характера. В работе над сюжетами таких изображений мы выделили два возможных вектора. В одном случае картинки буквально иллюстрировали текст, в другом их сюжеты были уже метафоричными и неочевидными. В конечном счете, возводя несовершенство в принцип, мы решили не приводить связь изображения и текста к единой логике.
фото из проекта Иmperфeкtionz
Из сказанного выше может показаться, что принятие несовершенства делает любой результат априори уместным. Однако когда мы попытались посмотреть на проект глазами конечного пользователя, то осознали необходимость решить несколько критически важных задач. Во-первых, добиться стилистического единства генерируемых изображений. Здесь мы пришли к выводу, что это будут нечеткие lo-fi-«фотографии» — обязательно с человеком или группой людей, достаточно крупно «снятых» на любительскую фотокамеру. При этом представление сюжета или его отдельных деталей должно нести гротескный характер, побуждая зрителя гадать, насколько это «баг» или «фича», а также искать видимые и невидимые связи между изображением и текстом.
фото из проекта Иmperфeкtionz
Во-вторых, мы встали перед необходимостью борьбы с последствиями так называемых «галлюцинаций» нейронных сетей, которые приводят к появлению неправдоподобных деталей изображений. Здесь важно отметить, что причина этого феномена кроется в самой природе нейронных сетей: «Генеративный искусственный интеллект — это на самом деле не интеллект, а инструмент сопоставления шаблонов. <...> Он создан для того, чтобы находить ответы, даже если на самом деле они фактически недостоверны» (2). Более того, будучи всего лишь «ассоциативной машиной» (3), AI не понимает и не знает действительного значения как слов текстового запроса, так и генерируемых на его основе изображений (4).

Неожиданно для нас некоторые несуразности делали «фотографии» более удачными, но от большей части приходилось избавляться, по многу раз корректируя запросы. Но наибольшую сложность AI испытывал с правдоподобной генерацией мелких деталей человеческого тела — зубов, ушей и в особенности пальцев (5). Поначалу мы предполагали, что это может стать раскрытием темы несовершенств на телесном уровне, но на практике такие изображения в большей степени ассоциировались с жанром боди-хоррора и вызывали чувство физического отторжения. В ситуации, когда нам не удавалось одолеть Midjourney, мы дорабатывали изображения с помощью AI-инструментов в редакторе Adobe Photoshop.
фото из проекта Иmperфeкtionz
Наконец, как и в случае с фотобанками, третьим вызовом стало решение проблемы с проявлением в генерируемых AI-изображениях культурных, гендерных и расовых стереотипов: «Согласно Stable Diffusion (один из популярных сервисов генерации AI-изображений. — Прим. авт.), миром управляют белые мужчины-руководители. Женщины редко становятся врачами, юристами или судьями. Мужчины с темной кожей совершают преступления, а темнокожие женщины работают в фастфуде, жаря гамбургеры» (6). Аналогичные трудности испытывают и другие сервисы, в том числе и использованный нами Midjourney (7).

В большинстве случаев решение всех этих проблем упиралось в необходимость генерации достаточного запаса изображениий, чтобы среди них можно было провести отбраковку несоответствующих описанным выше критериям. В свою очередь, это означало кропотливое написание тысяч текстовых запросов, так как появление или отсутствие всего одного слова могло кардинально повлиять на результат. В конечном счете из более чем 8000 изображений было отобрано 40 финальных, а весь процесс работы над этой частью проекта занял больше года.
фото из проекта Иmperфeкtionz
Курсы в «Гонзо»
«с нуля — в плюс бесконечность»
«такого не было в макете»