Великие комбинаторы — диффузионные модели вроде Midjourney
Алексей Полеухин

Великие комбинаторы — диффузионные модели вроде Midjourney




Алексей Полеухин,
сооснователь студии «Gonzo: Research&Art»

На связи Лёша. Сегодня пятница, а значит, кто-то, возможно, отправится в поездку на выходные — или вообще в отпуск. По этому случаю я решил достать из долгого ящика серию работ из прошлогоднего проекта, который пока стоит на паузе.
Мы работали с темой туризма в его различных (и далеко не только позитивных) ипостасях: избыточное потребление, неудобства для местных жителей, утрата культурной идентичности. Однако проект задумывался как ироничный, а не назидательный, поэтому для иллюстраций я сделал в Midjourney серию забавных коллажей. Коллаж — отличный приём для такой «сборной солянки», для сочетания несочетаемого.

Разглядывая эти картинки сегодня, и с высоты опыта нескольких лет работы с нейронными сетями, я только укрепляюсь в своём (изначально интуитивном) убеждении, что «мышление» нейросетей по своей природе глубоко коллажно. Причём не в метафорическом плане.
Если упростить: диффузионные модели вроде Midjourney — это не гениальные художники, а великие комбинаторы. Они не придумывают (у этих Остапов вообще нет воображения), а компилируют. Проанализировав миллиарды изображений, они «поняли», как статистически выглядит «кот», «космос» или «стиль Ван Гога».

Наш запрос для них — не инструкция, а список ингредиентов. Нейросеть находит эти концепции в своём «латентном пространстве», где они пересекаются, и «собирает» из них итоговое изображение. Именно поэтому мы видим артефакты (вроде шести пальцев на руке) — это «швы» на стыке разных понятий, которые нейросеть не смогла идеально «склеить». То есть перед нами коллаж, только не из бумаги, а из данных и смыслов.
В этом смысле нейросеть, сама того не зная, продолжает дело основоположников и пионеров коллажа как медиума — кубистов (Брак, Пикассо), дадаистов (Хёх, Хаусманн, Швиттерс) и сюрреалистов (Эрнст, Бретон). Они тоже брали готовые образы из физической реальности и, сталкивая их в абсурдных сочетаниях, вскрывали неочевидные, иррациональные связи. Нейросеть сегодня делает то же самое, но в планетарном масштабе, используя в качестве исходных материалов не вырезки из журналов и газет, а весь видимый интернет.
Поэтому, хотя многие приходят к ИИ за фотографией или рисунком, именно коллаж кажется мне самым честным для него медиумом. Коллаж не пытается скрыть свою «франкенштейновость». Наоборот, он выставляет эту комбинаторную природу напоказ, делая её своим главным выразительным средством.
Курсы в «Гонзо»
«с нуля — в плюс бесконечность»
«такого не было в макете»