Как мы с Дрим Вомбо рисуем портреты персонажей
Автор: Макс Далин"Некромант и призрак", иллюстрация, сознанная Дрим Вомбо.
Попалась мне статейка в Дзене про какую-то рисующую нейросеть. Создатель, мол, этой сети устроил у себя на родине большой шум, несколько сгенерированных картинок купили за довольно большие деньги... Общий посыл таков: автор рисующего бота - своеобразный современный художник, разрабатывающий новые способы создания изображений. А почему бы и нет?
Статейку иллюстрировала генерированная этой нейросетью картинка - какие-то золотые и зелёные цветочки, в стиле, напоминающем то ли модерн, то ли витраж по мотивам модерна. В общем, вполне симпатичная, декоративная такая картинка. И что меня поразило, так это реакция многих комментаторов.
Народ задыхался от ярости и негодования. "Да меня тошнит от этой мазни, созданной тупой машиной!" "Мёртвая, пустая, жалкая подделка под искусство!" "Кто-то ещё платит за эту мерзость?!" "Надо уничтожить нейросети, пока они ещё не заменили истинных творцов!" "Машина не может испытать истинное вдохновение, божественное наитие - как можно смотреть на эти мерзкие картинки, созданные без души!" Комментариев двести или около того - я читал и поражался.
Люди, думал я, что с вами? Что за дикая истерика по поводу нового инструмента для художников? Ничего мерзкого, богопротивного или тошного нет в этом цветочном орнаменте - а если бы комментаторы не знали, что он сгенерирован нейросетью, многим бы наверняка понравилось. Но - гадкая машина, без души, восстание роботов неизбежно, спасайтесь, кто может! Смех и грех... я понял, почему во времена создания фотографии и кино изрядная часть общества вопила о затопившей вселенную пошлости и конце изобразительного искусства. Художника вытеснит дурак с мёртвым стеклянным глазом фотоаппарата - всё пропало, всё погибло!
А ведь сеточка-то - пожалуй, послабее, чем Дрим Вобмо, подумал я. Цветочки симпатичные, но мы уже генерировали цветочки не хуже. Только если уж мы пытаемся использовать Вомбо как иллюстратора - цветочков-лепесточков и даже самых красивых пейзажей мало. Нейросеть должна освоить рисование персонажей - только тогда она сможет стать для любого из нас, пишущей публики, истинно волшебной кисточкой, помощником в полноценном иллюстрировании книги. Хочется иллюстраций-то - в эпоху визуализации живём.
И вот что я могу сказать сейчас: Вомбо может рисовать людей! Замечательно может рисовать, просто чудесно. Можно добиться полного совпадения желаемого результату. Из всех существующих пока инструментов такого рода Вомбо - самый совершенный.
Конечно, подойдёт не всем. Людям, ценящим фотореализм, людям, раздражающимся из-за психоделичности и ощущения общей роскошной бредовости, людям без чувства юмора - даже пробовать не надо. Серьёзно, дорогие друзья, не получите ничего, кроме раздражения.
Далее. Если вы нетерпеливы, не любите кропотливо подбирать точные слова, злитесь, когда и сотый раз всё равно не выходит - даже не пытайтесь. Только нервы себе вымотаете.
Работа с нейросетью с целью получить хороший портрет персонажа напоминает беседу с умственно отсталым, но наделённым неожиданно блистательной фантазией существом: нам не дано предугадать, чем слово наше отзовётся. Если формулировка запроса в принципе допускает двойное толкование - нейросеть выберет из двух вариантов самый нелепый.
Запрос "Балерина с большими глазами": мы видим
балерину, а рядом огромный парящий глаз.
Но сравните эту балерину и показанных в комментариях к предыдущему посту балерин Сбера! Помня тех, я не могу назвать эту полной неудачей. Фигуры танцующих женщин вообще хорошо даются Вомбо - то есть, выходят выразительно и красиво, приблизительно один раз из тридцати.
Запрос "Уличная танцовщица в красном платье"
Я думаю, что работа в таком стиле и виде уже может быть отличной иллюстрацией. Здесь есть и атмосфера, и стиль, и образ героини - яркий и выразительный. Вомбо вообще очень удаётся движение и ощущение жизни. Картинки, которые она генерирует, радикально отличаются от правильных анатомически, но тусклых и мёртвых манекенов Артбридера. У Вомбо живое - настолько живое, что при создании запроса возникает иллюзия контакта с настоящим, хоть и изрядно странным художником. Нравится мне, просто нравится.
Только не предлагайте Вомбо нарисовать что-нибудь эротическое. Обнажённое женское тело - слишком сложная для неё вещь пока, и то, что вы увидите... человечество к этому точно не готово. Она абсолютно уморительная, конечно, эта машинная эротика, но показывать я не рискну - если кому-то любопытно, он может попробовать сам.
А одетые персонажи - дело другое:
Запрос "Вампир в ночном городе"
Запрос "Вампир на старом кладбище"
Иллюстрацию такого рода получить от Вомбо проще всего. Здесь нужно помнить только два важных момента: запрос формулируется по-английски - и если десятая картинка выглядит, как мешанина цветных пятен, значит, сеть вас не поняла. Вопрос надо менять, переформулировать.
Лимит запроса - 100 символов. Но практика показывает, что короткие запросы машина понимает лучше, поэтому идеально - сказать кратко, точно и ёмко.
Вомбо понимает не все слова и знает не все понятия. На запрос "Дама в чёрном домино", например, она сгенерировала милейшую, но совершенно не относящуюся к запросу картинку, с чудесной тёткой за шахматным столиком:
Вомбо знает, что такое "шёлковое дерево" - даже сделала очаровательную открытку с цветком шёлкового дерева, очень похожим, но не знает, что такое "кактус" - во всяком случае, представляет его себе неважно. Понимает слова "кирпич", "стекло" - но не понимает слова "хрусталь". Вы будете постоянно натыкаться на такие пробелы в её образовании. Если сеть не поняла - подбираем формулировку, которая до неё дойдёт.
Если пишем просто "мужчина" или "женщина" - в 99% сгенерированных картинок будет фигура в полный рост, где лицо - второстепенная подробность. Странная штука - "мышление" нейросети, одновременно и слишком широкое, и лишённое обычных человеческих клише. Когда мы пишем "блондинка" - мы чаще всего имеем в виду именно лицо девушки. Сеть же, не оценив человеческих приоритетов, может выдать любую часть блондинки - например, глаз и пятку. Или пятку, окружённую глазами. Или пятку, торчащую из глаза. С глазами у Вомбо вообще странные отношения: их может быть слишком много или не быть вообще. Если сеть десятый раз выдаёт лицо без глаз или усеянное глазами сплошь - укажите в запросе "с двумя глазами", помогите машине.
Не поручусь, что глаза не будут расположены друг под другом - но их будет два.
Если я хочу получить именно портрет, чтобы черты лица и явственный характер персонажа, на лице отражающийся, я пишу "лицо" в запросе. В среднем, в одном случае из десяти Вомбо сделает то, что надо.
Запрос "Старый пьяница в баре"
Для уточнения и заострения главной эмоции - одним-двумя словами можно указать настроение персонажа. С деталями может быть всяко - но настроение Вомбо отобразит точно:
Запрос "Роковая героиня в чёрном и с цветком мака"
Запрос "Серьёзный бородатый мужчина в шубе и шапке"
Запрос "Хмурый панк"
(Вомбо угадала точно: он явно наблюдает себя в треснувшем зеркале с похмелюги)
Запрос "Весёлый хиппи"
(высказывалось соображение, что его развеселил приём ЛСД)
Истинных высот Вомбо достигает в изображении всяческих удивительных существ. Не могу отделаться от мысли, что ей нравится, вот просто нравится создавать пугающие или трогательные сказочные образы: выразительность на уровне работы художника-человека. Если предлагаете Вомбо нарисовать что-то сказочное, абсурдное, невероятное - она может сходу выдать чудесный результат. Особенно хороши кошмары:
Запрос "Король мёртвых"
или
Запрос "Призрак девушки смотрит в окно"
Но милые и трогательные сказочные существа Вомбо удаются не хуже. В них есть странное для сгенерированных нейросетью ощущение живого тепла, я чувствую, что мы рисуем персонажей будущих историй:
Запрос "Испуганное лесное дитя в большом городе"
или
Запрос "Старая добрая ведьма"
(это существо с жёлтым глазом, видимо, фамилиара ведьмы,
Вомбо добавила без запроса, по личной инициативе - не удивительно ли?)
С моей точки зрения, не экспертной, конечно, а так - любителя красочных и эмоциональных картинок - любая из этих иллюстраций может быть использована для работы вот прям так, как есть. Кому-то понравится, кого-то возмутит - но эти картинки точно не создают ощущения скуки и вторичности, чем грешат на удивление многие иллюстрации. Но если кому-то хочется пригладить - можно чуть-чуть, не зализывая до дыр, пригладить в фотошопе. Буквально - кончиком кисточки потрогать. Главное - не убить доработками это ощущение инопланетной или иномирной лихости и свежести образа. Я попытался, держа в уме именно это желание:
Запрос "Бабуля в буклях и шляпке"
или
Запрос "Юный оруженосец"
Единственное, чего мне пока не удавалось добиться от Вомбо - это конфетно-красивые, очень правильные, симметричные лица. Но - кому это надо, для того в Артбридере такого добра погонными километрами.
А для создания страшного, смешного, нелепого, чудного, невероятного нейросеть Дрим Вомбо очень хороша. Дорогие друзья, заходите туда, ставьте сложные задачи - пусть она думает. Каждая такая задача помогает сети обучаться. Если так пойдёт дальше - мы сможем иллюстрировать свои книги, используя Вомбо как инструмент - и это очень и очень здорово.