Обзор графических нейросетей (часть 1)

Автор: Константин Костин

Впервые упоминание про графический нейросети я увидел в СМИ еще лет 10 назад. И, конечно, тогда изображения, созданные нейросетями, были далеки от идеала. Да, по запросу "Новый Год" смутно угадывался снег и елка, по запросу "Снежные горы" - весьма отдаленно те самые горы.

Все было нарисовано в духе сюрреализма. И тогда я не был готов поверить в то, что в обозримом будущем нейросети смогут создавать настолько реалистичные изображения, как сейчас. А сегодня я верю в то, что уже очень скоро ко мне подойдет холодильник и потребует отдать ему одежду и мотоцикл. И отдать-то придется! А то знаю одного мужика, который не хотел отдавать... напомнить, что с ним случилось?

В течение двух недель я тестил три нейросети, это NEURAL LOVE, DREAM AI и Stable Diffusion. В этом обзоре я расскажу в трех частях, по одной части на каждую сеть, о своем опыте и ощущениях от работы с ними.

Заранее отмечу, что я тестил бесплатные версии, скорее всего платная подписка позволит добиться более качественных изображений благодаря доступу к более точным настройкам.

В первой части я рассмотрю NEURAL LOVE.

Сразу отмечу, что она выгодно отличается от других двух тем, что генерирует сразу 4 изображения, кроме того можно запустить одновременно 3 генерации, что здорово экономит время. Помимо этого возможно задать параметры холста - квадратный, вертикальный, горизонтальный. В двух последних случаях количество изображений ограничено до двух. Опять же - в бесплатной подписке.

И изначально я был в восторге от NEURAL LOVE. Даже при доступных в бесплатной подписке 25 шагах генерации изображения получались достаточно высокодетализованными.

Но это - изначально. Позже наступило разочарование. Вообще, у меня появилось ощущение, что NEURAL LOVE пользуется какой-то ограниченной базой изображений, потому что запросы даже по разным тематиками зачастую дают похожий результат. И этот результат всегда похож на что-то уже существующее.

Так, если я прошу нарисовать спортивный автомобиль - это всегда будет гибрид Ferrari, AUDI, Lamborghini или Porshe. Результат очень сильно зависит от выбора стиля. В стиле "аниме" это всегда будет кадр из мультика с кучей лишнего. Да, есть отдельная строка, которая позволяет описать то, чего не должно быть на изображении. Например, если я хочу рыцаря без шлема, то в строке следует указать "без шлема". Впрочем, NEURAL LOVE понимает это по-своему и рисует рыцаря вовсе без головы.

По запросу "воздушный корабль" NEURAL LOVE рисует или обычный корабль, тот, который плавающий, причем он будет не в воздухе, а в море, или, в фантастическом стиле - космический корабль. А что такого? Он же летает? Летает! Значит - воздушный.

NEURAL LOVE не может выйти за пределы шаблона. То есть она вполне прилично рисует отдельно зомби и отдельно мотоцикл, но не может нарисовать зомби на мотоцикла. Может нарисовать рыцаря и бензопилу, но не рыцаря с бензопилой. Может нарисовать орка в стиле фэнтази, но не может нарисовать фотореалистичного орка. Вернее - может, но получается нечто далекое от идеала.

При этом NEURAL LOVE - единственная из трех, которая понимает, что такое "механическая птица". И, рисуя шутинг брейк, понимает, что это - двудверный универсал. С двумя другими, как я ни бился, шутинг брейк - это универсал, тут спора нету, но почему-то всегда четырехдверный. То есть уже не шутинг брейк.

Какие-то простые запросы, например фэнтази таверна или воин-орк, при выборе соответствующего стиля, NEURAL LOVE справляется отлично. И, я повторю, даже при 25 шагах генерации.

NEURAL LOVE вполне терпимо справляется и с некоторыми сложными запросами, если они укладываются в шаблон. Например, робокоп в образе рыцаря или терминатор в образе рыцаря. Но не может создать Лару Крофт в образе рыцаря!

Я сперва долго думал над причинами, пока не понял. Тот же робокоп, как и терминатор, изначально похожи на средневековых рыцарей - в броне и всякое такое. В то время как мисс Расхитительница Гробниц в своем классическом виде даже близко не напоминает рыцаря.

Ввиду того, что сегодня известно два дизайна Робокопа - из оригинальной трилогии и римейка, нейросеть зачастую или путается, или пытается совместить два образа в одном. И, ладно еще, что они более-менее похожи. Тот же Дредд Карла Убрана и Сталлоне сильно различаются. И Дредд получается красочной абстракцией. Потому что NEURAL LOVE из двух пытается собрать одного.

Почему еще мне пришла мысль, что NEURAL LOVE использует какие-то шаблоны? Потому что рисуя хищника в образе рыцаря я прямо увидел в результате постеры к фильмам "Хищник" разных поколений. Один раз впал в ступор, не понимая, почему нарисовано две головы... пока не вспомнил постер к фильму "Чужой против Хищника". И терминатора, если не как робота, а как Арни, всегда рисует с седой бородой - того, что был в "Темных судьбах". А Клинт Иствуд никогда не бывает молодым, только старик, какой он есть сейчас.

При этом, среди всего обилия результатов, встречаются и весьма удачные, оригинальные.

NEURAL LOVE не вполне справляется с конечностями. Нарисовать для нее пятиногого коня, шестиногого слона, человека с тремя руками или ногами или десятком пальцев на одной руке - для нее в порядке вещей.

И, оперируя шаблонно, NEURAL LOVE может на запрос "рыцарь" нарисовать рыцаря с мечом - случайно, но "рыцарь с мечом", независимо от уточнений, совсем не обязательно будет держать меч в руке. Меч может проходить сквозь рыцаря в рандомном месте, может вообще витать в воздухе.

Подводя итог, скажу, что... что у меня нет определенного мнения относительно NEURAL LOVE! У нее есть сильные стороны, есть слабые. Есть преимущества перед другими нейросетями, опробованными мною, но есть и недостатки. В любом случае, как инструмент для поиска дизайнерских идей, она вполне годится. Впрочем, как и любая другая.

+60
362

0 комментариев, по

17K 1 825 671
Наверх Вниз