Вот и я добрался до нейросетей-рисовалок

Автор: Михаил Юрьевич Салтыков

Слоупок опоздавший на год всегда успевает вовремя. Наконец-то я собрался попробовать те самые хайповые рисующие нейросети. В основном Кандинский 2.1 от СберАИ, тестировал через телеграмм-бота (https://t.me/kandinsky21_bot) ибо он не требует постоянно проходить капчу и немного Дримвомбо (https://dream.ai/create).

Лично мне больше понравился телеграмм-бот Кандинского отсутствием цензуры и возможностью выбрать аниме-стилистику без доната. А еще дримвомбо может очень странно понимать запросы о чем ниже. Но у Кандинского пока более «грязное» изображение, особенно людей.

И так, моя первая попытка визуализации одной из своих героинь в Кандинском. Взял описание тупо из рассказа «Ecce Homo»:

Платиновая блондинка в коротком черном платьице и длинных, выше колена, ботфортах на среднем каблуке — как у кавалеристов из учебника истории. Миндалевидные монголоидные карие глаза по-европейски широки, азиатские же высокие скулы соседствуют с европейским носом

Выбрал стиль аниме. И получил это

То же без стиля

Мда. На самом деле не все так плохо, просто нужно руку набить себе и, похоже, нейросети.

В начале я решил упростить запрос:

Платиновая блондинка в коротком черном платьице и длинных, выше колена, ботфортах на среднем каблуке

и получилось это:

Уже лучше, но есть куда стремиться. Так «средний каблук» у нее какой-то странный. Выяснилось что «без каблука» у нейросети вот это
Внешность Алисы Ким намерено утянута с 2В как источника вдохновения, так что попробовал я нарисовать и ее. Запрос «YoRHa 2B без повязки» результат убил:

Хотя потом она исправилась.

Есть у нейросети опция совмещения изображений. Попробовал я значит совместить все ту же Туби:

и известное фото Земли с Луны

чтобы получить то что я хочу обложной на проду «Загруженных». Получилось то что получилось

Вскоре я обнаружил что у Кандинского есть профессиональный режим, который у бота вклюяается в менюшке слева. Позволяет задать картинке при смешивании вес от 0 до 1. Но этот функционал я больше не тестировал сосредоточившись на текстовых запросах.

Для разнообразия попросил я Кандинского нарисовать мне босса качалки:

Однако «boss of the gym» она поняла адекватно:

И так, Кандинский хоть и понимает русский, но английский понимает лучше. В результате экспериментов выяснилось что проблема была в том что сеть не знала слово «качалка». Ибо «босс тренажерного зала» она поняла правильно:

Да, результаты генерации на русском и английском могут различаться. Впрочем они и при повторении одного и того же запроса меняются.

Продолжаем рисовать Алису Ким, в девичестве Туби:

Результат генерации по запросу «Платиновая блондинка, с короткой стрижкой и в черном миниплатье», стиль: anime

А уже неплохо. Правда за счет того что это поясной портрет и ладони сеть от нас предусмотрительно прячет.

А вот катану пририсовать она не смогла, зато сделало миниплатье закрытым купальником. Ну или она подол задрала готовязь овладеть Мехом

Результат генерации по запросу «Платиновая блондинка, с короткой стрижкой и в черном миниплатье с катаной на боку», стиль: anime

Вообще с оружием у Кандинского все плохо. Несколько раз пытался изобразить боевого гиноида из «Лестницы Лагранжа», результат примерно такой:

Да, еще и пальцы завалены

Попытка создать гендеринверсную версию мема «девушка и пять негров».
Одна из

Результат генерации по запросу «мужчина в белом кителе сидит на диване, вокруг дивана стоят пять красивых девушек в эротическом белье», стиль: anime

И так, мы видим что художники в безопасности пока заказчики не научатся предельно точно формулировать ТЗ

Кстати, тот же запрос у Кандинского

Но я помню что Санго как раз подробно формулировал ТЗ делая длинные промпты. Да еще и с негативпромптами.
Например вот это:

Сгенерировано при помощи такого запроса:

prompt: dryad, sexy pose, doggy style, detailed face, detailed eyes, nude body, nipples, masterpiece, highres, flowers in hair, blonde hair, huge breasts, dappled sunlight

И это только половина — негативпромпт я копировать поленился. Но важно отметить что в промпте есть doggy style которого на картинке явно нет. Так что даже с детализированным запросом все хотелки сеть может и не удовлетворить. Ну и тот же промпт у Кандинского,
даже без негативного:


И снова Алиса/2В. Теперь с помощью длинного промпта потыренного у Санго:

Результат генерации по запросу «(realistic:1.5), yorha_no._2_type_b, pale_skin, pale-skinned_female, 1girl, android, bob_cut, highres, nier_(series), nier_automata, robot, short_hair, solo, white_hair, (masterpiece:1, 2), best quality, highres, original, perfect lighting, (extremely detailed CG:1.2), (8k:1.1), intricate, elegant, highly detailed, digital painting, artstation, concept art, matte, sharp focus, illustration, art by artgerm and greg rutkowski and alphonse mucha, (realism:1.5), (HDR:1.5), (background:1.1), (playmate pose:1.1), standing, cowboy shot, hands behind back, (exposed breasts:1.2), and nipples, nsfw, outdoors, beach, (small breasts:1.0), (white hair:1.4), visible nipples, (black blindfold:1.5), (hairband:1.2), (photo of the most beautiful artwork in the world 18 years old pretty girl featuring soft lustrous) Negative prompt: (worst quality, low quality:1.4), (depth of field, blu», стиль: anime

У Санго были еще итерации. Задать их Кандинскому в явном виде похоже нельзя, но я обнаружил что при повторении запроса сеть немного меняет результат.

Мануалы я по плохой традиции не скурил, но предположу что при запросе сеть дообучается на соответствующих запросу участках задачника. Из-за этого в частности она может не сразу переключиться между стилистиками.

Забавно что 2В по промту Санго у меня получилась как Алиса, но Селезнева. Повязку с глаз сеть убрала, но вместо платья одела девушку в какой-то латексный комбез.

Теперь пробую сделать запрос на английском сам

Результат генерации по запросу «young women, blond hair, yorha type 2b, in space», стиль: anime

И вижу что девушка раздвоилась. Ну так «young women».

Результат генерации по запросу «yorha type 2b, in space», стиль: anime«, стиль: anime. Видно что теперь девушка одна, но явно поражена логическим вирусом. Ну и да, «in space» дает скафандры из Масс Эффекта.

Тогда я решил перейти к героине «Кицуне и микрочипы», благо она как раз скафадр в облипочку таскает постоянно. И сходу:

Результат генерации по запросу «Holo from spice and wolfe in spacesuit», стиль: anime

Да, с волосами надо что-то делать, но для первой попытки уже совсем неплохо. И для разнообразия то же на русском:

Результат генерации по запросу «Холо из волчицы и пряности в космосе», стиль: anime. И я не знаю почему тут-то раздвоение.

Наконец

Результат генерации по запросу «holo from „spice and wolf“ anime in spacesuit from „the expanse“ tv show», стиль: anime

Да, человеческие уши в моем случае не баг а фича — у героини именно верхние ухи в дополнение к обычным.

А вот что нарисовал по запросу «holo from „spice and wolf“ anime in spacesuit from „the expanse“ tv show» вомбо:

В качестве стиля использовал реализм ибо аниме там для премов, но видимо хватило «anime» в промпте. Легко видеть что spacesuit завален, как и уши.

А на запрос «holo from spice and wolfe» Вомбо мне выдала такое:

И не поспоришь ведь!😆

Впрочем тут возможно виноват реализм в качестве стиля. Ибо кадинский если выбрать «аниме» по тому же запросу рисует это

а если «без стиля» — вот это:

Или даже это:


Еще немного вывертов логики ИИ. На запрос «гачи, босс этой качалки» упорно выдает вариации на тему этого:

Хотя просто «гачи» вполне понимает:

Эффект дообучения. Ну и те самые руки. Первая попытка нарисовать «Обнаженная женщина, чистая кожа, в полный рост, пять пальцев на руке»

И 7я:

Не смотря на ряд других недостатков, пальцев таки пять на каждой руке😆

Короче говоря, как уже многими говорилось, это лишь инструмент ибо промпты надо уметь составлять вникая в логику нейросети и результат скорее всего придется обрабатывать напильником до желаемого. Скорее всего, то же самое касается и ЧатЖПТ.

+42
725

0 комментариев, по

1 971 4 634
Наверх Вниз