Вот и я добрался до нейросетей-рисовалок
Автор: Михаил Юрьевич СалтыковСлоупок опоздавший на год всегда успевает вовремя. Наконец-то я собрался попробовать те самые хайповые рисующие нейросети. В основном Кандинский 2.1 от СберАИ, тестировал через телеграмм-бота (https://t.me/kandinsky21_bot) ибо он не требует постоянно проходить капчу и немного Дримвомбо (https://dream.ai/create).
Лично мне больше понравился телеграмм-бот Кандинского отсутствием цензуры и возможностью выбрать аниме-стилистику без доната. А еще дримвомбо может очень странно понимать запросы о чем ниже. Но у Кандинского пока более «грязное» изображение, особенно людей.
И так, моя первая попытка визуализации одной из своих героинь в Кандинском. Взял описание тупо из рассказа «Ecce Homo»:
Платиновая блондинка в коротком черном платьице и длинных, выше колена, ботфортах на среднем каблуке — как у кавалеристов из учебника истории. Миндалевидные монголоидные карие глаза по-европейски широки, азиатские же высокие скулы соседствуют с европейским носом
Выбрал стиль аниме. И получил это
То же без стиля
Мда. На самом деле не все так плохо, просто нужно руку набить себе и, похоже, нейросети.
В начале я решил упростить запрос:
Платиновая блондинка в коротком черном платьице и длинных, выше колена, ботфортах на среднем каблуке
и получилось это:
Уже лучше, но есть куда стремиться. Так «средний каблук» у нее какой-то странный. Выяснилось что «без каблука» у нейросети вот этоВнешность Алисы Ким намерено утянута с 2В как источника вдохновения, так что попробовал я нарисовать и ее. Запрос «YoRHa 2B без повязки» результат убил:
Хотя потом она исправилась.
Есть у нейросети опция совмещения изображений. Попробовал я значит совместить все ту же Туби:
и известное фото Земли с Луны
чтобы получить то что я хочу обложной на проду «Загруженных». Получилось то что получилось
Вскоре я обнаружил что у Кандинского есть профессиональный режим, который у бота вклюяается в менюшке слева. Позволяет задать картинке при смешивании вес от 0 до 1. Но этот функционал я больше не тестировал сосредоточившись на текстовых запросах.
Для разнообразия попросил я Кандинского нарисовать мне босса качалки:
Однако «boss of the gym» она поняла адекватно:
И так, Кандинский хоть и понимает русский, но английский понимает лучше. В результате экспериментов выяснилось что проблема была в том что сеть не знала слово «качалка». Ибо «босс тренажерного зала» она поняла правильно:
Да, результаты генерации на русском и английском могут различаться. Впрочем они и при повторении одного и того же запроса меняются.
Продолжаем рисовать Алису Ким, в девичестве Туби:
Результат генерации по запросу «Платиновая блондинка, с короткой стрижкой и в черном миниплатье», стиль: anime
А уже неплохо. Правда за счет того что это поясной портрет и ладони сеть от нас предусмотрительно прячет.
А вот катану пририсовать она не смогла, зато сделало миниплатье закрытым купальником. Ну или она подол задрала готовязь овладеть Мехом
Результат генерации по запросу «Платиновая блондинка, с короткой стрижкой и в черном миниплатье с катаной на боку», стиль: anime
Вообще с оружием у Кандинского все плохо. Несколько раз пытался изобразить боевого гиноида из «Лестницы Лагранжа», результат примерно такой:
Да, еще и пальцы завалены
Попытка создать гендеринверсную версию мема «девушка и пять негров».Результат генерации по запросу «мужчина в белом кителе сидит на диване, вокруг дивана стоят пять красивых девушек в эротическом белье», стиль: anime
И так, мы видим что художники в безопасности пока заказчики не научатся предельно точно формулировать ТЗ
Кстати, тот же запрос у Кандинского
Сгенерировано при помощи такого запроса:
И это только половина — негативпромпт я копировать поленился. Но важно отметить что в промпте есть doggy style которого на картинке явно нет. Так что даже с детализированным запросом все хотелки сеть может и не удовлетворить. Ну и тот же промпт у Кандинского,prompt: dryad, sexy pose, doggy style, detailed face, detailed eyes, nude body, nipples, masterpiece, highres, flowers in hair, blonde hair, huge breasts, dappled sunlight
И снова Алиса/2В. Теперь с помощью длинного промпта потыренного у Санго:
Результат генерации по запросу «(realistic:1.5), yorha_no._2_type_b, pale_skin, pale-skinned_female, 1girl, android, bob_cut, highres, nier_(series), nier_automata, robot, short_hair, solo, white_hair, (masterpiece:1, 2), best quality, highres, original, perfect lighting, (extremely detailed CG:1.2), (8k:1.1), intricate, elegant, highly detailed, digital painting, artstation, concept art, matte, sharp focus, illustration, art by artgerm and greg rutkowski and alphonse mucha, (realism:1.5), (HDR:1.5), (background:1.1), (playmate pose:1.1), standing, cowboy shot, hands behind back, (exposed breasts:1.2), and nipples, nsfw, outdoors, beach, (small breasts:1.0), (white hair:1.4), visible nipples, (black blindfold:1.5), (hairband:1.2), (photo of the most beautiful artwork in the world 18 years old pretty girl featuring soft lustrous) Negative prompt: (worst quality, low quality:1.4), (depth of field, blu», стиль: anime
У Санго были еще итерации. Задать их Кандинскому в явном виде похоже нельзя, но я обнаружил что при повторении запроса сеть немного меняет результат.
Мануалы я по плохой традиции не скурил, но предположу что при запросе сеть дообучается на соответствующих запросу участках задачника. Из-за этого в частности она может не сразу переключиться между стилистиками.
Забавно что 2В по промту Санго у меня получилась как Алиса, но Селезнева. Повязку с глаз сеть убрала, но вместо платья одела девушку в какой-то латексный комбез.
Теперь пробую сделать запрос на английском сам
Результат генерации по запросу «young women, blond hair, yorha type 2b, in space», стиль: anime
И вижу что девушка раздвоилась. Ну так «young women».
Результат генерации по запросу «yorha type 2b, in space», стиль: anime«, стиль: anime. Видно что теперь девушка одна, но явно поражена логическим вирусом. Ну и да, «in space» дает скафандры из Масс Эффекта.
Тогда я решил перейти к героине «Кицуне и микрочипы», благо она как раз скафадр в облипочку таскает постоянно. И сходу:
Результат генерации по запросу «Holo from spice and wolfe in spacesuit», стиль: anime
Да, с волосами надо что-то делать, но для первой попытки уже совсем неплохо. И для разнообразия то же на русском:
Результат генерации по запросу «Холо из волчицы и пряности в космосе», стиль: anime. И я не знаю почему тут-то раздвоение.
Наконец
Результат генерации по запросу «holo from „spice and wolf“ anime in spacesuit from „the expanse“ tv show», стиль: anime
Да, человеческие уши в моем случае не баг а фича — у героини именно верхние ухи в дополнение к обычным.
А вот что нарисовал по запросу «holo from „spice and wolf“ anime in spacesuit from „the expanse“ tv show» вомбо:
В качестве стиля использовал реализм ибо аниме там для премов, но видимо хватило «anime» в промпте. Легко видеть что spacesuit завален, как и уши.
А на запрос «holo from spice and wolfe» Вомбо мне выдала такое:
И не поспоришь ведь!
Впрочем тут возможно виноват реализм в качестве стиля. Ибо кадинский если выбрать «аниме» по тому же запросу рисует это
а если «без стиля» — вот это:
Или даже это:
Еще немного вывертов логики ИИ. На запрос «гачи, босс этой качалки» упорно выдает вариации на тему этого:
Хотя просто «гачи» вполне понимает:
Эффект дообучения. Ну и те самые руки. Первая попытка нарисовать «Обнаженная женщина, чистая кожа, в полный рост, пять пальцев на руке»
И 7я:
Не смотря на ряд других недостатков, пальцев таки пять на каждой руке
Короче говоря, как уже многими говорилось, это лишь инструмент ибо промпты надо уметь составлять вникая в логику нейросети и результат скорее всего придется обрабатывать напильником до желаемого. Скорее всего, то же самое касается и ЧатЖПТ.