Рисующие нейросети: Comfy UI vs Automatic 1111
Автор: Владимир ГороховНа днях я освоил в первом приближении вариант рисующей нейронки Stable Diffusion под названием Comfy Ui. Причина- желание освоить модель SDXL и ее производные, которые в старом-добром Automatic 1111 уже не работают. Это оказалось той еще задачей. Автоматик достаточно прост для новичка, плюс к тому есть много обучающих статей и роликов в сети где рассказывается обо всех тонкостях и подводных камнях. Для Комфи всего этого маловато. Пришлось во многом импровизировать. В сравнении с Автоматиком Комфи- это как адронный коллайдер в сравнении с простейшим ускорителем частиц.
Вот веб-интерфейс Автоматика:
Все просто, наглядно, понятно. И сразу дает хорошие результаты.
А вот это веб-интерфейс Комфи. Эти дебри из нодов хорошо знакомы всякому кто делал материалы в Blender. Примерно такая конфигурация нодов нужна чтобы получать в Комфи хоть сколь-нибудь качественные картинки, базовый вариант, увы, никуда не годится и приходится косплеить не то сисадмина прокладывающего локалку не то электромонтажника :) То что на картинке- еще простой вариант.
Ноды- это функциональные блоки-оболочки для алгоритмов языка Пайтон, которые можно соединять линиями друг с другом в логические цепочки-алгоритмы, от простых до крайне сложных. В общем они делают то же самое что и менюшки в Автоматике- задают параметры по которым будет формироваться изображение, но здесь их можно конструировать в сложные системы вручную, тонко настраивать так как в Автоматике это было бы невозможно. Это и плюс и минус одновременно. Куча возможностей но в них тяжело разобраться. В общем, в первый день я получал в Комфи абсолютно ужасные картинки которые мне стыдно показывать, но, в ходе экспериментов удалось таки добиться результатов в целом не хуже чем в Автоматике.
Разница между двумя системами оказалась не только в методе работы но и иных важных деталях. Комфи намного быстрее запускается и при равных настройках меньше нагружает мощщи моей далеко не героической видеокарты (NVIDIA GeForce GTX 1080 Ti (11 Гб)). Он лучше понимает промты (текстовые запросы по которым формируется изображение). Автоматик и его модели нередко игнорируют промты и лепят отсебятину даже с лучшими моделями вроде Photon или Dreamshaper. Комфи позволяет создавать изображения немыслимого разрешения, вроде 16000 на 16000 без существенного вреда для видеокарты, правда не напрямую а с помощью каскада апскейлеров (как раз тот случай когда в Автоматике такого не сделать). В Автоматике этот фокус не прошел бы- ваша видюша такого не одобрит и скажет кря. Зачем такое надо? Не знаю. Но возможность есть.
Примеры? Сейчас будут. Для начала - картинки хрустального шара по запросу
beautiful scenery nature crystal sphere landscape, purple galaxy, diffraction, optical distortion, fantasy title
RAW photo, a photo of , background is , (high detailed glass:1.2) (high detailed background:1.2) 8k uhd, dslr, soft lighting, high quality, film grain, Fujifilm XT3
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 8, Seed: 1986419293, Size: 512x512, Model hash: 879db523c3, Model: dreamshaper_8, Denoising strength: 0.47, RNG: NV, Hires upscale: 2, Hires steps: 10, Hires upscaler: R-ESRGAN 4x+, Version: v1.6.0-2-g4afaaf8a
из Автоматика, модель Dreamshaper 8:
А теперь то же самое в Комфи с моделью Dreamshaper XL в разных разрешениях:
Увы, самая большая фотка разрешением 8000 на 8000 не влезла. Невпиховываемое невпихиваемо.
Теперь- нечто более интересное для мужской части читателей- горячие (в меру) южноамериканские девушки по запросу
18yo cute hot horny peruvian latina girl, blackhair, black eyes, tanned skin, she in in color south-american-patterned short silk tight dress, seductive attractive pose, her arms crossed on the chest,
long range view,
caribbean resort room,
random images,
real life, masterpiece, best quality, soft colors, soft light
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 6, Seed: 1641642214, Size: 512x768, Model hash: 879db523c3, Model: dreamshaper_8, RNG: NV, Version: v1.6.0-2-g4afaaf8a
И не надо воротить носики, то что по большей части рисующие нейронки используются для около-эротического конь-тента- отнюдь не секрет.
В Автоматике, та же модель Dreamshaper 8:
Здесь чуть изменена часть запроса для прически.
А теперь- то же самое в Комфи по аналогичному запросу:
Изображение чуть более натуральное но менее четкое, при любом разрешении. И фон почти всегда слегка размыт. Забавно что нейронка расщедрилась не только на генерацию самой девицы, но и ее портрета на стене :)
Увы, в данном случае и Комфи и Автоматик одинаково игнорировали четкий запрос на сложенные руки. И как всегда не обошлось без проблем с кистями рук, это беда всех рисующих нейронок. Это иногда лечится отрицательными промтами и вспомогательными LoRA-моделями и последующей доработкой апскейлерами, но для этих картинок я их не вводил, мне хотелось видеть "чистый" результат только по базовому положительному запросу. Применение отрицательных промтов значительно меняет общий стиль сгенерированных картинок, что в Автоматике что в Комфи.
Женские персонажи по мотивам космического пост-киберпанка:
a photo of a beautiful 18-yo girl, white, short blonde hair, dressed in a blue futuristic tight suit, in a half-turned pose, (high detailed skin:1.2), (high detailed hair:1.2), (high detailed clothing:1.2), (high detailed background:1.2), girl looks at the camera, background is battle-spaceship board, RAW photo, post-cyberpunk, long range, high definition, 8k uhd, dslr, soft lighting, high quality, film grain, Fujifilm XT3
Шикарная прорисовка комбеза. Прописал короткие волосы а он в 9 из 10 случаев все равно рисует длинные.
Почему блондинки? В космосе не позагораешь, и для поколений космических путешественников микроэволюция сделает сильную выработку меланина бессмысленной.
Без комментариев...
Мужские персонажи по аналогичному запросу прилагаются:
Не знаю зачем на костюме столько светящихся хреновин? Наверное, чтоб лучше видно было.
Ты Баленсиага, Гарри...
Генерал Полиции Моды, не иначе :))) Голографические отвороты кителя- такое фантастическая мода еще не знала.
А теперь полюбуемся на успехи Комфи по аналогичным запросам:
А Комфи не подкачал. У него свое понимание образов для космического пост-киберпанка, но в целом выглядит неплохо. Что мне нравится даже больше чем сами образы, это неплохо (для нейронки) проработанный фон. Тот же Автоматик на фоны честно положил с прибором. Мужские персонажи? Тоже есть:
Дизайн костюма- лютый шедевр. Самое главное защищено)
Увы, мужских персонажей Комфи рисует несколько хуже.
Продолжим. Кроме того, Комфи несколько лучше генерирует незнакомую изначально нейронке технику, например, фантастические космические корабли. Вот несколько картинок по запросу для моего любимого типа фантастических судов- гражданского грузовика рамно-блочно-модульной конструкции который в моем представлении должен выглядеть как-то вот так:
Как же подобные корабли изобразила нейронка? В двух словах- непотребно и нецензурно. Девок она рисует намного, в неисчислимые разы лучше. На что тренировали, то и рисует.
science fiction, original spaceship long linear cargo frame-block-modular construction, cubic cargo containers on frame, plasma engines on sternback, original design, on orbit, in space
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 6, Seed: 2176228888, Size: 512x512, Model hash: 879db523c3, Model: dreamshaper_8, Denoising strength: 0.47, RNG: NV, Hires upscale: 2, Hires steps: 10, Hires upscaler: R-ESRGAN 4x+, Version: v1.6.0-2-g4afaaf8a
Автоматик:
Мда. Тысячелетний Сокол отдыхает :)
Я точно не прописывал размытие или акварель, но Автоматик решил что он тут художник и так видит. Кто я чтоб ему мешать?
То ли космоверфь, то ли рембаза, но точно не простой грузовик.
А теперь посмотрим что нам тут наваял Комфи:
Неплохо. Что корабль что вездеход- хоть немного осмысленные конструкции. Я б сказал что большой грузовик эвакуирует на орбиту исследовательское судно. Но местное небо- это что-то.
Квадратиш, практиш, гут. Но до совершенства форм все равно как пешком до Луны, нарисовано грубовато.
Сложно перепутать круглые формы с кубическими, но Комфи смог. Мульон планет прилагается.
А что у нас с обычной техникой?
Гражданские самолеты, Автоматик, запрос
a airplane medium-haul liner is sitting on the runway at sunset time, with the lights on and the tail lights on.
aircraft, cloud, cloudy sky, evening, ground vehicle, horizon, motor vehicle, mountain, ocean, orange sky, outdoors, scenery, sky, sunset, vehicle focus
Не супер, но хотя бы понятно что это типичный среднемагистральный самолет.
Куда собрался? Движки забыл!
Что наваял Комфи:
Несколько лучше. Более цельно и собранно. Но четкость хромает.
Аналогично.
Теперь- поездатые поезда.
Автоматик, запрос
The train rushes along the rails
RAW photo, long range, high definition, 8k uhd, dslr, soft lighting, high quality, film grain, Fujifilm XT3
С поездами Автоматик справляется несколько лучше.
Реально лучше. Хотя до фотографического качества и тут далеко.
А теперь очередь Комфи:
Как мы можем видеть, и Комфи тоже дружит с поездами несколько лучше чем с самолетами.
Зададим задачку позаковыристее: сельхозтехника. Запрос
the combine harvester cleans a wheat field, sunny weather, heat, summer.
RAW photo, long range, high definition, 8k uhd, dslr, soft lighting, high quality, film grain, Fujifilm XT3
В целом, неплохо, хотя на второй картинке комбайном управляют какие-то не то данунахи с Нибиру, не то группа Гориллаз в костюмах химзащиты :)
Комфи:
В целом, аналогично.
Знаете в чем главный плюс нормальной, добротной оффлайн-нейронки у нас дома вместо всех этих негодных онлайн-сервисов? Не только отсутствие цензуры (порой весьма упоротой, кто использовал "Кандинский" или Wombo Art, знает о чем я). В своей нейронке можно обрабатывать текстовый запрос любой длинны. И это не то что бы сильно сказывается на скорости обработки. Я запихнул в поле ввода целую главу своей книги (городское фэнтези про тайных магов в современности) и нейронка таки постаралась выцепить суть из той лавины текста и сформировать из этого картинку. И надо сказать что Комфи здесь решительно лучше! Автоматик+Дримшейпер 8 выдал такое, что показывать стыдно. А вот Комфи- не стыдно. Да, он выдал ахинею, именно того что нарисовано в той книге не было, но я примерно понимаю за какие фразы он цеплялся когда генерировал картинку:
да, это не фотографическое качество, но как арт- весьма недурно. Я буквально узнаю многие предметы описанные в той самой главе.
...Я научу тебя летать, в зеркале мира исчезать!...
Чудо-Юдо заглянуло на огонек, но Учитель и Ученик даже не прервали своих занятий, просто ученик сгенерировал защитную шаровую молнию.
А теперь- что-нибудь абсурдное. Например, супергерой Мяумэн который сражается с Псом-Суперзлодеем и его Мышиной Армией:
comic book, the superhero Meowman who fights the Supervillain Dog and his Evil Army of Mice:
Автоматик:
Как всегда конкретен и серьезен от хвоста до подушечек на криво сгенерированных пальцах.
Мяумэн и его боевой кот. Псу-Суперзлодею точно конец.
Комфи:
как-то он тут не слишком дерется, и пса-злодея нет, ну да ладно.
Похоже, Мяумэн завербовал часть мышей :))
В общем как-то так. В данном обзоре были проведены лишь базовые действия- генерация по положительному запросу. А еще есть impaint, врисовка, когда вы можете заготовленного заранее персонажа вставлять на нужный вам задний фон, ControlNet,с помощью которого можно придавать персонажу определенную, нужную вам позу, вспомогательные модели LoRA, которые позволяют создать определенный образ для наделения им генерируемого персонажа, например, вы можете создать лора-модель на основе своих фото. И многое другое. Но это мы рассмотрим другой раз.