Нейросетки в деле рисования персонажа (Stable Diffusion)
Автор: Владимир РальтДобрался наконец до развёртывания первой нейросетки на своём ПК. Естественно, с крамольной мыслью загнать все книжки топов в обучающую выборку и начать генерить аналогичные тексты нарисовать иллюстрации к собственному циклу, а в перспективе и обложки.
Выбор пал на Stable Diffusion из-за низкого порога вхождения. Да-да, заботливые разработчики и просто добрые люди создали рабочий интерфейс (GUI) под родную всем ось Windows. Установка NMKD версии не требует танцев с бубном, знания Питона и прочего. Но зато сетка крайне рекомендует карточку Nvidia с хотя бы 6Гб видеопамяти. Заработает, правда, и на 2Гб (проверено), но с потерей функционала. Так на rtx 3070 ti с 8Гб изображение 512x512 создается 3 секунды, а на gtx 1050 с 2Гб - 3 минуты.
После установки интерфейса вам будет доступна базовая версия самой нейросети. На настоящий момент это Stable Diffusion 1.4. Однако, в интернете есть и дообученные варианты с разными уклонами.
В связи с тем, что в первую очередь я собирался рисовать главную героиню своего романа, а анимешный стиль меня не смущает, то использовал две модели Waifu Diffusion и честно слитую в Интернет Novel AI.
Итак, что вышло.
На Waifu сильно останавливаться не буду. Вот лучшие варианты:
А вот с Novel AI всё серьёзнее (размер груди на совести сетки)
На что следует обратить внимание.
1. Как можно более подробные описания. Приветствуются запросы на детальную прорисовку (highly detailed, photorealistic, wallpaper, fantasy art, concept art и прочее), указание конкретного персонажа (у меня из аниме) для модели. А также указание различных художников, от которых нейросеть возьмёт стиль (если сможет). Плюс в последней версии интерфейса добавлены отрицательные ключевые слова (чего быть не должно) , которые позволяют минимизировать брак.
2. Работа в рамках одного зерна (seed). Это некая числовая последовательность, являющаяся отправной точкой для случайной генерации. Короче, создали картинку, понравилась, скопировали её сид и можете генерить её вариации путем изменения запроса.
Пример на waifu
Пример на Novel AI
Меняем цвет волос, глаз, вплоть до художника или иным способом модифицируем запрос. А жёсткий запрос позволяет получить одного и того же персонажа в разных ситуациях.
3. Также возможна работа в рамках одной картинки. Нейросеть использует ваш арт в качестве основы для генерации. Но тут я пока не получил годные результаты.
Пока всё. В целом картинок на порядок больше, но качество хромает. Также думаю, всё-таки завести эту сетку на docker в Ubuntu. В линукс версии куда как больше настроек (сабсиды и пр.), а также возможность дообучать за счёт своих изображений.
Ну и на сладкое: