Генерация изображений с помощью FLUX (примеры генераций прилагаются)

Автор: Sango

Про FLUX я писал у себя еще на прошлой неделе (https://author.today/post/533481). Это новая модель генерации изображений по текстовому описанию, которая по заявлению разработчиков может превзойти все имеющиеся на текущий момент решения на рынке. И которую по аналогии с классическими моделями stable diffusion можно запустить у себя на компьютере. Было бы мощное железо (FLUX заметно более требователен к ресурсам нежели классические SD1.5 и SDXL).

Хотел поработать с флуксом еще на прошлой неделе, даже поставил ConfyUI и сделал пару пробных генераций на очень медленной скорости. Но потом погряз в рутине бытовых дел, работой с конкурсом, и генерациях на уже привычных моделях…


Точнее на какой-то (уже забыл на какой конкретно) модели на базе Pony Diffusion


…но как говорится - спасибо интернету за то что подбрасывает информацию. Подписан в ВК на одну группу по стабле, там увидел инфу про новую сборку forge (форк автоматика) с поддержкой flux-а, и про новую облегченную версию dev-модели. Много буков писать не буду, просто оставлю ссылку на видосик на рутубе (там во всяком случае видео работает), там все рассказано и есть все нужные ссылки:

https://rutube.ru/video/60bf83e0c5a88c65e43e186d17ff1db5/

Установка была простой. Скачал архив, распаковал его с помощью 7-zip (вроде как важно использовать именно этот архиватор а не привычный winrar), закинул в папку скачанную модель, update, start - и все заработало!

Поскольку время на моих часах было половина двенадцатого ночи, то я не стал проводить какие-то глубокие изыскания и исследования. Сперва просто проверил скорость генерации на базовых параметрах выставленных по умолчанию:

Вы знаете, по мне это это прям хорошенечно! Картинка генерировалась со скоростью менее двух секунд на шаг! Понятно что это не скорость SDXL (там на таких же настройках у меня скорость около трех шагов в секунду), не говоря уж про SD1.5, да и по словам чувака из видео качество на облегченной модели совсем немножечко, но похуже чем на необлегченной. Но насчет качества это надо сравнивать, да в генерациях качество сильно рандомно, и раз на раз не приходится. А скорость для моей вюдюхи (rtx 4070 12 Gb) как я считаю весьма хорошая. Плюс утверждается что данную модель можно запустить на видеокартах с 8 гигабайтами видеопамяти, и вроде как даже с 6 гигабайтами. Хотя это я уже не проверял, нету у меня таких видеокарт в наличии.

Дальше я опять же не стал проводить каких-либо глубоких исследований и опытов, время было позднее. А просто открыл интернет, стал брать оттуда разные промпты и ставить их на генерацию. Чисто посмотреть что да как выйдет. Выставил по умолчанию 25 шагов генерации, при таких настройках время генерации одного изображения занимало около 45 секунд:



Результатами я очень даже доволен. Видно что модель вполне может в разные стили и направления. И без каких-либо манипуляций с настройками и даже без негативного промпта. Просто меняй запрос и генерируй. Да, не без косяков, как ни крути, но любые базовые модели (первые модели, выпущенные компаниями-производителями этих самых моделей) не могут быть идеальными из коробки. Даже обещанные пальцы все еще косячат. Возможно опять же это особенность dev-модели, и в платной pro-версии (доступной только через официальное API) и этих косяков нет. Может надо было увеличить количество шагов до 40-50. Но я уверен что комьюнити обязательно исправит имеющиеся недочеты и создаст более качественные модели на любой вкус и стиль, надо только немного подождать.

А вот для примера порция сисястых фэнтези- и фантастик-красоток от FLUX:



…последняя красотка правда не попадает ни в фэнтези, ни в фантастику, но уж больно хороша вышла!

Ну и конечно же одна из киллер-фич флукса - надписи. Заявлено что модель хорошо и корректно делает надписи на рисунках. Пока правда только на английском языке, но тем не менее. Сперва для пробы сделал облачка…



…а потом сразу же перешел на коллабарации с нейросетевыми тёлочками…



С текстом однозначно прорыв. В старых моделях для выполнения подобных задач требовалось шаманить с Lora-файлами, и результаты все равно были на порядок хуже. А тут есть возможность сделать себе лого с надписью. Да и другие языки уверен тоже со временем появятся.

Что по поводу NSFW-контента? Частично раздетых девушек модель может генерировать (примеры выше), а как насчет полного заголяка?


Вообще немного удивительно что модель может даже полуголых барышень. Модель официальная, от официальной западной кампании, а там как мы знаем с этими вещами строго, могут обвинить невесть в чем. Плюс вроде как нет открытой инфы на каких же данных обучались модели. Кто знает чьи сиськи или прочие «гендерные признаки» можно увидеть на очередной генерации!

Ну и чтобы не быть многословным…


Модель фейлится уже на сосках. На предпоследнюю картинку без слез не взглянешь. На последней нет даже намеков на ареолы. Возможно надо более правильно строить запрос. Или стоит поискать специальные Lora-файлы для FLUX-а, если они уже есть. Если говорить про полный заголяк - есть у меня одна картинка, но выкладывать подобное на АТ нельзя. Хотя может на самом деле и можно, так как у девушки в той генерации в принципе отсутствуют половые признаки там где положено. Гладко как у пластмассовой куклы. Но на такое лучше пожалуй и не смотреть.


За счет того что FLUX теперь запускается на автоматике, есть план прикрутить его к своему телеграм-боту, или лучше даже написать отдельного, FLUX-заточенного. Надо только поковыряться в API дистрибутива…


И в этом плане уже столкнулся с препонами. API у forge сильно отличается рядом запросов от дефолтного автоматика, swagger непонятный (точнее я не умею толком его читать), в интернете инфы с примерами пока не нарыл, а ковырять исходный код - впадлу и упорешься. Сто процентов расковыряю этот орех, но скорее всего не в ближайшие дни. Впрочем ничего никуда не торопит, модели ток появляются, дистрибутивы тоже пилятся. Так что в блокнотике задачей себе поставил, а сроков - нет. Как сделаю так и сделаю.


Перспективы у новой модели однозначно есть. Так что беру FLUX на заметку. Буду смотреть что будет дальше)

+407
2 643

0 комментариев, по

86K 6 058 2 495
Наверх Вниз