Обложка одним кликом в Flux2 klein 9b (4b)
Автор: Виктор ВайерЕсли что, то это графическая нейросеть, которая запускается на 8гиговой видеокарте.
Поддерживает кириллические буквы, не всегда удачно и не все слова. Но в целом результата добиться можно. Подобрав параметры получается генерировать обложку за один пропмт, без подгони, перебора seed и прочих старинных изысков. Просто написал запрос и получил обложку.
На 8гиговой amd rx6600 в linux с comfyui генерация 832x1216 изображения в 10 шагов занимает:
- Flux2 klein 9b - 5минут
- Flux2 klein 4b - 2.5минуты
Если использовать cfg - 1, то время сократится в полтора два раза. Но результат с cfg - 1 меня не устроил.
Flux2 klein4b плохо поддерживает кириллицу, так что в нём получатся только совсем простые надписи:

Обратите внимание, на "ручки" держащие табличку. Нейросеть не очень понимает как держать что-то в зубах. Возможно, если вместо лисы взять собаку, то там нейросеть будет меньше лажать. Ну или надо подобрать иной промпт - обычный "holds in its mouth" (и "holds with its teeth") видимо не очень подходит.
Но вот такие надписи уже не получаются:

Но если какой-нибудь энтузиаст сделает Lora, как это было для flux1.dev, то может и заработает. Но если вы можете самостоятельно наложить текст на картинку, то никаких проблем. Впрочем, если не нужна сложная композиция (а на примере она простая), то хватит и illustrious (sdxl). Но в целом эта моделька сообразительная во всяких замысловатых вещах, которые раньше приходилось делать лорами, а тут хватает и промпта.
К слову, некоторые буквы можно заменять символами из латиницы, и ИИ тогда меньше глючит на надписях, но тогда лучше явно указывать в промпте, что текст на русском. Т.е. вместо Text:"Бьıлина" попробовать Russian text:"Бьıлина" - тут вместо Ы используется мягкий знак и латинская i без точки (в таблице символов она есть). Ну и текст в вернем регистре, кажется нейросеть чаще рисует правильно, чем в нижнем.
Но в целом стабильнее и веселее результат у Flux2 klein 9b:

Так как все эти модели унылейшим образом заточены на реализм, то в арте они без лор немного скучные, но чего-то добиться можно. Например выражения "морды лица" животного. В реализме, естественно, это не очень получается.
Вообще, энтузиасты что-то там тренируют для артов, какие-то файнтюны. Но анимешные варианты унылы, а чего-то более замысловатого мне пока не попадалось, а то что попадалось, выдаёт какой-то глючный результат.
Пример обложечного реализма в 9b модели:

Но тут совсем было скучно и я потребовал кучерявой надписи, получилось не очень, но руками такое ваять муторно, конечно.
Если что, параметры для рисованного варианта:
Prompt: A digital anime-style art with sci-fi landscape. Enormous structures rise into the sky in the mist on the horizon at the background.
The mature gray fox female is walking in the foreground in 3/4 view. Her gray-ginger fur shining in light and her eyes has warm-green glow. Her fluffy tail has black tip. She is have smirk on sly muzzle. Her paws has sharp claws.
The evening soft light is shining at structures and clouds.
The image is a masterpiece high quality art with intricate details and cinematic look.
Image is a book cover with designed title in sci-fi style.
The title of image: "ТЫГДЫК ПО ИНОМУ МИРУ".
Name of author is: "Фыр ФОКСОВИЧ".Negative: bad quality, worst quality, pokemon, photo
Cfg: 2.5 Steps: 7
Там, целых семь шагов, как в турбо-вариантах моделей. К слову, отрицательный промт я не проверил, он был написан для файнтюна, но от той модели я ничего так и не добился.
Ну и да, это почти в один клик, там конечно без навыка промпт как обычно надо уметь писать. Но это стабильнее и предсказуемее первого флюкса, при том быстрее. Там был тупенький текстовый ИИ, а тут уже прицепили qwen 3, который даже в версии 4b (которая в 4b флюксу), уже вполне себе сообразительнее.
А ещё я обнаружил что в в сети официально выложена модель 5-го кандинского, которая вроде как умеет и русский язык и кокошники рисовать, но что-то у меня не получилось от оной модели добиться годного результата. Хотя онлайн вариант выдаёт годные варианты, а вот локально - увы. Впрочем, там много шагов и модель побольше, потому просто нужно больше времени, особенно на моей видяхе, а это надоедает, тем более что у меня нет задач под эти ИИ.