Новые модели для генерации изображений FLUX.2 Klein и сравнение их с z-image-turbo

Автор: Sango

Когда в 2024-м году выпустили первый Flux - это был весьма ощутимый и заметный бум на рынке доступных генераций изображений, даже несмотря на то что модели требовали достаточно солидных ресурсов. Вот выход Flux.2 в прошлом ноябре прошел куда как тише и незаметнее. В первую очередь из-за возросших требований к ресурсам, что на фоне тотального подорожания памяти (и всего за этим следующего)... в общем это не способствовало сколько то заметной радости и популярности.

А вот выход пару недель назад Flux.2 Klein уже дает побольше надежд и оптимизма. Опять же в первую очередь за счет меньших требований к ресурсам. И намедни я решил не просто попробовать пощупать эти модели, но протестировать их и сравнить с другой моделью - z-image-turbo, которой я пользуюсь уже больше месяца и которой генерирую большую часть изображений, публикуемых на АТ с конца декабря.

Чтобы провести хоть сколько то наглядный тест, я взял за основу эту статью из Дзена, которой пользовался при освоении z-image-turbo. Точнее я взял запросы из этой статьи. Тридцать промптов, которые на мой взгляд позволят получить представление о качестве и провести какое-никакое сравнение результатов. Для удобства последующей работы я запаковал все промпты в json-структуру, которую после парсил с помощью python.

Вдруг кому пригодится

{ "1": "Portrait of a young Scandinavian woman with freckles and pale skin, standing in a snowy forest, soft diffused overcast light, snowflakes on eyelashes, shallow depth of field, shot on Sony A7R IV, 85mm lens, focus on eyes, hyper-realistic skin texture.", "2": "Fashion editorial shot of an African male model wearing a futuristic gold metallic jacket. Dramatic lighting with neon red and blue gels, rim light highlighting the jawline, dark background, sharp focus, glossy magazine quality.", "3": "A candid photo of three friends laughing at a cafe table in Paris. Focus on the middle person, blurred background with pedestrians. Authentic smiles, casual clothing, afternoon sunlight.", "4": "Extreme close-up macro shot of a human eye, detailed iris structure with distinct fibers, reflection of a window in the pupil, wet texture of the eyeball, 8k resolution.", "5": "Portrait of an elderly fisherman with deep weather-beaten wrinkles, grey beard, wearing a yellow raincoat, storm clouds in background, intense gaze, highly detailed skin pores.", "6": "A minimalist white coffee bag standing on a wooden counter. The text on the bag clearly says \"MORNING BREW\" in bold black sans-serif font. Below it, smaller text says \"100% ARABICA\". Fresh coffee beans scattered around.", "7": "A cinematic movie poster for a horror film named \"THE SILENCE\". The text is large, distressed, and dripping red at the top. Below, a silhouette of a house in heavy fog. Dark, moody, grainy texture.", "8": "A neon sign in a rainy window reflection that says \"Open 24/7\" in cursive pink script. Raindrops distorted on the glass over the text.", "9": "Cyberpunk street food stall at night. A holographic sign above says \"NOODLES МАГАЗИН\" in Russian and English and \"面条\" in Chinese. Steam rising, vibrant colors.", "10": "Close up of a grey hoodie. Embroidered logo on the chest says \"Z-IMAGE\" in thick white thread. Visible fabric weave and stitching details.", "11": "A loose watercolor painting of a rainy London street, Big Ben in the distance, wet blending techniques, paint drips, visible paper texture, soft pastel colors, artistic, not photorealistic.", "12": "1990s anime screenshot style, retro aesthetic, a cybernetic girl sitting on a rooftop at sunset, grain filter, VHS noise, hand-drawn cel shading, muted colors.", "13": "Flat vector illustration of a space rocket launching, geometric shapes, simple gradients, trendy corporate art style, isolated on white background, Adobe Illustrator style.", "14": "Oil painting in the style of Van Gogh, a starry night over a modern cyberpunk city, thick impasto brushstrokes, swirling yellow and blue sky, textured canvas.", "15": "Technical drawing schematic of a complex mechanical watch mechanism, white lines on blueprint blue background, annotated, clean lines, high precision.", "16": "A futuristic parametric building designed by Zaha Hadid, white organic fluid shapes, glass facade, surrounded by a green park, sunny day, photorealistic architectural visualization.", "17": "Interior of a cozy messy artist's studio loft. Sunlight streaming through large industrial windows, dust motes dancing in the light, easel with a painting, clutter of brushes and paints, high detail, 8k.", "18": "Isometric view of a cute magical potion shop, low poly 3D render style, purple roof, glowing potions in the window, game asset, white background.", "19": "A transparent glass cube sitting on a wooden table. Inside the glass cube, there is a miniature thunderstorm with tiny clouds and lightning bolts. The lighting from the lightning illuminates the wooden table outside the cube.", "20": "Aerial view of a modern luxury villa with a swimming pool, manicured gardens, tropical plants, dusk lighting, pool lights glowing underwater.", "21": "Biomechanical creature, fusion of organic flesh and metallic machine parts, intricate details, H.R. Giger style, dark gray and slime green color palette, scary, atmospheric.", "22": "A tiny knight standing in front of a colossal ancient dragon, scale comparison, epic fantasy landscape, mountains in background, volumetric fog, dramatic cinematic lighting.", "23": "A surreal dreamscape where giant clocks are melting over dry tree branches in a desert, Salvador Dali style, long shadows, weird geometry.", "24": "Half-human half-robot cyborg mercenary, standing in a rainy neon city alley, glowing red robotic eye, battle damage on armor, wet surfaces, reflection.", "25": "Huge space battle, lasers, explosions, massive spaceships, nebula in background, dynamic action shot, cinematic wide angle.", "26": "Macro shot of a juicy burger with melted cheese dripping down, fresh lettuce, steam rising, dark blurry background, studio lighting, advertising quality.", "27": "Macro shot of a honey dipper with golden honey dripping slowly, catching the light. sharp focus on the honey texture, bubbles inside the liquid.", "28": "Close-up texture of a knitted wool sweater, intricate cable knit pattern, soft fuzzy fibers, realistic fabric texture.", "29": "Luxury diamond ring on black velvet, studio light, caustic reflections, dispersion of light in the diamond, high contrast.", "30": "A glass of whiskey with a clear ice sphere, sitting on a bar counter, condensation droplets on the glass, amber liquid, backlit."}

Чтобы руками не вбивать все промпты для разных моделей - написал небольшой скрипт, взаимодействующий с ComfyUI по api. Циклический перебор моделей, и для каждой модели - циклический перебор промптов. На выходе получаю ворох иллюстраций в одной папке:

Сразу скажу что базовые модели 9B у меня к сожалению не взлетели. Весят они в районе 18 гигабайт и не влезают в мои 16Gb Vram, во всяком случае "по умолчанию". Поэтому на первый раз ограничился моделями 4B. Они весят в районе 8 гигабайт и прекрасно работают на моем железе. Плюс нашел в интернете модели 4B с квантованностью fp8, весом менее 4 гигабайт, решил посмотреть и их.

Уже после проведения тестов подумал о квантованной версии 9B и скачал такую в интернете, но она тоже почему-то сходу не взлетела, хотя весит 9 с немногим гигабайт и по логике должна была запуститься (12-гигабайтный z-image-turbo пашет без проблем). Этим вопросом тоже решил сразу не заморачивать голову, но на заметку взял.

Итого в первом тесте на сравнение участвовало пять моделей:

flux-2-klein-4b.safetensors
flux-2-klein-base-4b.safetensors
fluxKleinFP8_flux2Klein4bFp8.safetensors
fluxKleinFP8_flux2KleinBase4bFp8.safetensors
z_image_turbo_bf16.safetensors

Параметры выставил одинаковые. Разрешение - 896х1152 пикселей, количество шагов - 9 (с таким работал на z-image-turbo). Запрос для api выстроил на основе workflow для Flux.2 Klein из библиотеки Comfy UI. Текстовый декодер для Flux и z-image-turbo использовался один и тот же (qwen_3_4b.safetensors), а вот vae разные (тупо забыл поменять в запросах на одинаковые), хотя не думаю что это сыграло большую роль в качестве и стилистике результатов. Затем - запуск скрипта, создавший мне 150 изображений (30 промптов по 5 моделям). После оставалось только изучить их и показать вам для наглядности...

Тут тоже чутка заморочился. Пихать 150 картинок в пост было лень и неоптимально, поэтому объединил их в группы по 5 картинок - генерации по одному и тому же промпту но по разным моделям

Так что можете ознакомиться с результатами:

Результаты для сравнения

В каждой "полосе" объединены по 5 изображений. Промпт один, модели разные. Порядок моделей слева направо как уже перечислял выше:

flux-2-klein-4b.safetensors
flux-2-klein-base-4b.safetensors
fluxKleinFP8_flux2Klein4bFp8.safetensors
fluxKleinFP8_flux2KleinBase4bFp8.safetensors
z_image_turbo_bf16.safetensors

Ну первое что скажу - это то что Flux-модели с приставкой "base" ~~обосрались~~ выдали явно куда как худшее качество. Видимо стоило для них использовать большее количество шагов. Затем отчитаюсь за скорость. Модели flux-2-klein-4b.safetensors и flux-2-klein-base-4b.safetensors тратили в районе 8-9 секунд на одну генерацию, а модели fluxKleinFP8_flux2Klein4bFp8.safetensors и fluxKleinFP8_flux2KleinBase4bFp8.safetensors - в районе 5-6 секунд. В то время как z-image-turbo требовалось 15-17 секунд. По скорости мы видим явный выигрыш. Ну а что касается качества... думаю вы и сами всё видите. Отмечу разве что что неквантованная и квантованная модели Flux дают практически одно и то же качество генераций. Большинство же результатов настолько похоже друг на друга, что я долго вглядывался в поисках различий.

Так что по моим личным выводам, "недолго музыка z-image-turbo играла". Новые модели работают быстрее, требуют меньше ресурсов (квантованные 4B вообще думаю запустятся на видюхах с 6-8 гигами памяти, а для неквантованных 4B хватит и "народной" 3060), а качество на мой субъективный взгляд дают лучше и интереснее. Конечно же нужно больше тестов на разных промптах и стилях. И ради этого я попробую дописать своего z-image-turbo-телеграмм-бота чтобы он работал одновременно и с моделями flux и с моделями z-image-turbo (займусь этим вечерком под пивком), и посмотрю на дальнейшие результаты. Посмотрим что из этого выйдет...

Пы.Сы. Кому не впадлу - попробуйте плиз прогнать промпты из поста (ежели не все 30 то хоть часть) через Кандинский и Шедеврум, дабы можно было сравнить результаты с общедоступными и популярными на АТ онлайн-генераторами изображений.
Пы.Пы.Сы. Несколько дней назад писал про халявный сервис генерации картинок perchance. Стоит ли попробовать тестануть его на используемых в этом посту 30 промптах?

генерация картинок, иллюстрация, нейросеть

+365

1 601

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности