Турбо-реализм

Автор: Константин Бояндин

Пока мы тут бьёмся за оливье и прочее культурное наследство, технологии искусственного интеллекта не стоят на месте. Если вы ещё ни разу не заглядывали на сайт StabilityAI (создатели Stable Diffusion, SD — сайт на английском языке), то самое время восполнить этот пробел. Подсказка: там не только достигли ускорения работы SD, об этом ниже, но и очень быстро осваивают другие генеративные направления: текст, музыка, видео, 3D моделирование и так далее.

Об этих направлениях речь когда-нибудь потом, а пока что самое важное о SD: там не только освоили высокое разрешение и умение бороться с известными дефектами картинок (SD XL), но и разработали существенное ускорение алгоритма построения картинки по описанию.

Если совсем на пальцах: новая, доступная с уже существующими обёртками модель SD XL Turbo позволяет генерировать изображения размером 768x1024 примерно за 0.8 секунды каждое там, где прежде на это уходило секунд 8-10. Понятно, что это очень примерная оценка, и всё зависит от описания, «железа» и конкретного разрешения картинки.

Соответственно, порождённые от SD XL Turbo модели также показывают существенный прирост скорости, при этом очень выигрывая в качестве.

Посмотрим на примеры. Созданные ниже картинки считались в разрешении 768x1024 от 3 до 5 секунд (NVidia RTX A4000, AMD Epyc 2GHz с 8-ю ядрами, 32 Гб DDR5) при использовании модели RealVisionXL_Turbo.

Для чистоты эксперимента я делал ровно один просчёт картинки по тому же самому описанию (т.е., не делал традиционно: просчитать несколько десятков вариантов и выбрать 1-2 годных). Ясно и понятно, что конечности и анатомия — всё ещё слабое место генеративных моделей; о том, насколько всё изменилось, судите сами.

Прекрасные дамы

Глядя на звёзды

Девушка у обрыва

Утро в саду

Городская аллея

Культист

Алиса Листьева

На репетицию

В кафе

Вы могли обратить внимание на осмысленные надписи: «Heat» у Алисы Листьевой и «Hero» у девушки в кафе. Это тоже новое свойство модели: можно задавать вполне определённые текстовые строки, взамен того случайного набора символов, который обычно получался.

Картинки ниже получены на базе той самой модели SD XL Turbo (алгоритм сведения Euler a, разрешение 768x1024 или 512x512, 1 прогон сведения, дискриминатор (CFG) 1).

Страна снов

Летний лес ночью