До чего дошел прогресс..

Автор: aibolit

Похоже, что в мире нейросетей каждый месяц приравнивается к году, а то и к двум. Еще полгода назад, чтобы улучшить картинку, которая не устраивала, приходилось часами подбирать комбинации коротких описаний, менять вес каждого токена, экспериментировать с лорами и прочими настройками.

А сейчас уже появились целых две модели для работы с описаниями — Flux Kontext и Qwen Image Edit. Им достаточно просто сказать, что именно нужно изменить в изображении, и они выполнят задачу. Причем Qwen, как и многие другие китайские модели — WAN, Lumina, Hidream, Hunyuan — понимает запросы на русском языке.

Давайте возьмем для примера мою старую картинку, которая рисовалась к замечательному циклу Антона Текшина Паутина Миров

Вот эту

И попросим Qwen Image Edit прямо на русском

"Преврати рисунок в реалистичное фото. Замени молнию на кителе пуговицами. Добавь деталей и сделай лицо подобрее и поулыбчивее." В результате получим что-то вроде

Хотя такой результат без Лор конечно не получится, а без Лантнинг лоры генерация на моейт 4060Ti затянулась бы на 4-5 минут. Так что вообще Qwen потормознее и поанимешней Флукса, но мы же не ищем легких путей :)

А теперь давайте попробуем оживить рисунок. Для этого воспользуемся WAN2.2 Fast 5B (качество конечно будет так себе, но зато ролик в 50 кадров мы получим менее чем за минуту), поле запроса оставим пустым (а по умолчанию там фраза "Strike a pose"), хотя в принципе туда можно вписать любое описание действия прямо на русском. Не хочется заморачиваться со вставкой видео, поэтому гифка просто чтобы показать общий принцип.

Тем более что качество генерации видео можно значительно повысить используя старшие 14B модели WAN c двойной генерацией сначала в High Noise, а потом в Low, но это уже от 22 до 25 минут на моей видеокарте (но все равно реально).

qwen image, wan video 22, нейросети

+20

150

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности