Продолжение страстей по банане и другим моделям генерации изображений - исправляем картинки

Автор: Кира Верещагина

Кто не знает Giga Chat от Сбера и Шедеврум? Это наши, российские ресурсы. Первый - общепользовательская многозадачная нейросеть, в функционал которой интегрирована графическая модель Kandinsky 2, вторая приложение-интерфейс, внутри которого встроена нейросеть на базе Yandex ART для генерации изображения. Оба ресурса подходят для генерации эскизов нейроарта.

Генерация у них идёт за счёт данных, на которых натренирована модель (она их не проверяет в сторонних источниках и оперирует только известными ей данными). На откуп пользователю — очень короткие промпты, буквально два предложения, куда нужно вместить как инструкцию (что рисовать), так и описание — стиль, рисунок это или фотоснимок, время суток, сезон. Такие промпты в исключительных случаях бывают приемлемыми для генерации — алгоритм вынужден достраивать недостающее сам, без учёта ожиданий пользователя, которые ему не сообщили. В общем, квест, в самый раз для новичка, чтобы результат был непредсказуем, а модель восприняла инструкцию неоднозначно и начала галлюцинировать — выдавать недостоверные результаты, которые проявляются в виде запасных пальцев и ног отдельно от тел. Опытные пользователи справляются и получают картинку с нужной детализацией, но многого всё-равно не ждут, потому что эскиз он эскиз и есть. У креатур Шедеврума и Giga chat достаточно узнаваемый «почерк».

Большой плюс — сидят ресурсы на российских серверах, поэтому страсти по мобильному интернету их не затрагивают. Причём тут мобильный интернет? А ограничат его, и аукайте до посинения — профессиональная модель Вас непременно услышит. У тех, кто на удалёнке на дачах или в деревне, далеко не у всех волокно и даже ADSL.Поэтому стабильная работа и вообще возможность работать в сети при ограничении мобильного интернета — большой плюс. Когда совсем плохо, приходится плакать, колоться и жевать кактус.

Ну а теперь пример из жизни.

Как-то между делом мне попался среди моих генераций с помощтью сети Kandinsky 2.1, подтянутого через сберовский Giga Chat, арт, на котором чисто случайно сошлись три нужных мне вещи: взгляд, структура момента и настроение. Молоденький мальчик (на наше времяисчичление) понимает, что через несколько секунд его биография прервётся. Он начнёт жить заново, что называется, с эмбриона, и всё прожитое им, всё чем он дорожил, что и кого любил и ненавидел, будет забыто и перестанет существовать — не равно ли это смерти? 


Главное получилось.

Но остальное множило все плюсы на ноль. 

Во-первых, костюмчик несообразный, от которого у автора текста давление подскочило. 😡 

Во-вторых, откуда в Ирландии эти русские берёзы в таком контексте? Понимаю, что научили кое-кого Богу молиться, но почему я должна это получать в виде результата? Я это не заказывала и не упоминала. Не видите берёз? Это мы не видим! А Кандинский изобразил. И эти берёзы через раз вылазят из тумана после перегенерации другими моделями.

В-третьих, в промпте ночь, которую алгоритм слил в утиль — проигнорировал команду. Эскизные модели это делают легко — их генерации потом всё-равно дорабатывают. Но без исправлений такое нельзя показывать аудиториии.

Выкидывать было жалко, хозяйство большое, в нём всякой дряни применение найдётся. Вот и валялся в папке несчастный рисунок. И вот дошли руки исправить косяки!


Всё сделано в агрегаторе lmarenа в модели Gemini-3 (в миру у пользователей - нано банана). Почему конкретно эта модель, именно на этом ресурсе - прокладке, как с этими зверями справляться, тут:

https://author.today/post/821082

То, что здесь описано, касается опыта работы с конкретной моделью. На других моделях результат может быть хуже или просто иным, а последовательность действий отличаться. Да, многие мощные модели решают все перечисленные ниже задачи в одну генерацию, и Gemini из их числа. Но, если речь о бесплатной генерации, то более оправдано действовать поэтапно — так будет меньше ошибок, артефактов и сбоев, хотя сумма генераций будет больше. Если не платить за токены, это удобно.


Критически важно при такой задаче: в каждом промпте — формула: «Строго сохранить исходную композицию сцены и узнаваемость персонажей без изменений.» Каждая операция (изменение изображения в нужную сторону) производится в новом чате, а результат предыдущего действия нужно  сохранить в отдельный файл и загрузить в следующий чат как исходник. Эти несложные правила сильно сэкономят время и сберегут Ваши нервы. Я не повторяю эти мантры при описании работы на каждом шагу. Но я действовала именно так. Не забывайте инструктировать модель о том, что она не меняет на конкретном этапе.


Для начала нужно было переодеть молодого человека в соответствии с требованиями места и времени. Морочить голову не стала. Нагуглила в сети ирландский плащ-брат, фасончиком и фактурой подходящий. Выбрала подходящий по ракурсу и обрезала до размеров, сравнимым с фигурой на арте. 



Не нужно комбинировать ростовую фигуру с портретом по пояс: модель не обработает запрос корректно. Может справиться, но может и ошибиться. А это время, потраченное впустую.

 Скопировала в окно чата оба рисунка.Для размещения файлов служит кнопка со скрепкой. Дальше — простой промпт, прямо на русском: «Пусть молодой человек на левом изображении наденет плащ с правого.» Эту формулу придумали разработчики. Она смешная.



Вуаля, уродство исчезло. Мне полегчало. Картинку скачала на компьютер. 

Следующий шаг: загрузила картинку в новый чат. Промпт тоже на русском: «Замени цвет плаща на синий.». Можно было прямо указать код цвета, но мне было не так актуально на этом этапе — при ночной съемке оттенки трудно различить, результат будет приемлемым. Модель не определила, как оформить застёжку плаща, поэтому она оставила, как есть. Я тоже не стала вмешиваться в процесс на этой стадии. Попробовала несколько перегенераций. Скачала результат, который меня устроил. Вы спросите, почему берёзы вылезли? Это реакция модели на запрос на текстуры и детализацию изображения в промпте. Обсчитала и увидела - они там и были, только не в фокусе. Я не стала с ними бороться: фон был под замену.


Загрузила последний файл в чат. Мне нужно, чтобы плащ выглядел дорого-богато. Тут уже я нырнула в Google AI. Промпт нужен был более подробный и недвусмысленный. Заказала: чтобы была кайма из кельтского узелкового орнамента и дорогая брошь на застёжке. На этой стадии модель сама устранила странности, которые сохранились от самого первого, гигачатовского варианта. Но брошь оказалась неудачной. Вернула к промежуточному результату. Скачала.



Снова загрузила результат в модель. Теперь убрала фон. Прямо по русски в строку промпта: «замени фон на болото без деревьев, задний план размыт.» Ага, сейчас. Деревья всё равно выскочили, но на второй генерации глаза не мозолили. Пусть будут. Скачала.


Снова загрузила результат в чат. Промпт: «Замени сезон на начало зимы с небольшим количеством снега на земле. Вода не замёрзла. Снегопад. Снег на волосах и одежде персонажей» Приемлемый результат на второй перегенерации. Скачала. 

Снова загрузила результат в чат. Промпт: «Замени время суток на ночь. Освещение — очаг, свет направлен на человека. Источника света в кадре нет.» На первой же генерации всё ок, если не считать, что в кадре появился какой-то костерок или окно дома на заднем плане. Долой его через редактирование изображения: «убери источник света на заднем плане». Первая же генерация — приемлемый результат. Скачала.


Теперь нужно убрать луну — какая луна, если идёт снег? Мне нужен эффект в стиле Рембрандта (мягкий направленный свет), а не яркая лунная ночь, как на картине Куинджи «Лунная ночь на Днепре». Пишу промпт с этой задачей. После генерации получаю итоговый кадр, но он мутноват: при увеличении заметно цифровое зерно. Это не «знание» модели о работе матрицы фотоаппарата, а воспроизведение типичных артефактов, которые встречались ей в обучающих данных для ночных сцен. Нужно исправить!


Улучшаю картинку. Загружаю полученный файл обратно в окно чата. Промпт: «Улучши изображение. Сверхвысокая детализация, фотореализм. Строго сохранить исходную композицию сцены и узнаваемость персонажей без изменений.Усиленный контраст, глубокие тени. Акцент на гиперреализме: детальная фактура тканей и микротекстура кожи. Освещение в стиле Рембрандта (chiaroscuro): мягкий направленный свет. Трагизм лиц и позы героев оставить прежними. 8k resolution, cinematic quality.»

Тут же перевела на английский — модель лучше принимает запросы на этом языке и допускает меньше ошибок при генерации. Время — деньги.

Результат видите сами. Он видим только на полноразмерных снимках - в АТ уменьшенные копии. Просто поверьте, разница есть.  

А теперь  — этот же промпт, с того же исходника по которому генерировали другие модели.


Ну и в довершение —  Grok, мультимодальная модель общего назначения, которая по отзывам, умеет генерировать качественные изображения. Исходник — «фотография» до последнего улучшения. Промпт — тот же, что и у бананы. А результат намного хуже. Что не так? Это ночной снимок дешёвой камерой со вспышкой при недостаточном освещении! Обратите внимание на блики, которые я не заказывала, неестественный свет. Какой там chiaroscuro! Да, цифровое фото, но крайне низкого качества. Не искусство. 

Почему?Искусство требует понимания материала и владения инструментом. Но нейросеть — не совсем карандаш или кисть и даже не фотоаппарат плюс студия. Это сложная система с определёнными возможностями и ограничениями. Если модель не предназначена для фотореалистичной графики или сложной деконструкции объектов, она не сможет выполнить такие задачи, как бы точно ни был составлен промпт. Если инструмент не обладает возможностями выполнить Ваши команды, бессмысленно его применять, не замечать очевидного, тем более обижаться на его ограничения и смеяться над его багами (чаще всего, мнимыми).


Что такое хороший результат? Он должен соответствовать критериям художественной фотографии, в нём непременно должен быть читаемый сюжет и зритель должен видеть этот сюжет глазами автора. Вот этот авторский взгляд, просочившийся сквозь генерацию, и превращает нейроарт в произведение искусства. То, что было в самом начале — не искусство. Это достаточно аморфное изображение, в котором замысел растворён в несуразностях. То, что получилось в конце с точки зрения визуальной эстетики и качества работы — художественное произведение в жанре цифрового эпического портрета. Да, не живопись, не художественная фотография, нечто третье, доступное человеку, который не умеет или не хочет рисовать и не имеет средств и возможностей приобрести фототехнику, купить реквизит и нанять модель.  Это не идеал. Но это пример добротной работы.

Да, уши Кандинского никак не спрятать, его Яндекс, например, опознаёт на раз-два. Так что я его практически перестала использовать даже для эскизов. Не потому, что стремлюсь скрыть нейроарт (это бессмысленно: банана маркирует свои генерации водяными знаками), а потому, что он даёт достаточно заурядные арты.

Надеюсь, я смогла немного приблизить страждущих к пониманию того, как улучшить результаты своего труда и обойтись без лишних пальцев у персонажей, фантазийной одежды и левитановских берёз на заднем плане. Как видите, всё можно исправить и настроить при желании, откорректировать изображение, а не генерировать его каждый раз заново в надежде на 1001 раз случайно попасть в точку. Для бесплатных ресурсов это не важно, но профессиональные коммерческие модели накажут Вас за хаотические, непоследовательные действия рублём. Это неприятно и не нужно.

Последовательность комедии с переодеваниями: меняете одежду, забирая её с образца (два файла должны быть расположены рядом, указываете в промпте, что куда переносить) → исправляете цвет, декор, фактуру тканей (в несколько приёмов, не торопитесь, модель ломать не нужно, это Вам не поможет!) → меняете фон → меняете сезон, прописывая одновременно погоду → меняете время суток → задаёте освещение, качество изображения и прочие подробности, вплоть до марки объектива, если нужно (банана знает, как выглядят фотографии, снятые объективами конкретных фирм-производителей с известными параметрами линз). 

Последовательность действий проверена, она годная.


 

+11
61

0 комментариев, по

2 169 13 54
Мероприятия

Список действующих конкурсов, марафонов и игр, организованных пользователями Author.Today.

Хотите добавить сюда ещё одну ссылку? Напишите об этом администрации.

Наверх Вниз