Нанобанана, я люблю тебя! Опыт генерации обложек в ИИ
Автор: Кирилл ЮтаевДрузья, хочу поделиться с вами рецептами приготовления обложек и иллюстраций со своей авторской кухни. И, конечно, узнать секреты тех блюд, что готовите вы!
Прежде всего, хочется воскликнуть Allilujah! в адрес Nano Banana от Gemini.
Эта фантастическая LLM сегодня стоит на голову выше конкурентов (Midjourney, Dalle, GPT Image, Grok) в части создания именно картинок. По крайней мере, для меня и выбранного мной стиля фантастического реализма, это действительно так.
Главное достоинство NB заключается в её потрясающей интуитивности и свежему, естественному и творческому подходу к созданию изображения.
В 90% случаев я использую младшую, самую первую модель (уже давно вышли мощные релизы Pro и 2) - именно она как будто снимает образы прямо из моей головы. И, да, это заметно дешевле
Мне повезло – в качестве промптов я просто использую куски своих рассказов, и в дальнейшем требуются самые минимальные доработки. Причём, в нескольких случаях мне оказалось достаточно одной (!) генерации. Ниже – образцы картинок, созданных с первого предъявления.
Конечно, для изготовления финального варианта, я прибегаю к оркестрации нескольких LLM. Внимание: некоторые их примененных лайфхаков позволяют экономить токены – а значит, деньги! 
Итак, рецепт:
1. Я делаю картинку в Nano Banana. Если она получается за минимальное количество генераций – окей, супер!
Примечание: у NB разрешено огромное количество знаков в промпте, но в силу высокой креативности (в хорошем смысле) модели, лучше не борщить с подробностями – без перегрузки условиями модель свободнее и часто сама дает наилучший результат!
2. Разрешение у полученной картинки относительно небольшое и я прогоняю её через апскейлер (Letsenhance – вторая гениальная вещь, с которой мне повезло повстречаться).
3. Я оживляю картинку в 6-8 секундное видео в Grok. Зачем? Видео, при прокрутке и разборе на скриншоты позволяет получить большое количество кадров и выбрать из них наиболее отвечающий замыслу и милый сердцу. И это также гораздо дешевле
, чем генерировать вариант за вариантом в NB, доводя до нужного результата. И тут не забываем – после нескольких корректирующих генераций изображение начинает деградировать.
4. Выбранный скриншот снова прогоняю через апскейлер. У-ля-ля, готово!
А как эту работу делаете вы?
Ужасно интересно и полезно будет узнать – наверняка, кто-то из вас в этом вопросе далеко впереди меня!
Аппендикс:
1. Моя первая в жизни генерация в картиночной LLM, полученная с первого промпта - иллюстрация к рассказу "Бойцовая рыбка" https://author.today/work/511868
2. Эту картинку я не использовал в качестве иллюстрации, но она прекрасно показывает, на что способна Nano Banana с первой генерации, именно с точки зрения создания атмосферы и настроения. На картинке пляжная сцена на одном из курортов Краснодарского края. В качестве промпта был целиком взят отрывок из рассказа "Дом-Вверх-Дном" https://author.today/work/502084 . Вот этот текст, оцените количество деталей и результат, который показала NB:
"Побережье недорогого курорта кишит людьми; здесь фрики всех мастей: толстая тётка позирует в нелепом шарфе, сзади его держит девочка и трясёт, чтобы создать иллюзию ветра; мужики с пивом; старуха пританцовывает под гудящее техно; чел в трусах и высоких кроссовках, с глазами потерявшегося волка; всевозможные дети; некрасивые девки в инстаграмных позах; голосистые зазывалы на шашлыки и катание на ватрушках; мясистый парень, гордо выпятивший грудь; мудила, что поймал крабика и посадил в песчаную яму на радость зевакам из ближайшего хостела; спасатели, которые никого не спасают; девочки-подростки с пустыми глазами (они при мамах) и прочий парад-алле. Мимо оравы зубоскалов, мимо жуликов и игроков, спешу я вслед за сандалиями, бейсболками и майками-алкоголичками, и мимо жирнолицей зазнобы армянина, жадно всосавшейся в инжир"

Нанобанана, ай лав ю
!