О самопальных нейроиллюстрациях - как их делать без валидола и танцев с бубнами
Автор: Кира ВерещагинаНабананила, наконец, картинки в иллюстрации. Набананила потому, что c недавних пор перешла на модель ИИ Gemini от Google, то есть nano banana. А перешла потому, что мне нужны исторически точные костюмы.
Чего я так привязалась к этим историческим костюмам? Просто я зануда почище иного верблюда, ненавижу в исторических книгах анахронизмы, и ещё больше меня типает от того, что на иллюстрациях чёрт знает что художник видит. Так и хочется бедного персонажа спросить: «Что ж ты, собрат, несообразно эпохе оделся?».
Но рисовать вручную долго, особенно когда есть другие занятия. К тому же, на пике популярности именно фото-арты — эстетика современных авторов и читателей сейчас под сильным прессом сериалов и кино, многие представляют картинку кадрами. Вот эти самые кадры нейросеть обязана делать, но не справляется: то галлюцинации одолевают, то просто выдумывает непотребство всякое, потому что на самом деле для сети нет разницы между доспехами XV века и IX века, как не принципиально, эпоха Возрождения или средневековье.
Скажете, ерунда? А лично для Вас есть разница между Дедом Морозом и Сантой? Нет? Тогда можете дальше не читать. А для тех, кто разницу понимает, с Вашего позволения продолжу.
Словарь в пустыне — не великая подмога, но на всякий случай определимся с некоторыми словами и понятиями:
- Промпт — текстовый запрос для нейросети.
- Токены — условные единицы оплаты, расходуемые на генерацию (к сожалению, их приходится покупать за настоящие деньги, которые списываются с Вашей банковской карты).
- lmarena — платформа для тестирования ИИ-моделей.
- Flash-версия — экспериментальная, временно бесплатная модель.
Перепробовала массу: и платное, и условно-бесплатное, а работать приходилось в Шедевруме PRO или GPT, потому что подписка — не для нейрохудожника на час, а токены имеют привычку заканчиваться слишком быстро — два наших ресурса хотя бы стоят вменяемых денег. Но поиски я настырно не прекращала, и вот наконец наткнулась на взлетевший недавно Gemini, в миру нано банана.
С самого начала модель придумали как читерский ресурс для рекламных нейрофотосессий — карточки магазинов клепать и фотографии переделывать. То есть, она обязана уметь «переодевать» персонажа, причёсывать, красить волосы и помещать его в дополненную реальность. При этом нейросеть запоминает лицо людей на картинке, соображает в оптике (фотосессия имитирует работу профессионального фотографа или оператора), в установке света разбирается и умеет строить кадр. Она может уточнять детализацию изображения в последовательных генерациях, не перерисовывая всю картинку. И, самое главное, её учили рисовать не милоту и котиков, а слушать заказчика и гуглить в сети.
Банана ждёт от человека именно текст. Теоретически, русский промпт она понимает, и Вы можете собственными силами что-то вызвать из небытия. Но на самом деле промпты для бананы избегают писать «ручками» даже англофоны: между бананой и человеком уместна прокладка в виде искусственного интеллекта от Google. Они идеально совместимы. Промпт начинается стандартно: «Мне нужен промпт для нано бананы.»
Почему именно ИИ от Google? Да потому, что тогда за Вашим промптом встанет мощь всей поисковой системы Google search. Главное, объясните, что Вам надо. А сеть знает всё. И Google будет искать везде. Не только в зоне ru, и не сначала в ней, потом — где-то ещё.
То есть, если Вас интересует исторический костюм знатного итальянца XV века, просто включите это в промпт. Дальше озадачьтесь только колористикой. То же самое касается и помещения, и оружия — не рыцарь в доспехах, а рыцарь конкретного века, из конкретной страны, обстоятельства пишете, в которых этот рыцарь — на охоте, в гостях, в пути. А нано банана по тексту промпта поймёт, где искал поисковик, что нашёл, последует туда за ним, проверит, что нарыл, и примет находки в качестве инструкции.
В общем, Вы не пишете промпт в прямом смысле слова. Вы пишете детальное описание кадра — пояснения режиссёру, оператору, светотехникам, костюмеру и актёрам. Забудьте то, что рекомендуют Вам опытные пользователи нейросетей: «банан» поймёт и стерпит даже полторы страницы инструкций, и кукухой не поедет. Но у него есть чёткий алгоритм промпта: в кадре есть застывшее действие. Вот это действие и заморозит, то есть выстроит пресловутый ИИ от Google. Помните начало промпта? «Мне нужен промпт дляnano banana.” А дальше свои хотелки — одним массивом текста.
Промпт есть. А как теперь им воспользоваться? Во-первых, Вам придётся обойти блокировку страны.С русским пользователем Google не работает. Но, раз Вы занялись нейроартом, то знаете, как скрыть своё местонахождение через какой-нибудь популярный ресурс, который с 1 апреля строго запрещено рекламировать. Я не намерена здесь обсуждать, правильно ли так поступать. Если Госкомнадзор знает иные способы решения проблемы, с удовольствием приму к сведению. Нет? На нет и суда нет, пока я не совершаю каких-то противоправных действий типа оскорбления руководства страны или пропаганды всякой мерзости.
Когда Вы зашифровались и теперь числитесь где-нибудь в Словакии или Австралии, открываете новую вкладку в Google. Именно в такой последовательности.
В поисковой строке набираете lmarena. Первое что Вам выдаст Google, будет искомая прокладка между Вами и бананой. Почему именно так, в Ниццу через попу? Потому, что Вам нужно не 20 генераций за месяц, а неограниченное количество. Потому, что Вы хотите пользоваться новьём, причём уровня Gemini pro, который приличных денег стоит — у него токены платные.

И за то, чтобы обрести сие счастье бесплатно, и при этом чтобы Google забыл, что больше не работает с русским пользователем, Вы будете играть с разработчиками по их правилам. И откажетесь от части функционала — маркера, масок и прочих прибамбасов, без которых уважающий себя читер уже не работает. Ваше оружие — слово. Оно было в начале, им и закончится.
Да, lmarena – ресурс, благодаря которому тестируют и обучают различные модели искусственного интеллекта. И учиться банана будет на своих ошибках в обработке Ваших заданий. Поэтому бесплатность условна, и то, что Вы реально работаете без оплаты с сугубо коммерческой моделью — не воровство и не пиратство. Вам просто не платят за любезность, которую Вы оказали исследовательской программе. А flash значит, что именно этот релиз ещё нестабилен, его не продают. Когда он будет доведен до кондиции, покинет lmarena, а его место займёт новый — более навороченный, и его тоже кто-то будет тестировать. Возможно, что именно Вы.
Как это выглядит? Когда арена видит, что алгоритм конкретно косячит, она просит разрешения скачать промежуточные результаты и те файлы Вашего чата, которые Вы уже забрали и почему-то недоступны арене — например, Вы перезапустились (картинки будут опорными в обучении, раз понадобились Вам). Да, с Вашего компьютера, если Вы их уже утащили домой, и арена скачает с Вашего позволения именно их, спросив разрешение о каждом. Я — разрешаю. Как часто это случается? У меня было один раз на что-то около двухсот работ.

Итак, lmarena открыта. Теперь Вы выбираете режим тестирования. Там можно две модели запускать в сравнении и много всякого интересного, но Вам нужна одна, конкретная опция. Режим — сугубо Direct,а модель выбираетеgemini-3.1-flash-image-preview - это и есть та самая продвинутая банана. Но там ещё две её версии Gemini, поэтому у Вас прекрасная возможность попробовать все три и определиться, чем сердце успокоится.

У Вас уже есть промпт, который для нана бананы адаптировал ИИGoogle, то есть создал уже на английском языке. Копируете его, вставляете в строку чата и нажимаете на иконку изображения. Она должна выделиться. Затем нажимаете на стрелку. И ждёте. Сложные картинки генерируются долго. Очень сложные — минут по пять. Но ведь Вы никуда не торопитесь?
Итак, картинка вышла. В 70% случаев она нуждается в минимальной обработке. В 1% случаев на ней глюк — например, две лишних фигуры, когда Вы одну заказывали, или камин дорисован, которому вовсе не место на картинке. Лишние пальцы и конечности бывают крайне редко. Модель может ошибиться: ей ирландцев заказали, а она их в парадном зале английского замка разместила — эпоха сошлась, с декорациями начудесила. Но это уже мелочь, которая ею же и убирается: в простом случае нажимаете под картинкой круговую стрелку и вызываете повторную генерацию. Часто этого достаточно. Но можно уточнить промпт.
Причём, тут Вам уже не понадобится текст на английском. Клацаете на edit под полученной картинкой и в окне диалога пишете всё, что нужно поменять, уже на великом и могучем. В конце — волшебное слово. Нет, не «пожалуйста» - всего-навсего: «Всё остальное оставь без изменений». И жмите на стрелку. Новая генерация произойдёт с учётом Ваших пожеланий. В таком режиме можно менять выражение лица персонажа, цвет волос или одежды, причёску, детали гардероба или декора. Что-то или кого-то убрать из кадра тоже можно. Поменять время суток - легко. В общем — многое, что заканчивается обычно разрушением или искажением картинки у других моделей.

Поскольку арена служит для настройки и сравнения ИИ генераторов изображений, в случае, если изменения показались ресурсу важными, он предложит Вам свою игру — две модели будут соревноваться, а Вы — выбирать. Это неизбежное бедствие. Как видите, другие модели перерисовывают лица персонажей. Помнит их только нано банана. Поэтому щёлкайте скип и продолжайте гнуть свою линию — арена выполнит Ваше распоряжение.

Но я так делаю только если картинка очень удачная. Обычно просто возвращаюсь в диалог с ИИ Google. А Вы его ещё не закрыли? Не надо закрывать, пока не закончите игры с картинкой! Сейчас в продолжении чата перечисляете всё, что на картинке неправильно. ИИ сгенерирует новый промпт и добавит в него запреты на какие-то элементы.

Копируете, открываете в lmarena новый чат и запускаете процесс по новой, с исправленным промптом. Времени у Вас не решето, а новые попытки ничего не стоят. Чаще всего, на третьей итерации получается готовый вариант.
И вот Вы достигли совершенства, и пора забрать Ваш трофей. Для этого служит кнопка со стрелочкой вниз под каждой картинкой. Но можно и по простому — клацнуть по картинке правой кнопкой мыши и дальше через копи-паст.

Последнее, что важно: сервер lmarena находится в Калифорнии. Больше всего народа там тусит именно тогда, когда в Калифорнии день или поздний вечер. Учитывайте это, потому что при максимальной нагрузке ресурс капризничает. Не каждый день и не всегда, но бывает. А уговаривать арену бесполезно. Иногда помогает смена страны пребывания — поменяйте Чехию на Иран сами понимаете, где. Иногда нужно погулять полчасика. Кофия попить, родным позвонить — а потом с новыми силами за старую работу.
Учтите ещё такую вещь: если арена хандрит, она может внезапно вылететь, и вместе с ней пропадут все Ваши не сохранённые генерации — придётся заводить новый чат и начинать сначала, точнее — с последнего варианта промпта. С промежуточными результатами Вы уже не сможете работать. Поэтому сохраняйтесь почаще! Люди, делайте бэкапы!
Как Вы понимаете, поскольку нано банана помнит лицо персонажа, моделирует его внешность в псевдо 3D, Вы можете при редактировании промпта повернуть голову человека, изменить мимику — это будет всё тот же персонаж. Можете даже спиной развернуть к камере. Поэтому нейроиллюстрации, сгенерированные данной моделью, любят творцы рекламных роликов (для создания ключевых кадров удобно). Но это отдельная, очень большая тема, и я не собираю яблоки в этом саду - просто показываю окно возможностей. Оно открыто.
А в продолжении блога покажу, как недокартинку, которую нужно было бы фотошопить несколько часов, нано банана за час привела в состояние, ради которого иллюстрацию и задумывали.
Напоследок, ловите чек-лист, что требуется для бесплатного использования Gemini (нано бананы) в его почти профессиональном изводе через lmarena: 1. Обход блокировки зоны ru → 2. Промпт от Google ИИ на английском(!) языке по Вашему описанию кадра на русском языке → 3. Вход в lmarena → 4. Режим Direct → 5. Выбор модели gemini-3.1-flash-image-preview.