делаем по текстовому (!) промту серию иллюстраций, стараясь делать однородно (!)
Автор: Erik Bauerну мы тут с Игорем К. разговорились про то как генерировать серии иллюстраций.. ну в этот раз мы будем делать прям по текстовому описанию, и попробуем именно серию.
ну само собой понимаем - у нас же произведение..
надо как то уговорить генератор изображений делать в едином стиле (и да, прежний способ с референсом изображения не забываем, комбинируя оба варианта, тоже можем добиться хороших результатов)
и да, чисто по тексту оно всегда норовит внести отклонения, разные ИИ в этом плане по разному, поэтому формулируем промты как можно точнее и детальнее.
Процитирую прямо мой запрос для .. я экспериментировал с ИИ flowmusic.app (он делает и картинки):
"...привет, пишу пост про делать с ИИ иллюстрации...в электронную книгу, скорее всего"
ну в общем, вставляем сцену и просим сделать по ней изображение.
нам понадобятся описания персонажей, и разные подробности, которые во всех иллюстрациях одинаковые. они будут во всех промтах, а сцены разные.
я примерно накидал так:
Делать буду в flowmusic.app, и оно как раз то самое капризное и которое норовит отклониться от заданной задачи. Там будут неточности, что и хочу испробовать. Оно более доступно в России чем тот же chatGPT, он то будет точнее. При возникновении отклонений в нескольких результатах, ну уточняем промт и пробуем несколько раз
стиль комикс в духе мультсериала "Масяня '
персонажи:
1. бабушка террористка киллер в синем платочке с розовыми горохами, в пальто камуфляж и солдатских берцах, очки круглые... синие стекла. вооружена всяким там внушительным оружием по обстоятельствам
2. практикант бабушки террористки, в куртке камуфляж, в розовой вязанрй шапочке с помпоном черные брюки с много карманов, боты Converse кожаные терракотовые. блондин курносый, стрижка короткая, слегка кучерявая..
иллюстрации - комиксы, с говорящими пузырями
сцена 1 - в подъезде: бабка говорит практиканту: "в голову не стрелять, очень пачкается подъезд" у бабушки винтовка с оптическим прицелом, у практиканта большой пистолет
сцена 2: в кафе сомнительного типа, вокруг валяются уснувшие девушки "с барной стойки". Бабушка отчитывает практиканта: "ты постоянно кладешь слишком много клофелина куда не надо" Практикант озадачен... на заднем плане колоритная хозяйка заведения держит счёт, на нем написано "хотел всех посмотреть!" и большая сумма
сцена 3: на крыше небоскреба: бабка в спальном мешке, лежит уютно целиться и говорит мерзнущему практиканту с термосом: никогда точно не знаешь, поедет депутат, не поедет.. или это не депутат.. когда поедет.. поэтому надо утепляться, а простужаться - непозволительно! У практиканта базука на спине..
сделаешь примеры мне? картинки сгенерировать для поста из этих трёх сцен учитывая персонажи вот и стиль чтоб однородно да?
мне по отдельности три картинки по сценам, или надо три писать отдельных запроса?...
что я ещё не учел для хорошей генерации в промте?..."
во результаты по моему промту. Про клофелин оно делать отказывается..
парень отличается.. ну вот.


***
в ходе эксперимента сделало (придумало) мне пару сцен взамен несделанного.


начинаются отклонения..ну в случае с флоумузик это не удивительно. и я просил разом несколько - тож не особо умно.
****
Картинки из моего промта получились так:
Вот что ответил мне ChatGPT
Да, это уже почти правильный пайплайн для авторов 
Ты интуитивно пришёл к тому, что сейчас реально работает для стабильных иллюстраций в книгах и комиксах.
Но тебе не хватает нескольких важных блоков в промте, чтобы:
- персонажи были одинаковыми,
- стиль не «плавал»,
- сцены выглядели как одна серия,
- генератор не забывал детали одежды,
- комикс не превращался каждый раз в новый мультфильм.
Вот что стоит добавить авторам как систему.
Как правильно строить промт для серии иллюстраций
1. ОБЩИЙ STYLE BLOCK
Это копипастится В КАЖДЫЙ запрос.
Например:
Comic illustration in the style of the animated series "Masyanya", rough expressive lines, flat cartoon shading, humorous post-soviet atmosphere, absurd dark comedy, exaggerated facial expressions, hand-drawn feel, dirty stairwell aesthetics, Russian urban chaos, comic speech bubbles, consistent character design, graphic novel panel composition
Это — «ДНК» всей серии.
2. CHARACTER SHEET BLOCK
Вот это у тебя уже почти есть.
Но нужно писать не «примерно», а максимально фиксированно.
Например:
Characters (must remain visually identical in all scenes): 1) Elderly terrorist grandmother assassin: old woman, blue headscarf with pink polka dots, camouflage coat, military combat boots, round glasses with blue lenses, skinny angry face, sarcastic expression, carries oversized weapons 2) Grandmother's trainee: young blond man, short slightly curly hair, snub nose, pink knitted beanie with pompom, camouflage jacket, black cargo pants with many pockets, terracotta leather Converse shoes, confused facial expression
3. CAMERA / FRAMING BLOCK
Вот это почти никто новичкам не объясняет.
А именно оно делает картинку «кинематографичной».
Например:
medium shot, dynamic comic framing, slightly wide-angle perspective, expressive poses, detailed background, cinematic composition
или
close-up comic panel
или
wide rooftop shot at night
4. LIGHT / COLOR BLOCK
Иначе каждая сцена будет другого цвета.
Например:
cold dirty urban colors, muted palette, blue-gray shadows, dim yellow lighting, gritty comic atmosphere
5. SPEECH BUBBLES
Очень важно писать:
comic speech bubbles with readable Russian text
Иначе модель:
- забудет пузыри,
- сделает кракозябры,
- вставит китайский,
- или текст поплывет.
6. ЧТО ЕЩЁ ТЫ НЕ УЧЕЛ
Самое важное:
а) consistency keywords
Вот эти слова реально помогают:
same characters as previous scene consistent character design recurring characters identical outfit
б) эпоха / страна / атмосфера
Иначе ИИ может внезапно сделать Америку.
Например:
post-soviet apartment building russian stairwell cheap suspicious cafe eastern european urban atmosphere
в) тип юмора
Это тоже влияет:
absurd humor dark satire deadpan comedy grotesque comic mood
Теперь главное:НУЖНО ЛИ 3 ОТДЕЛЬНЫХ ЗАПРОСА?
Да.
И это ОЧЕНЬ важно.
Почему нельзя все сцены одним запросом
Если ты пишешь:
scene 1, scene 2, scene 3
то модель:
- смешает сцены,
- забудет детали,
- сделает коллаж,
- потеряет персонажей,
- изменит стиль между кадрами.
Правильный способ
Делается так:
PROMPT TEMPLATE
Блок 1 — STYLEБлок 2 — CHARACTERSБлок 3 — SCENE
И меняется только SCENE.
Пример
Сцена 1
Comic illustration in the style of the animated series "Masyanya", rough expressive lines, flat cartoon shading, absurd dark comedy, post-soviet atmosphere, comic speech bubbles, consistent character design. Characters: 1) Elderly terrorist grandmother assassin: blue headscarf with pink polka dots, camouflage coat, military boots, round blue glasses, sniper rifle with scope. 2) Young trainee: blond, pink knitted hat with pompom, camouflage jacket, black cargo pants, terracotta leather Converse shoes, holding a huge pistol. Scene: Dirty apartment stairwell in a soviet apartment building. The grandmother calmly explains to the trainee: "В голову не стрелять, очень пачкается подъезд" The trainee listens seriously while holding a large handgun. medium shot, dynamic comic framing, gritty urban lighting
И ДА —
лучше делать:
- отдельный PNG на сцену,
- потом собирать в Scribus/Canva/InDesign,
- а не пытаться получить «сразу страницу комикса».
Это супер-важный профессиональный момент.
Ещё один очень важный совет авторам
Делайте MASTER CHARACTER PROMPT
Отдельный файл.
Типа:
MASTER CHARACTER SHEET
И туда:
- одежду,
- рост,
- лицо,
- прическу,
- аксессуары,
- цветовую палитру,
- манеру поведения.
Потом просто копипастят в каждую сцену.
Это уже почти production pipeline как у студий.
Ещё круче
Если генератор поддерживает:
- reference image,
- character reference,
- seed,
- style reference,
то можно вообще добиться почти полноценного сериала.
И ещё нюанс
С твоими сценами некоторые модели могут:
- банить слово "террорист",
- плохо реагировать на "клофелин",
- ругаться на оружие.
Для обучающих постов авторам лучше писать мягче:
eccentric criminal grandmother absurd action comedy oversized cartoon weapons
Иначе часть сервисов будет резать генерацию.
И да — у тебя уже мышление именно арт-директора серии, а не просто человека «генерирующего картинки». Это как раз тот уровень, где авторы начинают получать не случайные картинки, а управляемый визуальный стиль.
что ответил мне Grok
Ты всё делаешь в целом верно, но есть важные моменты, которые сильно влияют на качество и консистентность.
### Рекомендации по промтам:
1. **Делай 3 отдельных изображения** (по одному на сцену) — так лучше и для книги, и для постов.
2. **Один и тот же длинный промт** с полным описанием персонажей + стиль + формат комикса.
3. Добавляй **"consistent characters"** и очень чётко описывай внешность каждый раз.
---
### Готовые промты (оптимизированные)
**Я сделал их на английском**, потому что Grok Imagine и большинство генераторов сейчас лучше понимают английский, особенно когда нужен конкретный стиль.
---
**Промт 1 (Подъезд)**
```
Comic book style illustration in the spirit of Russian cartoon "Masyanya" — flat colors, bold black outlines, expressive faces, humorous vibe.
Scene in a typical Russian apartment building entrance, dim lighting, dirty walls.
Main characters:
- Elderly woman, professional hitman grandma: wearing blue headscarf with pink polka dots, camouflage coat, military boots, round glasses with blue lenses. Holding a sniper rifle with optical scope. Angry and professional expression.
- Her young male apprentice: blond, short slightly curly hair, snub nose, wearing camouflage jacket, bright pink knitted beanie with pompon, black cargo pants with many pockets, terracotta leather Converse boots. Holding a large pistol. Slightly confused look.
Speech bubble from grandma: "В голову не стрелять, очень пачкается подъезд!"
Speech bubble style like in Masyanya comic. Dynamic composition, vertical format, comic panel.
```
---
**Промт 2 (Кафе)**
```
Comic book style illustration in the spirit of Russian cartoon "Masyanya" — flat colors, bold black outlines, expressive faces, humorous vibe.
Scene inside a shady, cheap Russian cafe. Several young girls sleeping on tables and bar counter (drugged). Dim warm lighting, messy atmosphere.
Main characters:
- Elderly woman, professional hitman grandma: blue headscarf with pink polka dots, camouflage coat, military boots, round blue-lensed glasses. Scolding expression.
- Her apprentice: blond, short curly hair, snub nose, pink beanie with pompon, camouflage jacket, black cargo pants, terracotta Converse. Looking guilty and confused.
Grandma says in speech bubble: "Ты постоянно кладешь слишком много клофелина куда не надо!"
In the background — angry colorful cafe owner lady holding a huge bill with text "Хотел всех посмотреть!" and very big sum.
Masyanya comic style, funny and expressive, vertical comic panel.
```
---
**Промт 3 (Крыша)**
```
Comic book style illustration in the spirit of Russian cartoon "Masyanya" — flat colors, bold black outlines, expressive faces, humorous vibe.
Night scene on the roof of a tall skyscraper, city lights in background.
Main characters:
- Elderly hitman grandma lying comfortably in a sleeping bag, aiming sniper rifle. Wearing blue polka dot headscarf, camouflage coat, round blue glasses. Calm and professional.
- Her apprentice standing next to her, freezing: blond, pink beanie with pompon, camouflage jacket, holding a thermos. Bazooka on his back. Looking cold and miserable.
Grandma says in speech bubble: "Никогда точно не знаешь, поедет депутат, не поедет... поэтому надо утепляться, а простужаться — непозволительно!"
Masyanya comic style, funny contrast between calm grandma and freezing guy, vertical comic panel.
```
---
### Что ты ещё не учёл (важные улучшения):
- **Один и тот же порядок описания** персонажей в каждом промте (это помогает консистентности).
- Указание **"in the spirit of Russian cartoon 'Masyanya'"** — очень важно.
- **Speech bubbles** с точным текстом.
- **Lighting + environment** детали (они задают настроение).
- **Vertical format** (удобнее для книг и соцсетей).
- **"comic panel"** в конце — помогает модели понимать, что это именно комиксовая иллюстрация.
по промтам Grok картинки получились у flowmusic так:



получше но ...да.. не все ИИ хорошо слушаются. Кто больше, кто меньше...
Но такая конструкция с самой большей вероятностью даст вам однородные иллюстрации с ИИ:
1)мастер промт стиля
2)промты по локациям
4) промты по персонажам
их вставлять постоянно в каждое задание
5) сцены..
они разные..
делать по одной
Ну вот пример:
Иллюстрация в стиле комикса «Масяня» — плоские цвета, смелые чёрные контуры, выразительные лица, юмористическая атмосфера.
(это стиль, общий мастер промт)
Персонажи:
01) Пожилая женщина, профессиональная киллерша-бабушка: в синем платке в розовый горошек, камуфляжной куртке, армейских ботинках, круглых очках с синими линзами. В руках снайперская винтовка с оптическим прицелом. Сердитое и профессиональное выражение лица.
02) Её молодой ученик: блондин, короткие слегка вьющиеся волосы, курносый нос, в камуфляжной куртке, ярко-розовой вязаной шапке с помпоном, чёрных брюках-карго со множеством карманов, терракотовых кожаных ботинках Converse. В руках большой пистолет. Слегка растерянный взгляд.
***
сцена: (ее подменяем)
Сцена в типичном русском подъезде многоквартирного дома, приглушённое освещение, грязные стены.
Реплика бабушки: «В голову не стрелять, очень пачкается подъезд!» Стиль реплики как в комиксе «Масяня». Динамичная композиция, вертикальный формат, комиксная панель.
(комикс делать не обязательно, я слегка усложнил задачу, не все ИИ пишут нормально текст)
***
аналогично я делал видео отрывки для клипов, чтоб похоже. И да, иногда и там были отклонения, путало стиль например, один раз то реалистично, то мульт.. а персонажи те ж, но мульты.. весело, но для сборки не сошло. Ну генерил ещё и ещё.
***
и да, очень важно - не все можно сделать, генерируя чисто по тексту. Старый добрый способ, когда вы сгенерировали (используя что угодно, или нарисовали или сфотографировали, или.. что бы то ни было) ваших персов, и сунули их изображения в качестве референса тож никто не отменял. Обязательно упоминание о том, что герои вашей иллюстрации должны быть как на референсе без искажения.
И ещё - а ещё лучше работает смешанный вариант, и развернутые текстовые описания, плюс референсы. Так получается уж совсем оптимально.