Почему героини на нейросетевых обложках похожи друг на друга и кто в этом виноват

Автор: Olle Lykojo

Прочитала я сегодня статью Евгении Лифантьевой и появилось желание вставить свои пять копеек в обсуждаемую тему. Я немножко умею управляться с нейросетью и смотрю на обсуждаемый вопрос немножко с другой стороны.

Автор статьи обратила внимание на очень интересную деталь: все обложки выполнены в едином стиле, но героини на них, несмотря на разные описания в текстах, получились удивительно похожими друг на друга — «как сёстры-близнецы, различающиеся только мастью».

Надо сказать, я с этим наблюдением полностью согласна. И как раз тот факт, что автор статьи его заметила, говорит о её внимательности к деталям и любви к тексту. Собственно поэтому я и люблю читать её статьи. (А еще я там часто нахожу наводки на интересные книжки и классных авторов, но это к сегодняшней теме отношения не имеет.)

Я хочу только добавить к её наблюдениям свой взгляд — как человек, который сам работает с нейросетевыми генерациями и дорабатывает их в фотошопе. И который видит эту ситуацию не только с читательской, но и немножечко с «технической» стороны.

Поскольку речь Евгения Лифантьева вела об обложках литмоба, то я и тоже начну свои рассуждения с них. Обложки действительно симпатичные. Яркие, узнаваемые, серия читается с первого взгляда. Артер, который их делал (я его не знаю), отлично справился с задачей создать единый визуальный стиль.

Но при этом индивидуальность героинь, о которой пишет Евгения Лифантьева, действительно оказалась «смазана».

И вот теперь я перейду к тому от чего такое могло произойти.

Мне кажется, здесь важно разделить две вещи: возможности нейросети и задачу, которую ставят перед артером.

Евгения Лифантьева пишет: «нейросеть стремится привести изображение к единому стандарту». На самом деле нейросеть не «стремится» — она просто выдаёт наиболее вероятный результат на основе того, на чём её обучали. Если в обучающей выборке были в основном европейские лица определённого типа, она будет их и генерировать, если обучение шло на азиатских лицах, то и в результатах генерации буду азиаты. Это не злой умысел, а техническое ограничение.

Но главное не в этом. (Сейчас я перехожу к предполагаемому, но частому, варианту развития событий) Главное — артер получает задание. И в литмобе задача была, скорее всего, чёткая: сделать несколько обложек в одном стиле, ярких, узнаваемых и укладывающихся в бюджет (который возможно был равен нулю). Индивидуальность каждой героини — это уже дополнительная переменная, которая усложняет уравнение.

Чтобы добиться этнически разных или антропологически точных лиц, нужно: либо подбирать сложные промпты с референсами (это время и много итераций); либо использовать разные модели (Midjourney даст одни лица, Stable Diffusion с другим чекпоинтом (моделью) — другие, у Nano Banana от Google своя стилистика, а Sora от OpenAI (она же ChatGPT Images) вообще специализируется на видео, но тоже умеет генерировать изображения и результат выдаст тоже свой; либо дорабатывать лица вручную в фотошопе; либо заказывать художнику отдельные иллюстрации. Всё перечисленное — это дополнительные деньги и время. В рамках литмоба, где нужно сделать много обложек за разумный срок, артер, скорее всего, выбрал проверенный и стабильный способ: обкатанные промпты, которые дают гарантированно симпатичный результат. И он его получил. Да, усреднённый. Но яркий и узнаваемый.

Теперь перейду к следующему нюансу.

Автор статьи пишет, что в «нейрослопе» исчезает индивидуальность. Но давайте честно посмотрим на обложки бумажных фэнтези-серий, которые выходили до эры нейросетей. Там было ровно то же самое: героини из «одного инкубатора», герои с недельной щетиной, дамочки «постарше» — все на одно лицо. Все персонажи были похожи друг на друга, потому что это был единый стиль издательской серии. Это не нейросети придумали усреднение. Это маркетинговое и бюджетное решение, которое существовало всегда. Просто теперь вместо фотографа и модели — нейросеть, а вместо художника-подражателя — артер с промптами.

Мне очень понравилась метафора Евгении Лифантьевой про «модельное агентство в глубинах нейросетей». Но я бы уточнила: это не агентство, а архив усреднённых образов, который сложился из данных, на которых обучали модель. То есть, как я уже ответила в комментарии под статьей — это особенность модели, на которой производилась генерация.

Если артеру дать задачу «сделать индивидуальные типажи» и достаточно ресурсов — он наверняка справится. Можно поколдовать с промптами, добавить референсы, поколдовать в фотошопе, а в идеале — вообще отрисовать лица поверх нейросетевой основы. Но это будет стоить совсем других денег.

А пока заказчик исходит из реальных возможностей бюджета — артер выбирает тот путь, который гарантирует результат. Он не рискует и не экспериментирует, потому что риск в коммерческом проекте — это лишние траты. И это не признак плохого вкуса или необразованности. Это просто прагматичный выбор.

Проблема не в нейросетях. Нейросети — это просто новый инструмент. Проблема в том, как мы его используем: дёшево и быстро, или дорого и уникально.

Собственно это почти все, что мне хотелось сказать по данной теме. И еще добавлю немножко слов с моей благодарностью Евгении Лифантьевой за то, что она подняла тему, которая заставила меня выбраться из своей читательской норки на белый свет, всем участницам обсуждаемого литмоба и неизвестному мне артеру, который сделал серию классных картинок для оформления этого литмоба.

И своих картинок добавлю для красоты. (Нерогенерация + фотошоп). Лунные зайцы делались, как фанарты к одному из рассказов Евгении Лифантевой.

нейроарты, пять копеек в обсуждение, фанарты

+29

159

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности