Эмоции и нейросеть
Автор: Alex AndreewУже не первый раз встречаю на просторах АТ мнение, что нейросети не умеют показывать эмоции.
Это не так. Нейросеть очень даже умеет показывать эмоции. Заменяя или добавляя пару тегов в промте уже достаточно (почти всегда) для получения нужной эмоции. Всё ограничивается только возможностями подключенной модели.
Я постараюсь показать это на примерах.
Итак, нейросеть Stable Diffusion. Возьмём четыре женских портрета в разных стилях и с использованием разных моделей.
Style-Empire, working cabinet, (woman standing by the window and looking out), masterpiece, highest_quality, 1girl, blonde_hair, long_hair, depth_of_field, indoors, realistic, photorealistic, (ultra-detailed:1.2), detailed_light, HDR, extremely_detailed, Sharp_focus, dramatic, ((high ornamented dress)), corset,
Negative prompt: canvas frame, disfigured, bad_art, ((extra_limbs)), blurry, (((duplicate))), ((morbid)), ((mutilated)), (((extra_fingers))), mutated_hands, ((poorly drawn hands)), ((poorly drawn face)), mutation, ((bad anatomy)), (((bad proportions))), ((extra limbs)), cloned_face, (out_of_frame), (bad anatomy), gross_proportions, (malformed limbs), ((missing arms)), ((missing legs)), (extra arms), (extra legs), (fused fingers), (too many fingers), (long neck), tiling, cross-eye, deformed_eyes, logo, (((text))), extra_digit, fewer_digits, cropped, worst_quality, low_quality, jpeg_artifacts, signature, watermark, username, artist_name
Steps: 30, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 506690926, Size: 512x768, Model hash: 482fae2f3d, Model: dreamshaper_33
Russian style, Slavic style, masterpiece, highest_quality, 1girl, black_hair, short_hair, looking at viewers, depth_of_field, nature, outdoors, realistic, photorealistic, (ultra-detailed:1.2), detailed_light, HDR, extremely_detailed, Sharp_focus, dramatic, earrings, (gem:0.6), jewelry, lipstick, makeup, russian_clothes,
Negative prompt: canvas frame, disfigured, bad_art, ((extra_limbs)), blurry, (((duplicate))), ((morbid)), ((mutilated)), (((extra_fingers))), mutated_hands, ((poorly drawn hands)), ((poorly drawn face)), mutation, ((bad anatomy)), (((bad proportions))), ((extra limbs)), cloned_face, (out_of_frame), (bad anatomy), gross_proportions, (malformed limbs), ((missing arms)), ((missing legs)), (extra arms), (extra legs), (fused fingers), (too many fingers), (long neck), tiling, cross-eye, deformed_eyes, logo, (((text))), extra_digit, fewer_digits, cropped, worst_quality, low_quality, jpeg_artifacts, signature, watermark, username, artist_name
Steps: 30, Sampler: DPM++ 2M Karras, CFG scale: 7, Seed: 2777263021, Size: 512x768, Model hash: f762cdef02, Model: protogenX53Photorealism_10
bunny, 1girl, high ornamented light dress, fluffy fur, foggy, cinematic, (portrait), sideface, foreshortening, (upper_body), solo, nature, snow, tree, realistic, photorealistic, (ultra-detailed:1.2), detailed_light, HDR, looking at viewer, snowflakes, ice, pine_tree, dynamic_pose, rabbit ears,
Negative prompt: canvas frame, disfigured, bad_art, ((extra_limbs)), blurry, (((duplicate))), ((morbid)), ((mutilated)), (((extra_fingers))), mutated_hands, ((poorly drawn hands)), ((poorly drawn face)), mutation, ((bad anatomy)), (((bad proportions))), ((extra limbs)), cloned_face, (out_of_frame), (bad anatomy), gross_proportions, (malformed limbs), ((missing arms)), ((missing legs)), (extra arms), (extra legs), (fused fingers), (too many fingers), (long neck), tiling, cross-eye, deformed_eyes, logo, (((text))), extra_digit, fewer_digits, cropped, worst_quality, low_quality, jpeg_artifacts, signature, watermark, username, artist_name
Steps: 30, Sampler: LMS Karras, CFG scale: 7, Seed: 1753903996, Size: 512x768, Model hash: fcc4169fc6, Model: artErosAerosATribute_aerosNovae
portrait, sideface, masterpiece, best quality, Older_woman, foreshortening, lips, photo_\(medium\), realistic, medium_hair, solo, woman_focus, ((black_hair)), \(\(darkt_skin\)\), middle_age_woman, half-back hair, hair styled back, detailed_light, HDR, extremely detailed, photorealistic, looking at viewer, light clothes, upper body, rose_lips, Pointy ears, hair jewelry, jewelry, purple_eyes, serious expression, brown skin,
Negative prompt: lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name, blurry, deformed face, deformed hands, deformed fingers, ugly, bad anatomy, extra fingers, extra hands, deformed eyes
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 11.5, Seed: 1390344236, Size: 512x704, Model hash: 8712e20a5d, Model: Anything-V3.0
Начнём. Теги с эмоциями мы будем добавлять в конец промта. В первую очередь для того, чтобы не сильно менялась картинка. Для №3 это не поможет, но там простительно.
В Stable Diffusion для каждого тега можно ставить коэффициент. Например:
(joy:1.4)
Значение коэффициента может быть от нуля и до 1.5. Выше обычно не ставят. Коэффициент может иметь три знака после запятой. Например:
(joy:0.333)
Теги (joy:1.0) и joy равнозначны.
Ниже под спойлерами сгенерированные картинки со следующими эмоциями (перевод думаю не нужен):
На самом деле слов, обозначающих эмоции, более сотни. И их можно комбинировать. А если добавить движения/жесты руками/головой, то количество комбинаций будет огромным.
P.s. Диаграммы эмоций. Могут помочь.