Midjourney как помощник для создания обложки. Часть 1: общий анализ

Автор: Мэй Айсквин

Обложка так или иначе является лицом книги. Грамотно оформленная обложка выделит произведение в списке, привлечёт внимание и может повлиять на решение читателя знакомиться с текстом.
Наличие обложки влияет также на возможность появления книги на главной странице.

Что же делать, если я не обладаю достаточными навыками работы в графических редакторах (здравствуй, ластик, мой славный друг), а контактировать с добровольцами, что могут мне ее сделать, боязно (ибо я сама не знаю, чего хочу, и могу просто утомить их своими капризами)?

Моим спасением стала нейросеть Midjourney.

Midjourney - нейросеть, которая пытается "Творить" арты, при помощи заданного описания от пользователя.
Попробовать её можно на дискорд-канале. https://discord.gg/midjourney?ref=dtf.ru

ВАЖНО: вопрос авторских прав

Не будем углубляться в Гражданский Кодекс и международное право, а сразу отметим: единственное, что заслуживает авторского права, — это «плоды интеллектуального труда», созданные «творческими силами разума». Автором считается только гражданин, то есть физлицо, творческим трудом которого создано произведение.

По мнению эксперта А.Семенова: "изображения, созданные искусственным интеллектом, свободно могут использоваться в коммерческих целях без оглядки на возможные нарушения в сфере авторского права. Авторы запросов, на основе которых создаются изображения, также не могут претендовать на авторство полученных изображений. Ввод запроса в данном случае – все равно, что нажатие на кнопку «Запуск» станка, печатающего красивые открытки – не является актом творчества. Однако, искусственные изображения, доработанные человеком, уже являются объектами авторского права. То есть если художник дорисовал к абстрактным узорам, сгенерированных нейросетью, что-то еще, он автоматически становится владельцем авторского права на получившуюся картинку".
https://www.gazeta.ru/tech/news/2022/07/13/18121040.shtml

Казалось бы вот счастье, пользуйся, сколько хочешь, но при работе с Midjourney существует ряд сложностей:

1. Описание нужно давать на английском языке - Проблема решается любым онлайн-переводчиком

2. Для бесплатного пользователя разрешено только 25 использований нейросети, улучшение варианта или перезалив считается за использование - Есть платная подписка (Для тех, кто платить не хочет, есть обходной путь...)

3. ИИ не всегда воспринимает действия, т.е. глаголы, а также местоположение объектов относительно друг друга.

Пример 1: ежик ест лягушку

Как видим на первой картинке скрестили ежа с ужом (в нашем случае с лягушкой.) На второй картинке лягушки нет вообще, если не считать странных лапок у бедного ежика.

Пример 2: кошка с лаймом на голове

Лишь на третьей картинке хотя бы приблизительно лайм расположен там, где надо.

4. Симметрия и пропорция - слабые места ИИ. Midjourney порой рисует кривые лица, жуткие глаза, рисует нечетное количество ног и пальцев, делает конечности непомерной и разной длины.

Пример с пальцами

5. Нужно грамотно прописать ТЗ

Восприятие ИИ отличается от человеческого. Если живому художнику можно расписать целую простыню с описанием, чтобы были учтены все детали, скинуть примеры картинок, показать примерный эскиз, то тут происходит разговор аборигена со слепцом. Особенно если дело касается непопулярных вещей. Например, если брать известную вселенную Гарри Поттер, Волдеморта ИИ нарисует легко, а вот Регулуса Блэка - нет. А уж если брать объекты, известные только в очень узком кругу лиц, то вообще ужас.

Возьмем за основу один из объектов SCP-Foundation, Алагадду.

SCP-2264-B — экстрамерный город, не соответствующий ни одному известному месту как на Земле, так и в других местах. Местные обитатели носят маскарадные маски и костюмы, ассоциировавшиеся, прежде всего, с венецианским карнавалом. Небо над городом, согласно описаниям, имеет желтый цвет, на нем имеется неизвестное количество звезд черного цвета. Согласно отчетам исследователей, в SCP-2264-B встречаются лишь черный, белый, желтый и красный цвета. Архитектура подчиняется законам неевклидовой геометрии, также не действует нормальная гравитация, ввиду чего иногда можно наблюдать обитателей города, идущих по лестнице вверх ногами, двигаясь при этом соответственно ощущаемому ими направлению силы притяжения.

Признаться, такое даже высококвалифицированному художнику нарисовать трудно. А как же воспримет такое описание нейросеть?

При простом запросе "alagadda" Midjourney выдала такие варианты:

Подобное неудивительно, исходников в Интернете - кот наплакал, а точное описание города и на самом сайте SCP трудно найти, ибо тег Алагадда выдает очень много статей с описанием персонажей, рассказами, и лишь один документ про башню-портал (в последнем как раз и описан город).

Я попробовала поиграть с ТЗ, задала палитру цветов. Лучшее, что смог выдать ИИ, дабы удовлетворить мой каприз:

Атмосферно, готично, но картинка в голове была другая.

Я вспомнила работы нидерландского художника-графика Маурица Корнелиса Эшера.

Полагаю, редкие поклонники SCP вдохновлялись именно им, когда создавали такую картинки:

Через некоторое время я опять задала запрос про Алагадду, использовав инструмент "style"

Запрос выглядел следующим образом: Venice zombie carnival, maurits escher style --ar 16:9 --test (Подробнее про инструменты ниже)

Результаты:

Вариант 1

Вариант 2

Первый вариант больше напоминает графику Эшера, но мне второй вариант кажется лучше.

Таким образом, если приложить усилия в составлении описания будущей картины, можно получить настоящий шедевр.

Так недавно в США конкурсе изобразительных искусств первое место заняла картина, созданная нейросетью Midjourney. Отмечается, что для работы потребовалось несколько недель и более сотни попыток, чтобы сформулировать точный запрос к системе.
https://www.ixbt.com/news/2022/09/01/v-ssha-polzovatel-sozdal-kartinu-s-pomoshju-nejroseti-midjourney-i-zanjal-pervoe-mesto-v-konkurse-izobrazitelnyh.html

Теперь перейдем непосредственно к инструментам, которые могут помочь нам в создании обложки или иллюстрации.

User Manual - Midjourney Documentation (gitbook.io) – мануал, как пользоваться нейросеткой, но он на английском.

Приведу основные инструменты, которыми пользовалась лично я:
--aspect, или --ar Генерирует изображения с нужным соотношением сторон. Попробуйте --ar 11:16 Создает вертикальную картинку формата А4.
--testp Создает две детализированные квадратные картинки, либо одну, если вы меняли соотношение сторон

--no Отрицательная частица, которую понимает ИИ. Так, например, видя команду --no plants программа создаст картинку без растений. Прочие отрицательные частицы вроде without нейросеть не воспринимает, я пробовала.

--iw Задает точность соответствия изображения относительно текста. Значение по умолчанию - --iw 0.25 Можно изменить до максимального 1

--uplight Использует «легкий» апскейлер при выборе U-кнопок. Результаты становятся ближе к исходному изображению, при этом при масштабировании добавляется меньше деталей. Идеально подходит для лиц и гладких поверхностей.

--stop Остановит генерацию на более раннем проценте. Должно быть от 10 до 100. В настоящее время это не работает с изображениями, к которыми уже применили кнопку улучшения. Бывает полезно при создании портретов (ака аватарок), так как сеть склонна после 80-90 процентов существенно искажать глаза.

Отдельно хочу выделить запрос изображения с URL-адресом.

В командную строку возможно добавить от одного до нескольких URL-адресов изображений, и нейросеть будет использовать эти изображения в качестве визуального вдохновения. Можно использовать картинку в одиночку или добавлять к ней слова. Используя инструмент --iw <value> можно настроить важность URL-адресов изображений по отношению к тексту. По умолчанию используется значение опять же 0,25.

Работа с URL-адресами весьма неоднозначна.

Подсказка изображением — это не то же самое, что создание поверх (или «инициализация» из) начального входного изображения. Midjourney в настоящее время не предлагает возможность использовать начальное изображение из-за опасений по поводу общедоступного контента сообщества.

То есть все опять опирается в авторские плава и лицензию на изначальное изображение. Имейте это ввиду.

В качестве примера приведу мой опыт работы с URL.

Исходная картинка была такая:

Это один из концепт-артов береговой твари из игры Death Stranding 2019 года (Как быстро летит время...)

Приблизительное ТЗ: инопланетное животное/монстр, черная голова-череп как у лисы, черный хвост-минога, белое тело/корпус, слизь

1. Результат без использования URL

Как видно, тела нет вообще, слова "белый", "череп", "лиса" оказались в приоритете в электронном сознании ИИ.

2. Результат с использованием URL и использованием слов

Как видим, ИИ ненамного ушел вперед, но прогресс уже виден.

3. Результат с использованием URL, без использования слов

Итоговые результаты отличаются от исходника. Монстры больше похожи на птиц, чем на четырехпалых хищников, но общий стиль прослеживается. Итогом эксперимента я осталась довольна.

Ошибка, что может возникнуть в момент использования Midjourney:

Порой может возникнуть такая ситуация, что нейросеть, обрабатывая запрос, не показывает результат.

В таком случае, надо поступить следующим образом:

1. В сообщении с результатом нажать ... в правой верхней части сообщения. В выпадающем окне нажать Приложения и далее DM Results. Бот отправит вашу картинку вам в личку.

Подводя итог, скажу: нейросеть имеет как ряд преимуществ, так и недостатков по сравнению с работами живых художников, но по мере развития технологий, ситуация может измениться в пользу ИИ. Можно использовать изображения, сгенерированные Midjourney, в качестве эскиза или наброска, а все недочеты и ляпы исправить в графическом редакторе вручную. А можно продолжать пытать мозг ИИ до тех пор, пока вас не удовлетворит результат без последующего внесения изменений.

Нейросеть создаст вам уникальную аватарку, обложку, иллюстрацию к книге, что поможет вам выделиться (до тех пор, пока понравившуюся картинку не утащит ваш соперник и не использует сам, ведь за это ему ничего не будет - авторские права на данные изображения отсутствуют). Защитить картинку вам поможет только редактура и внесение собственных деталей, ведь это будет выражение вашего творческого труда и вы автоматически будете считаться автором изображения.

Как поступить, решать вам, уважаемые читатели.

авторские права, графика, нейросеть, творчество

2 065

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности