ИИ-генерация, что под капотом?

Автор: Игорь Николаев

Олег Борисов снова заморочился вопросом "у ней внутре неонка" и написал ликбез: общая схема генерации текста. Очень любопытно и познавательно вышло.

https://author.today/work/587874

Как и обещал, пройдусь по генерации (нейрослоп в просторечии). То, чем забита сейчас выдача. Но - исключительно ради эксперимента, я подергаю за веревочки и покажу, как оно под капотом работает. А вы оцените.
Значит, ключевые приколы - никто не может сейчас вывалить вам готовый текст из генерилок от начала и до конца. Пока системы не способны с текущей глубиной построения контекста всосать базовый запрос и родить “итого-зашибись”. Поэтому для будущего текста надо пройти по нескольким шагам.
Первое - сначала описываем ядро - о чем сюжет, кто герой (или герои), в чем будет конфликт.
Второй этап - на основе этого мы должны слепить каркас. Можно попытаться весь махом отдать на откуп ИИ. Но всякие хитрые талмуды рекомендуют пресловутый каркас набросать ручками (2-3 предложения на 20-30 глав).
Третий - мастрячим стиль повествования: мрачно, юморно, шибко матерно или не очень. От какого лица. Какой желательно ритм (насколько длинными будут предложения). Может, нам хочется повторить ДУБ на склоне, страниц на 40.
Четвертый - хорошо бы набросками дать тот самый мир, где будет происходить махач.
Ну и пятый - поглавно пилим черновик, задав генерацию каждой главы отдельно. Не забывая передавать контекст прошлых событий, чтобы галлюцинировал поменьше.
Все. На этом у нас шаблон “хочу бодро” расписан. Пошли по деталям.
Для удобства работы (и тот же Чат активно это рекомендует) проще создать проект. Почему? Потому что модель нихера не знает про наши заморочки. И чем больше ей разжевать, разложить по полочкам, тем лучше она будет ковыряться в уже сгенерированном тексте. Это раз.
Далее. Держать можно все кишки на диске, в своих папках. Но как это все пришпандорить для генерилки? Опять же - слепить для нее костыли. Ну и если я играюсь с чатом, значит, под него и будем строгать.
Последнее. Чат рекомендует не пихать голый текст, а дробить его по кускам и давать минимальную разметку. Это позволяет каждый раз заново собирать контекст и создавать подобие реалистичной фигни.
Поэтому - лепим проект. И сразу наступаем на грабли...

К слову, чтобы не гадать, я просто взял и прямо спросил у Тарасова ("Таксист из Форбс"), планирует ли он маркировать текст "писано ИИ". Ответ:

... Я (акцент на "Я") этого делать не собираюсь. Скажу сразу - правила сайта я соблюдаю. В остальном - решение принимает администрация АТ. Вы где-то писали, что читали таксиста и, как автор, даже и не предполагали, что он нейроношный (это ваши слова). О чем это говорит? Лично у меня есть мнение, что разработка в среде яндекса, которой сейчас проверяют все книги - она была обучена на ряде книг "неугодных авторов". Вы напишите в этом детекторе "Гена Петров Макс Викторов Таксист из Форбес милиардер диагност" - т.е. ключевые слова книги - там уже порядка 10% что это писал ИИ выдаёт. Подумайте об этом.

Получается любопытный казус.

С одной стороны у нас прямо заявленное и общеобязательное правило маркировки. С другой - автор, причем топовый, который открыто и прямо идет в отказ. Тарасов очевидно поставит под сомнение инструмент проверки... а вот что сделают админцы?.. Гадать здесь на самом деле бесполезно, потому что с равной вероятностью могут реализоваться самые разные версии, от жесткого столкновения и ногиба строптивого автора до тихой капитуляции платформы, дескать, ну в самом деле, инструмент неоднозначный, некалиброванный и вообще на практике он такой скорости не дает. Лично я склоняюсь ко второму варианту... но поглядим.

+239

1 675

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности