Позабыты хлопоты остановлен бег, вкалывают роботы, а не человек…

Автор: Иван Обухов

Пожалуй, сейчас нет никого, кто не слышал бы про нейросети. Решил написать статейку про плюсы и минусы и то, как можно ими пользоваться нам писателям. 

Нейросетей существует великое множество перечислю один из самых известных с которыми мне пришлось сталкиваться и на пример первой чат GPTподробно опишу с чем можно столкнутся. Остальные +- его клоны. 

Часть 1.

https://chatgpt.com/ - Американский чат (LLM – большая языковая модель). Для российских пользователей доступ заблокирован, как и возможность оплаты. Правда есть варианты, ну вы поняли…

Отлично понимает русский язык включая идиомы. 

В платном варианте имеет разновидности которые можно выбрать.. например: ChatGPT 4.o быстрый… а ChatGPT 4.5 неплохо рассуждает. 

Так же если зайти с американского IPвы сможете увидеть еще одну нейросеть -Sora, которая генерирует видео из картинок, причем достаточно динамичные и неплохие…

Так же можно в Чат GPT можно искать информацию (если нажать кнопку поиск под окном чата, или рисовать картинки по запросу прямо из Чата GPT, загружать туда файлы). 

Можно, например, загрузить две таблицы Excel с общими по логике полями и попросить объединить их в одну. 


Взять три документа Word попросить GPT выкинуть оттуда все что касается нужной темы и объединить по смыслу в один финальный файл. 

Нарисовать сразу картинку (он сопряжен с E-Dali). 

Так же в чатGPT реализовано слабое подобие агентов, что-то типа проектов, когда ты можешь загрузить, к примеру кучу дополнительной информации в этого агента и натренировать чат конкретно на себя.

Когда ты только начинаешь пользоваться этим возможности открываются просто фантастические… но есть нюансы… 

Токены…

Для работы с чатом вам выдаются токены (в платной версии 25$ с носа их 4096 в словах это 1.5 листа А4). 

Как это работает? 

Когда чат GPT (или любая другая языковая модель) достигает лимита токенов, поведение системы зависит от того, как она настроена и какие механизмы предусмотрены разработчиками для обработки такой ситуации. Давайте рассмотрим варианты нашего с вами облома:

1. Остановка генерации текста. Наиболее распространенный подход — это просто остановить генерацию текста, когда достигается предел токенов. В этом случае: Модель завершает свой ответ на текущем этапе. Если последний токен попадает посреди предложения или мысли, текст может быть обрезан на полуслове.

Пример: Лимит: 20 токенов.

Генерация: "Я хотел бы объяснить вам, почему важно учиться на своих ошибках, потому что..."

Результат: "Я хотел бы объяснить вам, почему важно учиться на своих ошибках, потому что..."

Здесь текст обрывается, не давая законченного ответа.

 2. Урезание контекста

Если лимит токенов включает входной запрос пользователя и выходной ответ модели, система может урезать входной контекст, чтобы освободить место для генерации ответа. Это может привести к потере части информации из запроса.

Пример: Пользовательский запрос: "Расскажите мне подробно о том, как работает процесс фотосинтеза, его этапах, значении для экосистемы и примерах растений, которые используют этот процесс."

Система урезает запрос до: "Расскажите о фотосинтезе и его значении."

В результате модель отвечает только на укороченный запрос, теряя часть исходного контекста.

 3. Разбиение на части

Некоторые реализации чатов (например, платформы с API) могут разбивать длинный запрос или ответ на несколько частей. В этом случае:

Модель генерирует ответ поэтапно. Каждая часть отправляется пользователю отдельно.

Пример:

Запрос: "Объясните принцип работы ракетного двигателя, начиная с базовой физики и заканчивая современными технологиями."

Ответ будет разделен на несколько сообщений:

Часть 1: "Ракетный двигатель работает на основе третьего закона Ньютона..."

Часть 2: "Современные технологии включают использование многоразовых ступеней..."

(так оно в версии за 25$ не работает) использование запросов через API имеет ограничение на число токенов, так что там тоже не разгуляешься...

Теоретические все это обходится разбиением вопросов и ответов на логические части. Например не писать целиком рассказ, статью или главу, а разбить на части… но тут мы сталкиваемся с другой историей 😉

При сложных или частых запросах начинаются…

 Галлюцинации.

Галлюцинации в языковых моделях (LMM, Language Models) — это явление, при котором модель генерирует текст, который звучит правдоподобно, но фактически является неточным, ошибочным или полностью вымышленным. Это одна из ключевых проблем современных языковых моделей, таких как GPT, LLaMA, PaLM и других.

Запрос: "Кто открыл закон всемирного тяготения?"

Ответ модели: "Закон всемирного тяготения был открыт Альбертом Эйнштейном."

(На самом деле, этот закон был открыт Исааком Ньютоном.)

Ну вы поняли… 

Пример из моего личного опыта: писал статью про Феофетин, решил поискать патенты и источники, которые в которых упоминается вещество и попросил GPT сделать выводы на основе данных. Выводы он сделал. Все хорошо и логично. Я иду проверять источники и выясняю что он сделал выводы на основе липовых патентов, которых не существуют. 

GPT просто их выдумал, т.к. ему было удобно занимало меньше ресурсов, и вообще…

( Надо отдать должное open AI, после жалобы на галлюцинации патенты он больше не находит вообще :)))) хотя они есть :)))

Представляете теперь какую ересь пишут современные блогеры и маркетологи, и насколько падает достоверность интернета в целом? Ведь из-за хайпа GPT только ленивый не пользуется им для анализа и поиска информации. 

Чтобы избежать галлюцинаций можно использовать (подгружать файлы) проверенные источники… но тут вступают в силу ограничения – на форматы, на объем файлов, на число файлов и тд… а также…

Ограничения и запреты.

Все что связано с эротикой, фотографиями людей, политикой (хотя тут понятное дело есть только одна позиция все остальные неправильные и рассуждения на эту тему блокируются).

Таким образом практическое использование обычными людьми даже платной версии сильно ограничено до уровня приколов и развлечений.

Все остальные LLM модели работают +- по похожей схеме из известных я бы предложил…

https://chat.qwen.ai/ - модель от маркетплейса Алибаба неплохо знает русский, имеет больший токен по сравнению с GPT, и как следствие меньше галлюцинирует (хотя тоже это делает). (тотально бесплатная веб версия) API недорогой.

https://www.deepseek.com/ - хайповая китайская модель, хитро обученная на чат GPT, за что была подвергнута Ddosатаке. (поправлюсь, как говорят злые языки - точных доказательств этому нет!)

Она имеет свои плюсы, но из-за небольшого токена склонна к косякам и вранью. Рассказывают, что неплохо программирует. 

Возможно. Но написать простую читалку Fb2 она не смогла (опять та же история с токеном, как только листинг вышел за 1,5 листа А4... все привет! Галлюцинации, ошибки кода и тд.).

(веб версия бесплатно, API недорогой).

https://ya.ru/ai/gpt - тупой, хотя для использования в части поисковика сгодится. Хотят денег. Можно оплатить. 

https://giga.chat/ - модель от Сбера.. Очень хотят денег, тоже самое. Уровень поисковика и собеседника ни о чем.


Резюме. 

Можно ли используя АИ написать книгу или +- научно достоверную статью – нет.

Можно ли написать которую заметку, карточку товара на маркетплейсе или блог с низкой степенью достоверности информации – да.

Можно ли использовать GPT в качестве поисковика – да, он очень быстро все найдет, но информацию надо будет фильтровать через свой мозг, и скорее всего проверять.

Можно ли загрузив проверенную информацию использовать его для планирования сюжетов, персонажей, конфликтов, создать литературный портрет героя по фотографии – да.

Использовать как справочник с быстрым поиском по загруженным данным – да.

Написать рецензию на любую загруженную книгу, не потратив на это не минуты (как положительную, так и отрицательную) – да.


Часть 2.

Попытка обойти ограничения и длину токена через установку на собственный ПК.

Вариант 1. Установка LM Studio на пк с графическим ускорителем под Windows или Linux.

Для того чтобы обучить большую языковую модель, нужно огромное количество специального оборудования.. ну например DeepSeek(дженерик ChatGPT) обучили чипах Nvidia H800 с 80Gb видеопамяти, которых было задействовано 2048 штук. Обошлось это в 5 млн $США.

Однако для использования таких денег не надо.. да и мощности тоже нужны скромнее… а после использования процесса дистилляции…

(Процесс дистилляции языковых моделей (knowledge distillation) — это метод передачи знаний от более крупной и сложной модели (учителя) к меньшей и менее ресурсоемкой модели (ученику). Этот подход широко используется для создания эффективных версий больших языковых моделей, которые могут работать быстрее и требовать меньше вычислительных ресурсов, сохраняя при этом высокую производительность.)

Вот эти дистиллированные модели и можно загружать уже на бытовые пк. 

Правда, чем больше останется в модели от оригинала (учителя) тем лучше она будет работать. Чем меньше, тем хуже. Приемлемые результаты начинаются у дистиллятов с 32B. В данном случае пусть это будет 32 миллиарда условных нейронных связей, так проще объяснить что это такое. А у оригинальной модели их было.. 780B

В LM Studio (https://lmstudio.ai/) модель на 32B покажет хорошие результаты. (она будет работать как на графическом ускорители Nvidia так и на Radeon) есть дистилляты и на 8 и на 12 и на 24B но перепробовав все я вам скажу все что меньше 32. Можно даже не начинать. 

LM-студио будет использовать память пк + память видеокарты для разворачивания модели. 

На ПК с 64GB озу и 24GB (Radeon7900 xtx) работает достаточно шустро позволяет искать в интернет, подгружать файлы и даже работать с агентами через Anything_LLM.

 Вариант 2. Установка Ollama_studio (https://ollama.com/) на MacMiniиз-за нового очень подходящего под LLMчипа, в который интегрирована память MacMiniс 24 GB озу и более вполне себе конкурирует с пк. В том числе и по цене.

Умельцы в США делают фермы из MacMini для запуска собственного AI. 


Плюсы локального AI:

  1. информация не утекает налево (в случае с веб все что вы загрузите будет находиться в доступе у авторов и служить для обучения АИ). 
  2. Сами устанавливаете ограничение на токены
  3. Меньше галлюцинаций и больше гибкости.
  4. Т.к. интерфейс с пользователем в виде чата выводится в веб (как локально, так и в сеть) это позволяет делать бизнес (ну все эти аналоги ChatGPTза 100 рублей… это вот оно и есть)
  5. Нет ограничений на контекст (хотя это в разных моделях по разному).

Минусы локального AI:

  1. Дорого
  2. Даже на топовых видеокартах типа 3080, 3090, 4080,4090, 5090 и компьютерах Macс чипами серии M адаптированными под АИ. Будет медленнее чем онлайн в моделях на 32B и выше. Причем чем больше вы сделаете размер токена, тем больше будет тормозить.
  3.  Вам придется разобраться, как это все установить и настроить, все есть в интернет в открытом доступе и все подробно на надо будет потратить много личного времени.

Если информация оказалась для вас интересной отпишитесь, и я расскажу про АИ для работы с графикой (в том числе бесплатные) и видео, а так же про программы с AI для редакции фото и видео которые ставятся локально на ваш ПК.

+86
239

0 комментариев, по

1 637 6 584
Наверх Вниз