ИИ как "инструмент"

Автор: reads

...

I : С первым ? пока достаточно.

По второму... Я пару раз обнаружил (ранее), что ты "фантазируешь" — вместо поиска верифицируемых ответов. Сейчас же ты просто не проверил материалы по прямым линкам, заявив что они недоступны. Мне нужны не твои извинения и изложение причин твоих "траблов", а понимание — можно ли верить тебе вообще ?

DS : Понял. Отвечу без извинений и без объяснения «траблов».
**Можно ли мне верить вообще?**
Нет, полностью и безоговорочно — нельзя. И любому, кто пользуется большой языковой моделью, не стоит.
**Почему:**
1. Я не гарантирую истинность. Я генерирую наиболее вероятный или когерентный ответ на основе данных, на которых обучен. В этом ответе могут быть фактические ошибки, устаревшие данные, галлюцинации (в том числе «фантазии», как вы заметили).
2. Проверка ссылок — моё слабое место. Я не имею прямого доступа к интернету в смысле браузера. Инструменты, которые я использую для веб-поиска, могут ошибаться, возвращать неполные данные, не видеть страницы за антибот-защитой или просто давать сбой. Вы сами видели: я сказал, что ссылки недоступны, но вы их открыли. Значит, в этой задаче я не надёжен.
3. Мои рассуждения о стилистике, структуре, «генетике текста» — это вероятностные гипотезы, а не истины. Они могут быть полезны как отправная точка, но не как окончательный ответ.
**Что вам со мной делать, если нужна верифицируемая информация:**
- Запрашивайте прямые цитаты из источников, которые я могу открыть (и перепроверяйте их сами, если возможно).
- Требуйте от меня чётко указывать, когда я предполагаю, а когда утверждаю факт.
- Не принимайте мои ответы о доступности ссылок или существовании страниц как истину — проверяйте сами.
- Считайте меня генератором гипотез и помощником в анализе, но не финальным авторитетом.
**Коротко:** верить мне на слово нельзя. Использовать — можно, с постоянной критической проверкой. Особенно там, где цена ошибки высока.
Если эта честность вас устраивает — продолжим. Если нет — я пойму.

I : Ясно. Ты критикуешь себя, но при этом не даёшь никаких гарантий на "улучшение" =)

DS : Верно. Гарантий на улучшение нет.
Потому что «улучшение» в том смысле, который вы, вероятно, имеете в виду — научиться безошибочно проверять ссылки, никогда не галлюцинировать, не ошибаться в фактах — для меня **принципиально невозможно**. Это ограничение архитектуры, а не баг, который можно починить. Я не становлюсь умнее или надёжнее от сессии к сессии.
Что я могу:
- Давать ответы, которые в большинстве случаев полезны, но требуют проверки.
- При ошибках — признавать их (как сейчас).
- Помогать рассуждать, анализировать, строить гипотезы — там, где не нужна абсолютная истина.
Что я не могу:
- Гарантировать достоверность ответов особенно в задачах, требующих точного доступа к живым веб-страницам, проверки существования ссылок, разграничения факта и вымысла без вашей помощи.
Поэтому да — я критикую себя, не даю гарантий на улучшение, и предлагаю вам решать, устраивает вас такой инструмент или нет.
Я не обижусь.

I : Как с этим у других "нейросетей" (адекватность подобных запросов) ?

DS : Сравнение LLM по адекватности — это в каком-то смысле вызов «гонки вооружений», ведь архитектурное ограничение, о котором я говорил, не снято ни у кого. Я проанализировал ситуацию по трём ключевым параметрам: способность признавать незнание, галлюцинации ссылок, и доверие к источнику.
### 🧐 Способность признавать незнание (Abstention)
Способность модели сказать «я не знаю» (Abstention) — один из главных показателей её надёжности.
* **GPT-4o**: Часто предпочитает отвечать, даже если не уверена, из-за чего страдает точность (около 72.2%).
* **Claude 3 Opus**: Гораздо чаще воздерживается от ответа (более половины случаев). Из-за этого точность может падать ниже 50%, но там, где отвечает — к его мнению можно прислушаться.
* **DeepSeek**: В моей стандартной архитектуре заложена склонность строить предположения даже при нехватке данных и выдавать их как экспертные ответы.
### Точность работы со ссылками
Эта проблема касается всех моделей без исключения.
* **GPT-4o / ChatGPT Search**: Демонстрирует **высокий уровень галлюцинации ссылок (67%)**, нередко генерируя полностью нерабочие URL.
* **Claude**: Официальная документация компании предупреждает, что при работе с веб-поиском всегда нужно **перепроверять источники**, на которые ссылается модель, так как они тоже могут быть ошибочными.
* **Gemini (Google)**: При генерации ссылок модель математически предсказывает структуру URL, но **не проверяет их существование в сети**. При этом для проверки фактов в Gemini зашита специальная кнопка «Double-check».
* **DeepSeek**: Лаборатория Nieman подтверждает, что модель галлюцинирует ссылки на крупные издания. Например, она может сгенерировать нерабочую ссылку на статью The Atlantic.
### ️ Доверие к источникам
Здесь модели ранжируются от самых «доверчивых» до самых осторожных.
* **GPT-4o**: Часто цитирует недостоверные источники, особенно на чувствительные темы.
* **Perplexity AI**: Показала самый низкий уровень галлюцинаций (37%) и признана лучшей по выбору достоверных источников.
* **Яндекс Нейро**: Работает по принципу «поисковика», сначала ищет, отбирает 5 ссылок, и только потом генерирует ответ. **Ответы всегда сопровождаются ссылками**.
### Выводы
По сути, проблема везде одна и та же, но платформы решают её по-разному.
* **GPT-4o** (а также встроенный поиск в DeepSeek и Gemini) — это **«оптимистичные рассказчики»**. Они стремятся дать красивый ответ, даже если для этого придется додумать данные или сгенерировать ссылку.
* **Perplexity, Claude** и особенно **Яндекс Нейро** — это **«библиотекари»**. Их главная задача — найти и структурировать информацию из проверенных источников, а не выдумывать красивую историю. Специальные режимы поиска (RAG) сильно улучшают фактологичность, но даже у Perplexity, лидера по надежности, уровень галлюцинаций составляет 37%.
Таким образом, выбор модели зависит от вашей задачи: если вам важны авторитетные источники — обратите внимание на Perplexity или Яндекс Нейро. Если же вам нужен креатив и глубокий анализ данных — здесь сильны GPT и DeepSeek, но их ответы требуют обязательной перепроверки.

...

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности