Открытое, Бесплатное и ИИ (не про литературу)
Автор: Виктор ВайерПублика считает, что бесплатный сыр только в мышеловке. Что корпорации. Что... да кучу всего считает публика.
Но постиндустриальное общество ложило болт с трапециевидной многозаходной резьбой на это дело.
Верно, товары стоят денег, и информация. Но не вся. Есть старинная тенденция - открытая публикация полезной информации. Об изобретениях, идеях и т.п.
Ну вы же не берёте деньги со знакомых, когда делитесь с ними рецептом окрошки на квасу с маянезиком?
Верно, на каком-то масштабе обмен информацией становится затратен, потому гипотетическая книга традиционной майонезной кухни будет уже стоить денег, как минимум потому, что носитель и создание копии стоят денег.
В эпоху нынешнюю, создание копии информации ничего не стоит. К тому добавляется тот факт, что часть людей относится положительно к человечеству вообще (удивительно, мало кто в это поверит).
Т.е. мы сталкиваемся с тем, что какие-то люди готовы тратить свои ресурсы (время, деньги) создавать уникальную и полезную информацию и просто публиковать её безвозмездно. Как там было, в старом мультике: "делай добро и бросай его в воду"?
В каких-то древних уже годах эта тенденция возникла среди программистов, ну и тогда зародилась идея "открытого исходного кода", из идеи возникло множество течений, направлений и организаций. Это, если я не ошибаюсь, было ещё в 80х годах, если не раньше.
Конечно, были люди которые не настолько альтруистично смотрят на мир, потому некоторые программы были не открыты, а бесплатны (free - фриварный, в нулевых часто использовалось слово). Хотя в английском free может означать и бесплатное и свободное, потому там путница некоторая, но здесь я именно про только лишь бесплатное.
С тех пор прошло много лет, появилась википедия, опенстритмап - проекты, которые не имеют отношения к программистам и программам, но являются известными примерами открытой и бесплатной информации. Не идеальной, конечно. Но если бы за кривые платные карты города, производитель карт платил бы компенсацию, то можно было бы о чём-то говорить. А так у нас есть неидеальная платная информация (ещё и полная рекламы! за мои-то деньги!) и бесплатная, что же выбрать?
Есть некоторое количество известных бесплатных и открытых программ, тот же LibreOffice, Blender, что там ещё? Можно вспомнить gimp, но публика будет ругаться 8). Вспомним Darktable - это для фотографов, хотя мне лично эта программа не удобна. И т.п.
Кто-то, скажет, что корпорации так не делают и всё такое, ну так LibreOffice - это изначально продукт корпорации, если что. К слову, корпорации любят мимикрировать под "открытое", тот же OpenAI тому пример (который ни в коей мере не open).
Но вообще открытого ПО больше именно для айтишников, потому что там это удобнее. Ковыряться с обфусцированными библиотеками, тот ещё мрак, потому при прочих равных, быстрее и удобнее работать с открытыми проектами, чем с закрытыми.
И вот мы приходим к феномену последних пяти лет - ИИ, нейросетям. Вообще ИИ был и раннее, даже в gimp чёрти сколько лет был маленький ИИ для отделения переднего плана от фона (я в блоге как-то рассказывал). Но именно вот "ИИ сделай картинку" это примерно лет пять назад, когда появился stable diffusion (далее просто SD).
Так вот SD построен на открытом исходном коде - python и всяческие библиотеки для него (понятно, что в том же pytorch унутри С++ кажется, но и там исходники открыты). Разработчики SD выложили полную инструкцию, как всё это запускать, и выложили саму модель (т.н. веса модели) и описали архитектуру.
Зачем? Почему? Кто позволил? Был же миджорни, далли, которые получали за это деньги, а эти вот взяли и выпустили джина из бутылки!
Да, нынче та SD уже устарела, а новые версии (после SDXL) не сникали популярности. Но это всё дало старт тенденции, и вот в мире полно графических моделей, регулярно появляются новые, регулярно их модели выкладываются в свободный доступ, а сообщество занимается доведением их до ума - файнтюнит, тренирует lora и т.п. (Обычным пользователям это всё сложна, но обычных пользователей обычно ублажают корпорации.)
И с этим уже ничего не поделать. Более того, энтузиасты уже создают собственные модели (т.е. с собственной архитектурой, а не на базе чьих-то), поскольку стартапы и корпорации предпочитают создавать модели по-тяжелее, а основной контингент энтузиастов не может позволить себе топовое железо. Да и для генерации практически применимых картинок (обложек, иллюстраций) оное не нужно, в общем-то.
Эти ваши чтгпт и прочие (далее просто LLM) тоже не избежали сходной участи. Да, эти модели в целом тяжелее, и тренировать их сообществу сложнее, но облачные сервисы вполне себе сдают в аренду "видеокарты" подходящие для тренировки, а слить пару тыщ (а то и десяток тыщь...) баксов на хобби некоторые вполне себе могут позволить... а потом это выложить в общий доступ.
И с этим тоже уже ничего не поделать. Т.е. если корпорации могут перестать публиковать тяжелые LLM (дипсик без квантования занимает около терабайта, если что), то мелкие модели даже если перестать выкладывать, то сообщество просто их "подхватит" (собственно и подхватывает).
А какая-нибудь модель с 32B параметров (32 млрд. параметров, это около 12гб при умеренном квантовании, причём вертится даже на 8гб видяхе, но не быстро) вполне себе разумеет в программировании, я проверял. Оно не гениальное, но как советчик и справка, вполне работает, более того может помочь разобраться в новом (или хорошо забытом) проекте.
Так что фонтан ИИ уже никак не заткнуть. Да, не всякий сумеет установить всё это себе на комп, но так до сих пор и не всякий может установить линукс. Что линуксу никак не мешает.