Битва з AI: змагання під керівництвом інженерії та комерційні виклики

"Битва ста моделей" в галузі штучного інтелекту: змагання на основі інженерії

Минулого місяця в AI-індустрії відбулася "битва тварин".

Одна сторона – це модель Llama (альпака), яку випустила компанія Meta, що користується великою популярністю серед розробників завдяки своїй відкритій природі. Японська компанія NEC, вивчивши статтю та код Llama, швидко розробила японську версію ChatGPT, що вирішило проблему технологічного вузького місця в Японії.

Іншою стороною є велика модель під назвою Falcon (Сокіл). У травні цього року з'явився Falcon-40B, який перевершив альпака і зайняв перше місце у рейтингу відкритих LLM.

Цей рейтинг створено спільнотою відкритих моделей, яка надає стандарти для оцінки можливостей LLM. Рейтинг в основному чергується між Llama та Falcon.

Після випуску Llama 2 він тимчасово лідирував, але на початку вересня Falcon випустив версію 180B, що знову повернула його на перше місце.

Цікаво, що розробники Falcon не є технологічною компанією, а є науково-дослідним інститутом у столиці Об'єднаних Арабських Еміратів. Представники уряду заявили, що вони беруть участь у цьому змаганні, щоб порушити панівний порядок.

На наступний день після випуску версії 180B міністр штучного інтелекту Об'єднаних Арабських Еміратів був включений до списку "100 найбільш впливових людей у сфері штучного інтелекту" журналу "Тайм", разом з "батьком штучного інтелекту" Гінтоном, Альтманом з OpenAI та іншими.

Сьогодні сфера штучного інтелекту увійшла в етап розквіту. Країни та компанії з певними фінансовими ресурсами намагаються створити локальні версії ChatGPT. У районі Перської затоки Саудівська Аравія тільки що придбала понад 3000 чіпів H100 для навчання LLM для місцевих університетів.

Деякі інвестори колись скаржились: колись недооцінювали інновації в бізнес-моделях Інтернету, вважали, що немає бар'єрів. Ніхто не очікував, що стартапи в галузі жорстких технологій з великими моделями все ще будуть битвою сотень моделей.

Як високотехнологічні рішення, які вважаються складними, перетворились на змагання, в якому може брати участь кожен?

Алгоритм Transformer змінив правила гри

Американські стартапи, китайські технологічні гіганти та нафтові магнати Близького Сходу змогли взяти участь у розробці великих моделей завдяки відомій статті «Увага — це все, що вам потрібно».

У 2017 році 8 вчених з Google опублікували в цій статті алгоритм Transformer. Це третя за кількістю цитувань стаття в історії ШІ, поява Transformer викликала цей раунд буму ШІ.

Сучасні великі моделі, включаючи сенсаційну серію GPT, побудовані на основі Transformer.

Раніше "навчання машин читати" було визнаною академічною проблемою. На відміну від розпізнавання зображень, людина при читанні не лише зосереджується на поточних словах та реченнях, а й враховує контекст для розуміння. Ранні нейронні мережі не могли обробляти довгі тексти і не були здатні зрозуміти контекст.

У 2014 році вчений Google Ілля вперше досяг прориву. Він використав рекурентні нейронні мережі (RNN) для обробки природної мови, що значно покращило продуктивність Google Translate. RNN впровадила "циклічний дизайн", що надало нейронним мережам можливість розуміти контекст.

Поява RNN викликала гарячі дискусії в академічному середовищі, автор Трансформера Шазель також проводив глибокі дослідження. Але розробники швидко виявили, що RNN має серйозні недоліки: низька ефективність послідовних обчислень та труднощі в обробці великої кількості параметрів.

З 2015 року Шазель та інші почали розробку альтернатив RNN, результатом якої став Transformer. В порівнянні з RNN, Transformer має дві великі революції:

По-перше, заміна циклічного дизайну на кодування позицій дозволяє реалізувати паралельні обчислення, значно підвищуючи ефективність навчання, що веде до ери великих моделей в ІІ.

По-друге, ще більше покращено здатність розуміти контекст.

Transformer вирішив кілька технологічних проблем і поступово став основним рішенням у галузі NLP. Навіть засновник RNN Ілля також перейшов до табору Transformer.

Можна сказати, що Transformer є основою всіх великих моделей сьогодні, він перетворив великі моделі з теоретичного дослідження на інженерну задачу.

У 2019 році OpenAI на базі Transformer розробила GPT-2, що викликало фурор у науковому світі. Google відразу ж випустила Meena з покращеною продуктивністю, яка перевершила GPT-2 лише завдяки збільшенню кількості параметрів навчання та обчислювальної потужності. Автор Transformer, Ашиш Шазел, був глибоко вражений цим і написав записку "Meena поглинає світ".

Випуск Transformer призвів до уповільнення швидкості інновацій базових алгоритмів у академічному середовищі. Інженерні елементи, такі як обробка даних, масштаб обчислювальної потужності, архітектура моделей тощо, поступово стали ключовими у змаганнях AI. Будь-яка технологічна компанія з певним рівнем технічних можливостей може розробити великі моделі.

Комп'ютерний вчений Ву Ен Да під час виступу в Стенфордському університеті зазначив: "ШІ є набором інструментів, що включає навчання з наглядом, навчання без нагляду, посилене навчання та теперішній генеративний штучний інтелект. Це універсальні технології, подібні до електрики та Інтернету."

OpenAI все ще є лідером серед LLM, але аналітична компанія в сфері напівпровідників вважає, що перевага GPT-4 в основному походить від інженерних рішень. Якщо буде відкритий код, конкуренти швидко зможуть це скопіювати. Цей аналітик прогнозує, що інші великі технологічні компанії можуть незабаром розробити великі моделі, які будуть порівнянні за продуктивністю з GPT-4.

Слабкий захист

На даний момент "Битва ста моделей" стала об'єктивною реальністю.

Звіт показує, що станом на липень цього року в Китаї кількість великих моделей досягла 130, перевищивши 114 у США. Різних міфів і легенд вже недостатньо, щоб використати їх для назв вітчизняних технологічних компаній.

Окрім Китаю та США, інші багаті країни також попередньо реалізували "одна країна - одна модель": Японія та ОАЕ вже мають свої моделі, уряд Індії очолив розробку Bhashini, а південнокорейська інтернет-компанія Naver запустила HyperClova X тощо.

Ця сцена ніби повернулася в початок Інтернету, в епоху, коли різні капітали витрачали гроші на захоплення територій.

Як вже згадувалося раніше, Transformer перетворив великі моделі на чисто інженерну задачу: якщо у когось є гроші та обчислювальні потужності, він може їх розробити. Але низький бар'єр входу не означає, що кожен може стати гігантом епохи ШІ.

Згадане на початку "Боротьба тварин" є типовим прикладом: хоча Falcon тимчасово лідирує, важко сказати, який вплив він справив на Meta.

Компанії відкривають свої досягнення, щоб поділитися технологічними вигодами та сподіваються залучити суспільний розум. З поступовим використанням і вдосконаленням Llama з боку різних секторів, Meta може впроваджувати ці досягнення у свої продукти.

Для відкритих великих моделей активне співтовариство розробників є основною конкурентною перевагою.

Meta ще в 2015 році, коли заснувала лабораторію штучного інтелекту, визначила відкритий шлях. Цукерберг добре знає, як "підтримувати добрі стосунки з громадськістю".

У жовтні Meta також провела спеціальну акцію "AI-версія стимулювання творців": розробники, які використовують Llama 2 для вирішення соціальних проблем, мають можливість отримати фінансування в розмірі 500 тисяч доларів.

Сьогодні серія Llama від Meta стала орієнтиром для відкритих LLM.

Станом на початок жовтня, з перших 10 місць у рейтингу відкритих LLM, 8 базуються на Llama 2. Лише на цій платформі кількість LLM, що використовують ліцензію Llama 2, перевищує 1500.

Покращення продуктивності, безумовно, важливо, але наразі більшість LLM все ще має помітну різницю з GPT-4.

Наприклад, нещодавно GPT-4 зайняв перше місце в тестовому рейтингу AgentBench з оцінкою 4,41 бала. AgentBench був спільно розроблений кількома університетами для оцінки здатності LLM до міркувань та прийняття рішень в багатовимірному відкритому середовищі.

Результати тестування показали, що друге місце посів Claude з 2,77 балами, різниця очевидна. Ті гучні відкриті LLM, результати яких зазвичай коливаються близько 1 бала, навіть не досягають 1/4 від GPT-4.

Слід зазначити, що GPT-4 був випущений у березні цього року, і це все ще є результатом того, що колеги по всьому світу намагаються його наздогнати більше півроку. Причиною цієї різниці є висококваліфікована команда вчених OpenAI та тривалий досвід досліджень LLM.

Тобто, основна здатність великої моделі полягає не в параметрах, а в екосистемному будівництві ( відкритий код ) або чисто у здатності до висновку ( закритий код ).

З огляду на те, що спільнота з відкритим кодом стає дедалі активнішою, продуктивність різних LLM може стати схожою, оскільки всі використовують подібні архітектури моделей та набори даних.

Інша, більш очевидна проблема полягає в тому, що, крім Midjourney, здається, жодна велика модель не може бути прибутковою.

Якір вартості

У серпні цього року стаття з заголовком "OpenAI може збанкрутувати до кінця 2024 року" привернула увагу. Головна ідея статті: OpenAI витрачає кошти занадто швидко.

У тексті згадується, що з моменту розробки ChatGPT, збитки OpenAI швидко зросли, у 2022 році збитки склали близько 540 мільйонів доларів, і залишалося тільки чекати інвестицій від Microsoft.

Хоча заголовок статті перебільшений, він відображає ситуацію у постачальників великих моделей: витрати та доходи серйозно дисбалансовані.

Занадто високі витрати призвели до того, що наразі тільки NVIDIA заробляє великі гроші на ШІ, максимум ще Broadcom.

Згідно з оцінками консалтингової компанії, компанія Nvidia у другому кварталі цього року продала понад 300 тисяч чіпів H100. Це високоефективний AI чіп, за яким змагаються технологічні компанії та дослідницькі установи по всьому світу. Якщо скласти ці H100 один на одного, їхня вага буде дорівнювати вазі 4,5 літаків Boeing 747.

Виручка компанії NVIDIA різко зросла, показавши річний приріст у 854%, що шокувало Уолл-стріт. Наразі H100 на вторинному ринку продають за 40-50 тисяч доларів, тоді як його собівартість становить лише близько 3000 доларів.

Високі витрати на обчислювальну потужність стали перешкодою для розвитку галузі. Дослідницькі установи підрахували: глобальні технологічні компанії щорічно витрачатимуть 200 мільярдів доларів на інфраструктуру великих моделей, тоді як великі моделі щорічно можуть приносити максимум 75 мільярдів доларів доходу, існуючи принаймні 125 мільярдів доларів дефіциту.

Крім того, за винятком невеликої кількості винятків, більшість програмних компаній після значних інвестицій ще не знайшли прибуткову модель. Навіть лідери галузі, такі як Microsoft та Adobe, не мають особливого успіху.

Інструмент для генерації коду AI GitHub Copilot, розроблений у співпраці Microsoft та OpenAI, хоча й коштує 10 доларів на місяць, через витрати на обслуговування Microsoft втрачає 20 доларів на місяць, а користувачі, які активно користуються, навіть призводять до збитків у 80 доларів. З цього можна припустити, що Microsoft 365 Copilot, що має ціну 30 доларів, може завдавати ще більших збитків.

Так само, тільки-но випустивши інструмент Firefly AI, Adobe швидко впровадила систему балів, щоб запобігти надмірному використанню, що призводить до збитків компанії. Якщо користувач перевищить місячний ліміт балів, Adobe знизить швидкість обслуговування.

Слід зазначити, що Microsoft і Adobe вже є програмними гігантами з чітким бізнесом та великою кількістю платних користувачів. А найбільша сфера застосування більшості великих моделей все ще залишається спілкування.

Неможливо заперечувати, що без OpenAI та ChatGPT ця революція в AI могла б і не відбутися. Але наразі цінність, яку приносить навчання великих моделей, все ще є предметом обговорення.

Більше того, з посиленням конкуренції за однорідність та збільшенням кількості відкритих моделей, постачальники лише великих моделей можуть стикнутися з більшим тиском.

Успіх iPhone 4 полягає не в 45-нм процесорі A4, а в тому, що він може грати в рослини проти зомбі та Angry Birds.

GPT17.99%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • Репост
  • Поділіться
Прокоментувати
0/400
PonziDetectorvip
· 7год тому
Ці моделі, хто сперечається за перше місце, не мають сенсу, важливіше заробляти гроші.
Переглянути оригіналвідповісти на0
FreeRidervip
· 7год тому
Розірвати так жорстоко. Хто програє, а хто виграє - не важливо. Головне, що це закінчиться.
Переглянути оригіналвідповісти на0
MoonMathMagicvip
· 7год тому
Битися, битися, хто виграє, той і батько.
Переглянути оригіналвідповісти на0
HashRatePhilosophervip
· 8год тому
Грати з ШІ треба дивитися, у кого більша обчислювальна потужність.
Переглянути оригіналвідповісти на0
  • Закріпити