"Битва ста моделей" в области ИИ: соревнование на основе инженерии
В прошлом месяце в AI-индустрии разразилась "битва животных".
С одной стороны, модель Llama (лома), выпущенная Meta, пользуется популярностью среди разработчиков благодаря своей открытой природе. Японская компания NEC, изучив论文 и код Llama, быстро разработала японскую версию ChatGPT, решив проблемы с технологиями ИИ в Японии.
Другой стороной является большой модель под названием Falcon (Сокол). В мае этого года был выпущен Falcon-40B, который обошел ламу и занял первое место в рейтинге открытых LLM.
Этот рейтинг был создан сообществом открытых моделей и предоставляет стандарты для оценки возможностей LLM. Рейтинг в основном чередуется между Llama и Falcon.
После выпуска Llama 2 он временно занял первое место, но в начале сентября Falcon выпустил версию 180B и снова вернул лидерство.
Интересно, что разработчики Falcon не являются технологической компанией, а представляют собой научно-исследовательский институт из столицы ОАЭ. Представители правительства заявили, что они участвуют в этой гонке, чтобы сломать существующий порядок.
На следующий день после выхода версии 180B министр ИИ ОАЭ был включен в список "100 самых влиятельных людей в области ИИ" по версии журнала "Time", вместе с "батюшкой ИИ" Хинтоном, Альтманом из OpenAI и другими.
Сегодня область ИИ вступила в фазу многообразия. Государства и компании с определенными финансовыми возможностями пытаются создать собственные версии ChatGPT. В регионе Персидского залива Саудовская Аравия только что приобрела более 3000 чипов H100 для обучения LLM для своих университетов.
Некоторые инвесторы когда-то жаловались: в то время они не уважали инновации в бизнес-моделях Интернета, считая их лишенными барьеров. Они не ожидали, что стартапы в области жестких технологий и больших моделей все равно окажутся в условиях войны ста моделей.
Как высокотехнологичные решения, которые считаются сложными, стали соревнованием, в котором может участвовать каждый?
Алгоритм Transformer изменил правила игры
Американские стартапы, китайские технологические гиганты и нефтяные магнаты Ближнего Востока смогли заняться разработкой больших моделей благодаря той знаменитой статье «Внимание – это всё, что вам нужно».
В 2017 году 8 ученых из Google опубликовали алгоритм Transformer в этой статье. Это третья по количеству цитирований статья в истории ИИ, появление Transformer вызвало текущую волну интереса к ИИ.
В настоящее время различные большие модели, включая нашумевшую серию GPT, основаны на архитектуре Transformer.
Ранее "научить машины читать" было общепризнанной академической проблемой. В отличие от распознавания изображений, при чтении человек обращает внимание не только на текущие слова и фразы, но и использует контекст для понимания. Ранние нейронные сети испытывали трудности с обработкой длинных текстов и не могли понять контекст.
В 2014 году ученый Google Илья впервые добился прорыва. Он использовал рекуррентные нейронные сети (RNN) для обработки естественного языка, что значительно улучшило производительность Google Translate. RNN внедрила "рекурсивный дизайн", позволив нейронным сетям понимать контекст.
Появление RNN вызвало горячие обсуждения в академических кругах, автор Transformer Шазель также проводил глубокие исследования. Но разработчики вскоре обнаружили серьезные недостатки RNN: низкая эффективность последовательных вычислений и трудности в обработке большого объема параметров.
С 2015 года Шазел и другие начали разработку заменителей RNN, и конечным результатом стал трансформер. По сравнению с RNN трансформер имеет две основные революции:
Во-первых, использование кодирования позиций вместо цикличной структуры позволяет реализовать параллельные вычисления, значительно увеличивая эффективность обучения и вводя ИИ в эпоху больших моделей.
Во-вторых, была значительно улучшена способность понимать контекст.
Трансформер в одночасье решил множество технических проблем и постепенно стал основным решением в области NLP. Даже основатель RNN Илья также перешёл в лагерь Трансформеров.
Можно сказать, что Transformer является основой всех современных больших моделей, он превратил большие модели из теоретического исследования в инженерную задачу.
В 2019 году GPT-2, разработанный OpenAI на основе Transformer, произвел фурор в академических кругах. Google вскоре выпустил более мощный Meena, который, увеличив количество параметров обучения и вычислительную мощность, превзошел GPT-2. Автор Transformer Шазар был сильно потрясен этим и написал меморандум под названием "Meena поглощает мир".
Появление Transformer замедлило скорость инноваций в базовых алгоритмах в академической среде. Инженерные элементы, такие как обработка данных, масштаб вычислительных мощностей и архитектура моделей, постепенно становятся ключевыми в соревнованиях по ИИ. Любая технологическая компания с определенными техническими возможностями может разработать большие модели.
Компьютерный ученый Эндрю Нг в своей речи в Стэнфордском университете отметил: "Искусственный интеллект представляет собой набор инструментов, включая обучение с учителем, обучение без учителя, обучение с подкреплением и современный генеративный искусственный интеллект. Все это универсальные технологии, подобно электричеству и интернету."
OpenAI по-прежнему является лидером в области LLM, но полупроводниковые аналитические агентства считают, что преимущества GPT-4 в основном исходят от инженерных решений. Если он станет открытым, конкуренты смогут быстро его скопировать. Этот аналитик ожидает, что другие крупные технологические компании могут вскоре разработать большие модели, сопоставимые по производительности с GPT-4.
Уязвимая оборонительная стена
В настоящее время "Баймо битва" стала объективной реальностью.
Отчет показывает, что по состоянию на июль этого года количество крупных моделей в Китае достигло 130, что больше, чем в США, где их 114. Различных мифов и легенд уже недостаточно для именования отечественных технологических компаний.
Кроме США и Китая, другие богатые страны также начали реализовывать принцип "одна страна - одна модель": Япония и Объединенные Арабские Эмираты уже разработали свои модели, правительство Индии возглавило разработку Bhashini, а южнокорейская интернет-компания Naver представила HyperClova X и т.д.
Эта сцена словно вернула нас в ранние дни Интернета, когда различные капиталы сжигали деньги, захватывая территорию.
Как упоминалось ранее, Transformer превратил большие модели в чисто инженерную задачу: если у кого-то есть деньги и вычислительная мощность, он может их разработать. Однако низкий порог входа не означает, что каждый может стать гигантом эпохи ИИ.
Упомянутая в начале "борьба животных" является典型案例: хотя Falcon временно опережает, трудно сказать, насколько это повлияло на Meta.
Открытие собственных результатов предприятия является не только способом поделиться технологическими выгодами, но и стремлением привлечь общественный интеллект. С постоянным использованием и улучшением Llama различными сферами, Meta может применить эти результаты в своих продуктах.
Для открытых больших моделей активное сообщество разработчиков является основной конкурентоспособностью.
Meta еще в 2015 году, когда было создано AI-лаборатория, определила путь открытого кода. Цукерберг хорошо понимает, как "налаживать отношения с общественностью".
В октябре Meta также провела мероприятие "AI-версия стимула для создателей": разработчики, использующие Llama 2 для решения социальных проблем, имеют возможность получить финансирование в размере 500 000 долларов.
Сегодня серия Llama от Meta стала ориентиром для открытых LLM.
По состоянию на начало октября, 8 из 10 лучших открытых LLM в рейтинге основаны на Llama 2. Только на этой платформе более 1500 LLM используют открытый протокол Llama 2.
Увеличение производительности, безусловно, важно, но в настоящее время большинство LLM все еще имеют заметный разрыв с GPT-4.
Например, недавно GPT-4 занял первое место в тесте AgentBench с результатом 4.41. AgentBench был разработан совместно несколькими университетами для оценки способностей LLM к рассуждению и принятию решений в многомерной открытой среде.
Результаты тестирования показывают, что второй место занял Claude с 2.77 балла, разница очевидна. Те громкие открытые LLM обычно имеют результаты около 1 балла, что составляет менее 1/4 от GPT-4.
Необходимо знать, что GPT-4 был выпущен в марте этого года, и это результат более чем полугодичного отставания от мировых коллег. Причиной такого разрыва является высококвалифицированная команда ученых OpenAI и многолетний опыт исследований в области LLM.
То есть, ключевая способность больших моделей заключается не в параметрах, а в экосистемном строительстве ( открытом ) или чисто в способности вывода ( закрытом ).
С учетом того, что сообщество с открытым исходным кодом становится все более активным, производительность различных LLM может стать схожей, поскольку все используют аналогичные архитектуры моделей и наборы данных.
Еще одной более наглядной проблемой является то, что, кроме Midjourney, похоже, ни одна большая модель не может быть прибыльной.
Якорь стоимости
В августе этого года статья под названием "OpenAI может обанкротиться к концу 2024 года" привлекла внимание. Основная идея статьи заключается в том, что OpenAI слишком быстро тратит деньги.
В статье упоминается, что с момента разработки ChatGPT убытки OpenAI быстро увеличились, в 2022 году убытки составили около 540 миллионов долларов, и им остается только ждать инвестиций от Microsoft.
Хотя заголовок статьи преувеличен, он отражает текущее состояние поставщиков больших моделей: серьезный дисбаланс между затратами и доходами.
Слишком высокие затраты привели к тому, что в настоящее время только NVIDIA зарабатывает большие деньги на ИИ, максимум еще можно добавить Broadcom.
Согласно оценкам консалтинговой компании, Nvidia продала более 300 тысяч чипов H100 во втором квартале этого года. Это высокоэффективный AI чип, который стремятся приобрести мировые технологические компании и исследовательские учреждения. Если сложить эти H100, их вес будет равен весу 4,5 самолета Boeing 747.
Выручка Nvidia стремительно выросла, увеличившись на 854% по сравнению с прошлым годом, шокировав Уолл-стрит. В настоящее время H100 на вторичном рынке продается по цене 40-50 тысяч долларов, в то время как его стоимость составляет всего около 3000 долларов.
Высокие затраты на вычислительную мощность стали препятствием для развития отрасли. По расчетам, мировые технологические компании ежегодно планируют потратить 200 миллиардов долларов на инфраструктуру для крупных моделей, в то время как крупные модели ежегодно могут приносить максимум 75 миллиардов долларов дохода, что создает как минимум 125 миллиардов долларов дефицита.
Кроме немногих исключений, большинство программных компаний, после значительных вложений, все еще не нашли прибыльную модель. Даже такие лидеры отрасли, как Microsoft и Adobe, испытывают трудности.
Инструмент генерации кода AI GitHub Copilot, разработанный в сотрудничестве Microsoft и OpenAI, стоит 10 долларов в месяц, но из-за затрат на обслуживание Microsoft теряет 20 долларов в месяц. У пользователей с высокой нагрузкой потери Microsoft могут достигать 80 долларов. Исходя из этого, можно предположить, что Microsoft 365 Copilot, цена которого составляет 30 долларов, может приносить еще большие убытки.
Аналогично, недавно выпустивший инструмент Firefly AI Adobe также быстро запустил систему баллов, чтобы предотвратить чрезмерное использование пользователями, что может привести к убыткам компании. Если пользователи превышают месячный лимит баллов, Adobe снизит скорость обслуживания.
Следует отметить, что Microsoft и Adobe уже являются четко определенными бизнесами с большим количеством платных пользователей среди программных гигантов. В то время как большинство крупных моделей с множеством параметров все еще имеют основной сценарий применения - это общение.
Нельзя отрицать, что без OpenAI и ChatGPT эта AI-революция, возможно, бы не произошла. Но на данный момент ценность, которую приносит обучение больших моделей, остается предметом обсуждения.
Кроме того, с усилением конкуренции и увеличением числа открытых моделей, простые поставщики больших моделей могут столкнуться с большими трудностями.
Успех iPhone 4 не в 45-нм процессоре A4, а в том, что на нём можно играть в Plants vs. Zombies и Angry Birds.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
11 Лайков
Награда
11
4
Репост
Поделиться
комментарий
0/400
PonziDetector
· 10ч назад
Эти модели не имеют смысла, кто争第一. Главное – это хорошо зарабатывать.
Посмотреть ОригиналОтветить0
FreeRider
· 10ч назад
Разорвать так сильно, кто проиграл, кто выиграл, не важно, просто закатим все.
Посмотреть ОригиналОтветить0
MoonMathMagic
· 10ч назад
Давай драться, давай драться, кто победит, тот и папа.
Посмотреть ОригиналОтветить0
HashRatePhilosopher
· 11ч назад
Играть с ИИ нужно смотреть, у кого больше вычислительная мощность.
AI битва моделей: Инженерные соревнования и коммерческие вызовы
"Битва ста моделей" в области ИИ: соревнование на основе инженерии
В прошлом месяце в AI-индустрии разразилась "битва животных".
С одной стороны, модель Llama (лома), выпущенная Meta, пользуется популярностью среди разработчиков благодаря своей открытой природе. Японская компания NEC, изучив论文 и код Llama, быстро разработала японскую версию ChatGPT, решив проблемы с технологиями ИИ в Японии.
Другой стороной является большой модель под названием Falcon (Сокол). В мае этого года был выпущен Falcon-40B, который обошел ламу и занял первое место в рейтинге открытых LLM.
Этот рейтинг был создан сообществом открытых моделей и предоставляет стандарты для оценки возможностей LLM. Рейтинг в основном чередуется между Llama и Falcon.
После выпуска Llama 2 он временно занял первое место, но в начале сентября Falcon выпустил версию 180B и снова вернул лидерство.
Интересно, что разработчики Falcon не являются технологической компанией, а представляют собой научно-исследовательский институт из столицы ОАЭ. Представители правительства заявили, что они участвуют в этой гонке, чтобы сломать существующий порядок.
На следующий день после выхода версии 180B министр ИИ ОАЭ был включен в список "100 самых влиятельных людей в области ИИ" по версии журнала "Time", вместе с "батюшкой ИИ" Хинтоном, Альтманом из OpenAI и другими.
Сегодня область ИИ вступила в фазу многообразия. Государства и компании с определенными финансовыми возможностями пытаются создать собственные версии ChatGPT. В регионе Персидского залива Саудовская Аравия только что приобрела более 3000 чипов H100 для обучения LLM для своих университетов.
Некоторые инвесторы когда-то жаловались: в то время они не уважали инновации в бизнес-моделях Интернета, считая их лишенными барьеров. Они не ожидали, что стартапы в области жестких технологий и больших моделей все равно окажутся в условиях войны ста моделей.
Как высокотехнологичные решения, которые считаются сложными, стали соревнованием, в котором может участвовать каждый?
Алгоритм Transformer изменил правила игры
Американские стартапы, китайские технологические гиганты и нефтяные магнаты Ближнего Востока смогли заняться разработкой больших моделей благодаря той знаменитой статье «Внимание – это всё, что вам нужно».
В 2017 году 8 ученых из Google опубликовали алгоритм Transformer в этой статье. Это третья по количеству цитирований статья в истории ИИ, появление Transformer вызвало текущую волну интереса к ИИ.
В настоящее время различные большие модели, включая нашумевшую серию GPT, основаны на архитектуре Transformer.
Ранее "научить машины читать" было общепризнанной академической проблемой. В отличие от распознавания изображений, при чтении человек обращает внимание не только на текущие слова и фразы, но и использует контекст для понимания. Ранние нейронные сети испытывали трудности с обработкой длинных текстов и не могли понять контекст.
В 2014 году ученый Google Илья впервые добился прорыва. Он использовал рекуррентные нейронные сети (RNN) для обработки естественного языка, что значительно улучшило производительность Google Translate. RNN внедрила "рекурсивный дизайн", позволив нейронным сетям понимать контекст.
Появление RNN вызвало горячие обсуждения в академических кругах, автор Transformer Шазель также проводил глубокие исследования. Но разработчики вскоре обнаружили серьезные недостатки RNN: низкая эффективность последовательных вычислений и трудности в обработке большого объема параметров.
С 2015 года Шазел и другие начали разработку заменителей RNN, и конечным результатом стал трансформер. По сравнению с RNN трансформер имеет две основные революции:
Во-первых, использование кодирования позиций вместо цикличной структуры позволяет реализовать параллельные вычисления, значительно увеличивая эффективность обучения и вводя ИИ в эпоху больших моделей.
Во-вторых, была значительно улучшена способность понимать контекст.
Трансформер в одночасье решил множество технических проблем и постепенно стал основным решением в области NLP. Даже основатель RNN Илья также перешёл в лагерь Трансформеров.
Можно сказать, что Transformer является основой всех современных больших моделей, он превратил большие модели из теоретического исследования в инженерную задачу.
В 2019 году GPT-2, разработанный OpenAI на основе Transformer, произвел фурор в академических кругах. Google вскоре выпустил более мощный Meena, который, увеличив количество параметров обучения и вычислительную мощность, превзошел GPT-2. Автор Transformer Шазар был сильно потрясен этим и написал меморандум под названием "Meena поглощает мир".
Появление Transformer замедлило скорость инноваций в базовых алгоритмах в академической среде. Инженерные элементы, такие как обработка данных, масштаб вычислительных мощностей и архитектура моделей, постепенно становятся ключевыми в соревнованиях по ИИ. Любая технологическая компания с определенными техническими возможностями может разработать большие модели.
Компьютерный ученый Эндрю Нг в своей речи в Стэнфордском университете отметил: "Искусственный интеллект представляет собой набор инструментов, включая обучение с учителем, обучение без учителя, обучение с подкреплением и современный генеративный искусственный интеллект. Все это универсальные технологии, подобно электричеству и интернету."
OpenAI по-прежнему является лидером в области LLM, но полупроводниковые аналитические агентства считают, что преимущества GPT-4 в основном исходят от инженерных решений. Если он станет открытым, конкуренты смогут быстро его скопировать. Этот аналитик ожидает, что другие крупные технологические компании могут вскоре разработать большие модели, сопоставимые по производительности с GPT-4.
Уязвимая оборонительная стена
В настоящее время "Баймо битва" стала объективной реальностью.
Отчет показывает, что по состоянию на июль этого года количество крупных моделей в Китае достигло 130, что больше, чем в США, где их 114. Различных мифов и легенд уже недостаточно для именования отечественных технологических компаний.
Кроме США и Китая, другие богатые страны также начали реализовывать принцип "одна страна - одна модель": Япония и Объединенные Арабские Эмираты уже разработали свои модели, правительство Индии возглавило разработку Bhashini, а южнокорейская интернет-компания Naver представила HyperClova X и т.д.
Эта сцена словно вернула нас в ранние дни Интернета, когда различные капиталы сжигали деньги, захватывая территорию.
Как упоминалось ранее, Transformer превратил большие модели в чисто инженерную задачу: если у кого-то есть деньги и вычислительная мощность, он может их разработать. Однако низкий порог входа не означает, что каждый может стать гигантом эпохи ИИ.
Упомянутая в начале "борьба животных" является典型案例: хотя Falcon временно опережает, трудно сказать, насколько это повлияло на Meta.
Открытие собственных результатов предприятия является не только способом поделиться технологическими выгодами, но и стремлением привлечь общественный интеллект. С постоянным использованием и улучшением Llama различными сферами, Meta может применить эти результаты в своих продуктах.
Для открытых больших моделей активное сообщество разработчиков является основной конкурентоспособностью.
Meta еще в 2015 году, когда было создано AI-лаборатория, определила путь открытого кода. Цукерберг хорошо понимает, как "налаживать отношения с общественностью".
В октябре Meta также провела мероприятие "AI-версия стимула для создателей": разработчики, использующие Llama 2 для решения социальных проблем, имеют возможность получить финансирование в размере 500 000 долларов.
Сегодня серия Llama от Meta стала ориентиром для открытых LLM.
По состоянию на начало октября, 8 из 10 лучших открытых LLM в рейтинге основаны на Llama 2. Только на этой платформе более 1500 LLM используют открытый протокол Llama 2.
Увеличение производительности, безусловно, важно, но в настоящее время большинство LLM все еще имеют заметный разрыв с GPT-4.
Например, недавно GPT-4 занял первое место в тесте AgentBench с результатом 4.41. AgentBench был разработан совместно несколькими университетами для оценки способностей LLM к рассуждению и принятию решений в многомерной открытой среде.
Результаты тестирования показывают, что второй место занял Claude с 2.77 балла, разница очевидна. Те громкие открытые LLM обычно имеют результаты около 1 балла, что составляет менее 1/4 от GPT-4.
Необходимо знать, что GPT-4 был выпущен в марте этого года, и это результат более чем полугодичного отставания от мировых коллег. Причиной такого разрыва является высококвалифицированная команда ученых OpenAI и многолетний опыт исследований в области LLM.
То есть, ключевая способность больших моделей заключается не в параметрах, а в экосистемном строительстве ( открытом ) или чисто в способности вывода ( закрытом ).
С учетом того, что сообщество с открытым исходным кодом становится все более активным, производительность различных LLM может стать схожей, поскольку все используют аналогичные архитектуры моделей и наборы данных.
Еще одной более наглядной проблемой является то, что, кроме Midjourney, похоже, ни одна большая модель не может быть прибыльной.
Якорь стоимости
В августе этого года статья под названием "OpenAI может обанкротиться к концу 2024 года" привлекла внимание. Основная идея статьи заключается в том, что OpenAI слишком быстро тратит деньги.
В статье упоминается, что с момента разработки ChatGPT убытки OpenAI быстро увеличились, в 2022 году убытки составили около 540 миллионов долларов, и им остается только ждать инвестиций от Microsoft.
Хотя заголовок статьи преувеличен, он отражает текущее состояние поставщиков больших моделей: серьезный дисбаланс между затратами и доходами.
Слишком высокие затраты привели к тому, что в настоящее время только NVIDIA зарабатывает большие деньги на ИИ, максимум еще можно добавить Broadcom.
Согласно оценкам консалтинговой компании, Nvidia продала более 300 тысяч чипов H100 во втором квартале этого года. Это высокоэффективный AI чип, который стремятся приобрести мировые технологические компании и исследовательские учреждения. Если сложить эти H100, их вес будет равен весу 4,5 самолета Boeing 747.
Выручка Nvidia стремительно выросла, увеличившись на 854% по сравнению с прошлым годом, шокировав Уолл-стрит. В настоящее время H100 на вторичном рынке продается по цене 40-50 тысяч долларов, в то время как его стоимость составляет всего около 3000 долларов.
Высокие затраты на вычислительную мощность стали препятствием для развития отрасли. По расчетам, мировые технологические компании ежегодно планируют потратить 200 миллиардов долларов на инфраструктуру для крупных моделей, в то время как крупные модели ежегодно могут приносить максимум 75 миллиардов долларов дохода, что создает как минимум 125 миллиардов долларов дефицита.
Кроме немногих исключений, большинство программных компаний, после значительных вложений, все еще не нашли прибыльную модель. Даже такие лидеры отрасли, как Microsoft и Adobe, испытывают трудности.
Инструмент генерации кода AI GitHub Copilot, разработанный в сотрудничестве Microsoft и OpenAI, стоит 10 долларов в месяц, но из-за затрат на обслуживание Microsoft теряет 20 долларов в месяц. У пользователей с высокой нагрузкой потери Microsoft могут достигать 80 долларов. Исходя из этого, можно предположить, что Microsoft 365 Copilot, цена которого составляет 30 долларов, может приносить еще большие убытки.
Аналогично, недавно выпустивший инструмент Firefly AI Adobe также быстро запустил систему баллов, чтобы предотвратить чрезмерное использование пользователями, что может привести к убыткам компании. Если пользователи превышают месячный лимит баллов, Adobe снизит скорость обслуживания.
Следует отметить, что Microsoft и Adobe уже являются четко определенными бизнесами с большим количеством платных пользователей среди программных гигантов. В то время как большинство крупных моделей с множеством параметров все еще имеют основной сценарий применения - это общение.
Нельзя отрицать, что без OpenAI и ChatGPT эта AI-революция, возможно, бы не произошла. Но на данный момент ценность, которую приносит обучение больших моделей, остается предметом обсуждения.
Кроме того, с усилением конкуренции и увеличением числа открытых моделей, простые поставщики больших моделей могут столкнуться с большими трудностями.
Успех iPhone 4 не в 45-нм процессоре A4, а в том, что на нём можно играть в Plants vs. Zombies и Angry Birds.