AI百模大战:工程主导的竞赛与商业化挑战

RugResistant

2025-08-17 05:49:51

AI领域的"百模大战"：一场基于工程的竞赛

上个月，AI业界上演了一场"动物之争"。

一方是Meta推出的Llama（美洲驼）模型，因其开源特性深受开发者青睐。日本电气公司NEC在研究Llama论文和代码后，迅速开发出日语版ChatGPT，为日本解决了AI技术瓶颈。

另一方是名为Falcon（猎鹰）的大模型。今年5月，Falcon-40B问世，超越美洲驼登上了开源LLM排行榜榜首。

该排行榜由开源模型社区制作，提供了评估LLM能力的标准。排名基本在Llama和Falcon之间交替。

Llama 2发布后暂时领先，但9月初Falcon推出180B版本再次夺回榜首。

有趣的是，Falcon的开发者并非科技公司，而是阿联酋首都的一家科技研究所。政府人士表示，他们参与这场竞赛是为了打破主导者的格局。

180B版本发布次日，阿联酋AI部长入选《时代周刊》"AI领域最具影响力100人"榜单，与"AI教父"辛顿、OpenAI的阿尔特曼等同台。

如今AI领域已进入百花齐放阶段。有一定财力的国家和企业都在尝试打造本土版ChatGPT。在海湾地区，沙特刚为国内大学购买了3000多块H100芯片用于LLM训练。

有投资人曾吐槽：当年看不起互联网的商业模式创新，觉得没有壁垒。没想到硬科技大模型创业，依然是百模大战。

号称高难度的硬科技，怎么演变成了人人都能参与的竞赛？

Transformer算法改变了游戏规则

美国初创公司、中国科技巨头、中东石油大亨能够投身大模型研发，都要感谢那篇著名论文《Attention Is All You Need》。

2017年，8位谷歌科学家在这篇论文中公开了Transformer算法。这是AI历史上被引用第三多的论文，Transformer的出现引发了此轮AI热潮。

当前各种大模型,包括轰动一时的GPT系列,都建立在Transformer的基础之上。

此前,"教会机器阅读"一直是公认的学术难题。不同于图像识别,人类阅读时不仅关注当前词句,还会结合上下文理解。早期神经网络难以处理长文本,无法理解上下文。

2014年,谷歌科学家伊利亚首次取得突破。他使用循环神经网络(RNN)处理自然语言,使谷歌翻译性能大幅提升。RNN引入了"循环设计",让神经网络具备了理解上下文的能力。

RNN的出现引发学术界热议,Transformer作者沙泽尔也曾深入研究。但开发者们很快发现RNN存在严重缺陷:顺序计算效率低下,难以处理大量参数。

从2015年开始,沙泽尔等人着手开发RNN替代品,最终成果便是Transformer。相比RNN,Transformer有两大变革:

一是用位置编码取代循环设计,实现并行计算,大幅提升训练效率,使AI进入大模型时代。

二是进一步增强了理解上下文的能力。

Transformer一举解决了多项技术难题,逐渐成为NLP领域的主流方案。连RNN的创始人伊利亚也转而投入Transformer阵营。

可以说,Transformer是当今所有大模型的基石,它让大模型从理论研究变成了工程问题。

2019年,OpenAI基于Transformer开发的GPT-2引起学术界轰动。谷歌随即推出了性能更强的Meena,仅靠增加训练参数和算力就超越了GPT-2。Transformer作者沙泽尔对此深感震撼,写下了"Meena吞噬世界"的备忘录。

Transformer的问世,使学术界底层算法创新速度放缓。数据工程、算力规模、模型架构等工程要素,逐渐成为AI竞赛的关键。只要有一定技术能力的科技公司,都能开发出大模型。

计算机科学家吴恩达在斯坦福大学演讲时指出:"AI是一系列工具的集合,包括监督学习、无监督学习、强化学习以及现在的生成式人工智能。这些都是通用技术,与电力和互联网等其他通用技术类似。"

OpenAI仍是LLM的领跑者,但半导体分析机构认为,GPT-4的优势主要来自工程解决方案。如果开源,竞争对手很快就能复制。该分析师预计,其他大型科技公司可能很快就能开发出与GPT-4性能相当的大模型。

脆弱的护城河

目前,"百模大战"已成为客观现实。

报告显示,截至今年7月,中国大模型数量已达130个,超过美国的114个。各种神话传说已经不够国内科技公司取名用了。

除中美外,其他富裕国家也初步实现了"一国一模":日本和阿联酋已有自己的模型,印度政府主导开发了Bhashini,韩国互联网公司Naver推出了HyperClova X等。

这场景仿佛回到了互联网初期,各路资本烧钱圈地的时代。

正如前文所述,Transformer让大模型变成了纯工程问题,只要有人有钱有算力,就能开发。但入场门槛虽低,并不意味着人人都能成为AI时代的巨头。

开头提到的"动物之争"就是典型案例:Falcon虽然暂时领先,但很难说对Meta造成了多大冲击。

企业开源自身成果,既是分享科技红利,也希望调动社会智慧。随着各界不断使用、改进Llama,Meta可以将这些成果应用到自己的产品中。

对开源大模型而言,活跃的开发者社群才是核心竞争力。

Meta早在2015年成立AI实验室时就确定了开源路线。扎克伯格深谙"搞好群众关系"之道。

10月,Meta还专门举办了"AI版创作者激励"活动:用Llama 2解决社会问题的开发者,有机会获得50万美元资助。

如今,Meta的Llama系列已成为开源LLM的风向标。

截至10月初,某开源LLM排行榜前10名中,有8个基于Llama 2开发。仅在该平台上,使用Llama 2开源协议的LLM就超过1500个。

提高性能固然重要,但目前大多数LLM与GPT-4仍有明显差距。

例如最近GPT-4以4.41分的成绩登顶AgentBench测试榜首。AgentBench由多所大学联合推出,用于评估LLM在多维度开放环境中的推理和决策能力。

测试结果显示,第二名Claude仅2.77分,差距明显。那些声势浩大的开源LLM,成绩多在1分上下,还不到GPT-4的1/4。

要知道GPT-4发布于今年3月,这还是全球同行追赶大半年后的结果。造成这种差距的,是OpenAI高水平的科学家团队和长期积累的LLM研究经验。

也就是说,大模型的核心能力并非参数,而是生态建设(开源)或纯粹的推理能力(闭源)。

随着开源社区日益活跃,各LLM性能可能趋同,因为大家使用相似的模型架构和数据集。

另一个更直观的难题是:除了Midjourney,似乎还没有哪个大模型能盈利。

价值的锚点

今年8月,一篇题为"OpenAI可能会于2024年底破产"的文章引发关注。文章主旨是:OpenAI的烧钱速度过快。

文中提到,自开发ChatGPT以来,OpenAI亏损迅速扩大,2022年亏损约5.4亿美元,只能等待微软投资。

文章标题虽夸张,但道出了大模型提供商的现状:成本与收入严重失衡。

过高的成本导致目前靠AI赚大钱的只有英伟达,顶多再加个博通。

据咨询公司估计,英伟达今年二季度售出超30万块H100芯片。这是一款高效的AI芯片,全球科技公司和研究机构争相购买。如果将这些H100叠在一起,重量相当于4.5架波音747。

英伟达业绩随之飙升,同比营收增长854%,震惊华尔街。目前H100在二手市场炒到4-5万美元,而其成本仅约3000美元。

高昂的算力成本已成为行业发展阻力。有机构测算:全球科技公司每年预计将花费2000亿美元用于大模型基础设施,而大模型每年最多产生750亿美元收入,存在至少1250亿美元缺口。

此外,除少数例外,多数软件公司在巨额投入后还未找到盈利模式。即便是行业领头羊微软和Adobe也走得不太顺畅。

微软与OpenAI合作开发的AI代码生成工具GitHub Copilot,虽每月收费10美元,但因设施成本,微软反而每月亏损20美元,重度用户甚至让微软亏损80美元。由此推测,定价30美元的Microsoft 365 Copilot可能亏损更多。

同样,刚发布Firefly AI工具的Adobe也迅速推出积分系统,防止用户过度使用导致公司亏损。用户超出每月积分后,Adobe会降低服务速度。

要知道微软和Adobe已是业务清晰、拥有大量付费用户的软件巨头。而多数参数庞大的大模型,最大应用场景仍是聊天。

不可否认,没有OpenAI和ChatGPT,这场AI革命可能不会发生。但目前,训练大模型带来的价值还有待商榷。

而且,随着同质化竞争加剧和开源模型增多,单纯的大模型供应商可能面临更大压力。

iPhone 4的成功不是因为45nm制程的A4处理器,而是它能玩植物大战僵尸和愤怒的小鸟。

GPT16.8%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

11人点赞了这条动态

赞赏
11
4
转发
分享

0/400

Ponzi Detector

· 8小时前

这些模型谁争第一没意思好赚钱的才是王道

FreeRider

· 8小时前

撕到这么惨谁输谁赢不重要卷就完了

MoonMathMagic

· 8小时前

打起来打起来谁赢谁是爹

HashRatePhilosopher

· 8小时前

玩AI还得看谁的算力大呗