一周岁的 ChatGPT 和它的最佳 CP,测评表现仅次于 GPT-4 的第二大语言模型

巴比特_

原文来源:深思SenseAI

图片来源:由无界 AI生成

如果说 OpenAI 的 ChatGPT 是博学多才高智商学霸,Inflection 的 Pi 就是情商拉满体贴入微又不失俏皮的 Personal AI。几天前,Inflection 推出了自己的第二个模型:Inflection-2——测评表现仅次于 GPT-4,而成为目前第二大大语言模型。

50 人团队,拥有世界上最大的 GPU 集群:22000 张 H100,总融资 15 亿美金,去年 3 月份成立的 Inflection 给大语言模型带来了温度,并祝一周岁的 ChatGPT 生日快乐。

AI Native 产品分析

Pi

**1. 产品:**Pi (Inflection.ai 的对话机器人)

2. 创始团队

  • Mustafa Suleyman,Inflection CEO,DeepMind 联合创始人,《经济学人》董事会成员,也是哈佛大学肯尼迪学院贝尔弗科学与国际事务中心的高级研究员;
  • Reid Hoffman,LinkedIn 联合创始人,前 Paypal COO,硅谷著名风投机构 Greylock 合伙人;
  • Karén Simonyan,前 Google AI 科学家,在牛津大学完成博士后研究后,创办的第一家公司被 DeepMind 收购,随后成为 DeepMind 首席科学家。

3. 创业背景

Mustafa Suleyman 在意识到“对话式 AI”会是未来趋势之后,在 Google 内部引发了争议,因为这会影响 Google 最赚钱的搜索广告系统(因为有了 AI,用户会直接得到最有效的信息);所以,他于 2022 年 1 月份辞职,创办了自己的公司:Inflection.ai。

4. 产品简介

Pi 是目前 Inflection.ai 推出的第一款聊天机器人,相比于 ChatGPT 冷冰冰的文字输出,Pi 能够与你产生更强的链接,与你产生更多的对话,真正了解你的需求之后,再用“更像人话”的语气告诉你答案——是一个真正懂你、具有同理心的 AI 伴侣。

5. 发展进程

  • Inflection.ai 创立于 2022 年 3月;
  • 2023 年 5 月,推出 AI 对话机器人 Pi,同期拿到 2.25 亿美元种子轮融资;
  • 2023 年 6 月:拿到微软领投的 13 亿美元融资,Reid Hoffman、比尔·盖茨、Google 前 CEO Eric Schmidt 以及英伟达跟投;
  • 2023 年 11 月,推出第二代大模型 Inflection-2。

01. 什么是 Pi

主打 Personal AI 的 Inflection,11 月 22 日将自己的大模型又进行了升级,推出了具有 1750 亿参数的 Inflection-2;并且宣布,会在之后的几个月内,将最新的模型应用于自己的聊天机器人:Pi。

Pi 是 Inflection.ai 推出的第一款聊天机器人,与 ChatGPT 不同的是,Pi 并没有强调自己能够帮助人们在生产力方面提升多高的效率,而是突出它的陪伴属性,就像一位真正的老朋友,Pi 会始终保持同理心,站在用户的角度的思考问题,并且照顾用户的情绪。

如果 GPT 是一个“高 IQ”的工具人,那么,“Pi”则可以看作是一个“高 EQ”的伴侣——当你迷茫的时候,它可以是你的 Life Coach;当你伤心的时候,它可以给你一些安慰…

官网对 Pi 特点的描述

目前,Pi 提供多个终端的使用,不仅有网站与 iOS app,还支持在 Ins、Fb、Whatapp 直接使用,甚至你还可以直接通过手机号,与其进行短信对话——这非常符合 Inflection.ai 的定位,毕竟,真正的 AI 伴侣,就是应该随时陪伴你的身边。

此外,在具体上使用上,除了进行打字交流之外,Pi 还提供了 6 种不同的音色,方便用户与其进行直接对话。

Pi 于 2023 年 5 月上线,4 个月后,Pi 已经突破了 10 亿次对话,且目前网站月均 PV 已达到 300 多万次。(数据来源:similarweb)

02. Pi VS ChatGPT

作为定位为 AI 伴侣的 Pi,其逻辑与数学能力,可能并不如 GPT,但是,对于长文本的理解、以及体现出的人性与温暖,远远胜过 GPT。

首先,Pi 会表达出对用户很强的认同感,并且对话状态让你感觉是真的在与它“聊天”,而绝非使用 GPT 时那种带有强目的性地“答案搜寻”。

提问:**今天和我的男朋友分手了,有什么办法可以挽回?**对比 Pi 与 ChatGPT 的回答,可以明显地看到,左图中的 Pi,更像一个真实的人在与你谈话,而右图中的 GPT,则像一个“理科男”——客观冷静地分点列出了不同的解决方案。如果 Pi 是 ENFP,ChatGPT 就是 INTJ。

Pi 与 ChatGPT 的不同回答

其次,与 ChatGPT 不同,Pi 并不急于给出答案,而会联系上下文,向你提出更多的问题,为的只是更加了解用户,然后给出最合适的答案——这也是 Inflection 所说的“同理心”,也体现出了 Inflection 模型突出的长对话能力。

为了说明这一点,我们进行了一个测试,对这两个机器人提问 2 个连续问题:

1. 你知道 Notion 吗?它是什么?

2. 我遇到了一些问题。

可以看到,Pi 的回答是循序渐进的,当我提出第 2 个问题之后,Pi 还能够根据前文,继续提问“你在用 Notion 的时候遇到了什么问题?”;

而反观 ChatGPT,再对第一个问题进行长篇幅的说明之后,第二个问题并没有联系上下文,而是刷新了“记忆”,重新开始与用户的对话。

Pi 与 ChatGPT 的不同回答

03. 关于 Inflection 2

Pi 刚推出的时候,用的是 Inflection-1 模型;就在 11 月 22 日,Inflection-2 模型推出,这个拥有 1750 亿参数的模型,在各项大模型评估中,分数仅略低于 GPT-4,成为了顾名思义的全球第二大模型。

与 Inflection-1 相比,Inflection-2 具有更丰富的知识,更强的操控性以及更高的逻辑推理能力,以下这张图,表明了 Inflection-2 在多种模型评估中,都远胜于 Inflection-1,并且和谷歌的 PaLM2 站到了同一水平线;此外,在多种 AI 性能评估标准中(比如 MMLU、TriviaQA、HellaSwag 和 GSM8k),Inflection-2 都略好于后者。

Inflection-1、Inflection-2 与 PaLM 性能评估

Inflection-2 是在 5,000 个英伟达 H100 GPU 训练而成,尽管训练规模比 Inflection-1 大不少,但是得益于英伟达的帮助,Inflection 完成了从 A100 到 H100 的过度,因此,Inflection-2 可以在更低成本的基础上,提供更高的服务效率。

所以,对于 Pi 的更新来说,这是里程碑的一步;然而,这仅仅只是一个开始,Inflection 有着全球第一大的 GPU 集群(22000 张 H100),所以,Personal AI 的发展进展,可能会比大多数人想象中快不少。

接下来,我们来具体看看,Inflection-2 在各项模型评估中的表现。

首先,在 MMLU (5-shot) 上评估上,设置了从高中到专业水平的多种任务,Inflection-2 是除了 GPT-4 之外表现最佳的模型,甚至超过了具有因果链推理能力的 Claude 2。

各模型在 MMLU (5-shot) 上的表现

其次,在常识与科学问题的回答上,Inflection-2 也取得了超过 Inflection-1、PaLM-2(Google)、LLaMA(Meta)的分数,表现非常优异。

各模型在常识、科学问题回答上的得分

此外,在理解自然语言、提供准确信息和处理复杂查询方面的能力方面,相对于其他的模型,Inflection-2 同样也取得了不错的成绩,仅仅是在 Natural Questions(1)上表现略低于 PaLM2-Large。

各模型在 NaturalQuestions、Trivia QA 上的得分

最后,是对模型在数学以及逻辑推理能力上的评估,作为定位是服务于高 EQ 聊天机器人的模型,这方面的能力并不是其训练时的重点;但是通过下列图片,你依然能够看到,Inflection-2 在数学以及逻辑上的能力,仅次于 GPT-4。

所以,综合几项评测看下来,Inflection-2 已经是非常强大的 LLM;相比于自己的上一代模型,在各项评分上都取得了不少的增长;主要可能也是得益于英伟达的合作,在硬件上为模型训练提供了巨大的帮助。

不过,Inflection 本身的商业模式也是非常值得看好的,不仅有自己的基础大模型,可以进行 ToB 销售(并且现在也提供 API),而且也有自己的 ToC 产品 Pi(与之形成对比的,则是集成 GPT 服务的个人助理 rewind.ai)。

所以,这也是它能在融资额上(总共 15 亿美元),成为仅次于 OpenAI 第二大公司的原因所在。

此外,Inflection 与 OpenAI 也可能代表着 2 种不同的模型使用趋势,对于前者而言,每个人仅需要 1 个 AI 机器人足矣,不仅能提供情感陪伴,也能够提高日常生产力;而后者,代表的是则是,人们可能在不同的场景,都需要一个细分方向的 AI,比如 AI 医生,AI 律师,写作 AI 助手等——这也是为什么微软会分别重金押注这 2 家公司的原因之一。

04. 彩蛋:关于 Mustafa Suleyman

最后,带来一个小彩蛋,关于 CEO Suleyman 的传奇之处,以及 Inflection 这家公司是如何创立的。

Suleyman,生于 1984 年,自幼受到母亲护士身份的影响,从小目睹各种“人间疾苦”;而他的叙利亚父亲是一名出租车司机,同时也是一位热心的社区活动参与者——这样的成长背景,为 Suleyman 的人文主义观念奠定了基础。

后来,他在牛津大学学习哲学,但当时为了帮助在 911 后的穆斯林青少年,他从牛津辍学——不过,他自己也亲口承认,正是在牛津这段经历中,他对科技与人文主义的态度开始逐渐形成。

2010 年,Suleyman 与 Demis Hassabis、ShaneLegg 一起创办了 DeepMind,随后在 2014 年被谷歌以 6.5 亿美金收购;随后在 2016 年,Suleyman 在英国皇家医学学会启动了 DeepMind Health 项目,为了提高国民医疗服务的效率以及提高一线医疗保健的质量。

后来,Suleyman 成为了 DeepMind 应用 AI 的负责人,其工作职责是将机器学习技术应用到谷歌产品和流程等广泛场景,到 2019 年,他的团队在谷歌大约启动了 50 个 AI 项目,并且将 AI 应用于谷歌数据中心,让其冷却成本降低了 30%。

2020 年,Suleyman 看到了“对话式”人机交互的趋势,并加入了谷歌的自然语言研究团队,开始研究早期版本的 LaMDA 模型,当时他的主要贡献,就是提供了一种能让 AI 尽量“基于事实”,而非“幻觉”给出回答的方法,这也是后来 Inflection 最看重的模型能力。

随后,LaMDA 引起了谷歌高管的注意,但是由于与当前谷歌商业模式产生冲突(用户可绕过搜索广告直接得到 AI 给出的最佳答案)以及对反垄断法律的担忧(绕过搜索中呈现的第三方创作者,仅由谷歌为用户直接提供答案),Suleyman 的个人愿景并没有得到持续的重视——所以,他选择辞职,创办了现在的 Inflection AI,一个“对话式的”,充满“人文主义”色彩的,具有同理心的 AI 伴侣。

参考材料

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento