GPT可以翻译文本、总结数据并创建适合于营销等各种目的的内容。
Meta的Megabyte旨在克服其他GPT系统(如OpenAi的GPT-4和ChatGPT)面临的障碍。
Megabyte与其他GPT模型不同,因为它不使用标记化。
Megabyte模型包括本地变压器、补丁嵌入器和全局变压器。
技术创新已经彻底改变了人类互动和执行各种任务的方式,包括个人或商业任务。人工智能,也称为机器学习,能够执行写作或制定财务计划等不同活动。本文讨论了生成式预训练变换器(GPT)在自然语言处理中的重要性及其应用。我们还将重点介绍Meta的兆字节系统,该系统克服了GPT的几个障碍。
生成式预训练变压器(GPT)在经济的各个领域都有许多好处,因为它们提高了生产率并增强了社会意识。首先,重要的是要知道,GPT能够在各种主题上生成类似人类的文本。
GPTs使用各种参数处理数据并以易于理解的方式呈现。有各种应用程序使用GPTs为人类和社会创造价值。
从一个语言翻译信息到另一个语言,GPT是人工智能驱动应用的重要组成部分,它们还能够将大量数据生成和总结为易于理解的信息。在某些情况下,GPT还能生成适用于不同目的的内容,如诗歌、博客文章、学术论文、营销材料和表情包等。
企业也可以使用GPT来驱动聊天机器人和虚拟助手,这些机器人和助手可以以对话的方式与真实人员进行交互,帮助他们理解不同的商业或社会方面。就业务目的而言,它们可以对任何主题或兴趣领域生成情感分析。例如,有一些人工智能驱动的协议可以生成加密市场情绪,从而让交易员和其他投资者做出明智的投资决策。
GPT 在自然语言过程和人工智能应用中的其他用例包括营销产品的内容创建、客户服务、财务信息分析以及数据提取和报告等。
虽然有各种各样的 GPT的类型 由ChatGPT和Openai等不同平台创建,其中大多数都有严重的限制。
目前最好的生成式人工智能模型 包括OpenAI的GPT-4和ChatGPT 使用了由谷歌研究人员引入的Transformer架构。自注意力的增加会使输入和输出的长度增加,从而每个单词都需要关注,这就产生了挑战。基本上,当输入的单词很少时,这个系统运行良好。
然而,Megabyte方法使用不同的架构,将输入和输出的序列划分为补丁,而不是令牌。因此,它可以处理比当前模型更多的单词。
此外,Meta的方法解决了市场上大多数模型普遍存在的可扩展性问题。基本上,Megabyte模型使得单个前馈网络能够对由多个令牌组成的补丁进行操作。因此,Meta的Megabyte系统可以并行执行而不是串行执行。即使基础模型具有许多参数,这也增加了其效率。
阅读也: Meta元宇宙:公司正在做什么?
一些模型,如深度神经网络,很难理解和解释,这可能会降低信任、问责和引起伦理关切。因此,需要更简单的模型,如 Meta Ai,易于解释。这是因为大多数用户希望了解系统的工作原理,以便对其产生信任。
另一个问题是,一些模型需要大量数据来进行验证和训练。然而,这样的数据可能无法获取,从而降低了它们的效率。此外,与隐私、偏见、噪音、安全以及数据不完整性相关的问题都会对大多数 GPT 模型的稳健性和性能产生负面影响。
大多数传统的人工智能模型在进行计算时既昂贵又消耗大量能量。这是因为大部分系统都是计算密集型的。因此,它们消耗大量资源并增加环境成本。
此外,由于标准化的差异,大多数这些模型的互操作性较低。因此,它们很难集成,因为它们使用不同的语言、框架和格式。然而,像ONNX或通用编译器这样的开放格式可以增强它们之间的通信。
重要的是要认识到,Meta AI 的架构是以克服大多数这些问题的方式创建的。
Meta AI已经开发了一个新的 称为Megabyte的GPT系统 其目的是绕过大多数GPT模型使用的标记化。其生成式预训练变压器(GPT)系统可以处理大量的数据,如视频和小说,而无需使用标记化。
作为一种点,令牌化的功能与通过将大量数据转换为令牌进行文件压缩类似。转换器处理令牌以创建输出令牌,系统对其进行解码。
通常,标记化使 AI 模型能够将大型数据字符串转换为数字。 例如,系统可以将“我最喜欢的颜色是红色”等短语转换为令牌字符串,例如 3666、4004、3124、318、2266、13“,然后进行处理。
然而,通过这种方法处理的数据量是有限的。例如,GPT-3.5 的限制在3,000到4,000字之间,而GPT-4 的限制在24,000到32,000字之间。
相比之下, 元数据 已经放弃了令牌化,转而采用基于端到端建模的新的多层预测架构,该架构依赖于超过一百万字节的数据。考虑到它可以处理由多达750,000个词组成的文档,这是一个很大的成就。这意味着Megabyte系统可以处理三本中等大小的小说中包含的数据。
正如所指出的,兆字节克服了由于其硬数据限制而产生的令牌化的障碍,需要大量时间来训练系统和高能耗。此外,没有令牌化,就有可能训练支持非英语语言的人工智能模型,这些语言可以用标准的8位字符进行编码,例如。
Meta的人工智能加密AI将扩大现有的机会,进一步使各种区块链技术民主化。例如,开发人员可以用俄语或法语等本地语言引入加密货币交易机器人。更重要的是,去中心化自治组织(DAO)也可以用本地语言编写其协议。
Megabyte,多尺度解码器架构,可以对超过100万字节的序列进行建模,同时保持端到端可微分性。它使用多尺度转换器,将不同层次纳入其架构,从而对数据中的全局和局部模式进行建模。
基本上,Megabyte模型包括三个组件,即本地模块、补丁嵌入器和全局模块(全局变换器)。本地模块,也称为本地变换器,预测每个补丁中的字节,而嵌入器则负责通过组合字节嵌入来对补丁进行编码。最后,全局模块,也称为全局变换器,输入和输出各种补丁表示。
下图显示了兆字节的概述。
上图显示了Megabyte的一些关键组件。最近的实验表明,Megabyte模型可以比Transformer模型快40%。但必须注意的是,在实验中使用的Megabyte模型具有15亿个参数,而Transformer只有3.5亿个参数。
总的来说,Megabyte相对传统的变压器有几个优点。例如,它减少了自我签名的计算成本,使得处理长序列成为可能。
其次,它使用每个路径的前馈层而不是每个位置的前馈层,从而有效利用计算资源。
此外,它增强了处理期间的更大并行性,从而实现更快的序列生成,同时保持高性能。
Megabyte架构改善了可扩展性,减少了资源消耗,并实现了与各种基于GPT的应用程序的平稳通信。通过将长序列分成两个较短的序列,最小化了自注意力成本,从而实现了其中一些好处。此外,参数共享和压缩算法最小化了GPT的资源需求。
Meta 的 Megabyte 使用生成式预训练的 Transformer 系统处理大量数据,而不使用分词。它采用多层预测架构,从而降低成本,提高速度,提高效率,增加可扩展性和互操作性。