Guerra das Centenas de Modelos de IA: Competição Liderada por Engenheiros e Desafios de Comercialização

A "Batalha dos Cem Modelos" no Campo da IA: uma competição baseada em engenharia

No mês passado, houve uma "luta animal" na indústria de IA.

De um lado está o modelo Llama (lama) lançado pela Meta, que é muito apreciado pelos desenvolvedores devido à sua natureza open source. A empresa japonesa NEC, após estudar o artigo e o código do Llama, desenvolveu rapidamente uma versão em japonês do ChatGPT, resolvendo o gargalo da tecnologia de IA no Japão.

O outro lado é um grande modelo chamado Falcon. Em maio deste ano, o Falcon-40B foi lançado, superando o Llama e alcançando o primeiro lugar no ranking de LLMs de código aberto.

Este ranking é produzido pela comunidade de modelos de código aberto e fornece um padrão para avaliar a capacidade de LLM. O ranking alterna basicamente entre Llama e Falcon.

Após o lançamento do Llama 2, ele ficou temporariamente à frente, mas no início de setembro, o Falcon lançou a versão 180B e recuperou a primeira posição.

Curiosamente, os desenvolvedores do Falcon não são uma empresa de tecnologia, mas sim um instituto de pesquisa tecnológica na capital dos Emirados Árabes Unidos. Funcionários do governo afirmaram que estão participando desta competição para quebrar o domínio dos líderes.

No dia seguinte ao lançamento da versão 180B, o Ministro da IA dos Emirados Árabes Unidos foi incluído na lista das "100 Pessoas Mais Influentes na Área da IA" da "TIME", ao lado do "pai da IA" Hinton e de Altman da OpenAI.

Hoje, o campo da IA entrou numa fase de grande diversidade. Países e empresas com recursos financeiros estão a tentar criar versões locais do ChatGPT. Na região do Golfo, a Arábia Saudita acabou de comprar mais de 3000 chips H100 para treinamento de LLM para universidades locais.

Houve investidores que se queixaram: na época, desprezavam a inovação dos modelos de negócios da Internet, achando que não havia barreiras. Não esperavam que o empreendedorismo em modelos grandes de tecnologia dura ainda fosse uma batalha de centenas de modelos.

Como é que a chamada tecnologia difícil se transformou numa competição em que todos podem participar?

O algoritmo Transformer mudou as regras do jogo

As start-ups dos EUA, gigantes tecnológicos chineses e magnatas do petróleo do Oriente Médio podem se dedicar ao desenvolvimento de grandes modelos, tudo graças ao famoso artigo "Attention Is All You Need".

Em 2017, oito cientistas do Google tornaram pública a fórmula Transformer neste artigo. Este é o terceiro artigo mais citado na história da IA, e a aparição do Transformer desencadeou esta onda atual de entusiasmo pela IA.

Atualmente, vários grandes modelos, incluindo a série GPT que causou sensação, são construídos sobre a base do Transformer.

Anteriormente, "ensinar máquinas a ler" era um desafio acadêmico reconhecido. Diferente do reconhecimento de imagem, ao ler, os humanos não apenas se concentram nas palavras e frases atuais, mas também combinam o contexto para entender. As redes neurais precoces tinham dificuldade em lidar com textos longos, não conseguindo compreender o contexto.

Em 2014, o cientista da Google, Ilya, fez um avanço pela primeira vez. Ele usou redes neurais recorrentes (RNN) para processar linguagem natural, melhorando significativamente o desempenho do Google Tradutor. O RNN introduziu o "design recorrente", permitindo que a rede neural tivesse a capacidade de compreender o contexto.

A chegada das RNNs gerou um intenso debate na comunidade acadêmica, e o autor do Transformer, Ashish Vaswani, também realizou pesquisas aprofundadas sobre o assunto. No entanto, os desenvolvedores rapidamente descobriram que as RNNs apresentam sérias deficiências: a eficiência do cálculo sequencial é baixa e é difícil lidar com um grande número de parâmetros.

A partir de 2015, Shazel e outros começaram a desenvolver alternativas ao RNN, e o resultado final foi o Transformer. Em comparação com o RNN, o Transformer apresenta duas grandes transformações:

Uma é substituir o design em loop por codificação de posição, permitindo o cálculo paralelo, aumentando significativamente a eficiência do treinamento, levando a IA à era dos grandes modelos.

Em segundo lugar, melhorou ainda mais a capacidade de compreender o contexto.

O Transformer resolveu de forma decisiva várias questões técnicas, tornando-se gradualmente a solução dominante na área de NLP. Até o fundador das RNN, Ilya, se juntou ao campo do Transformer.

Pode-se dizer que o Transformer é a base de todos os grandes modelos atuais, transformando a pesquisa teórica em um problema de engenharia.

Em 2019, o GPT-2 da OpenAI, desenvolvido com base no Transformer, causou alvoroço na comunidade acadêmica. O Google imediatamente lançou o Meena, que superou o GPT-2 apenas aumentando os parâmetros de treinamento e a capacidade computacional. O autor do Transformer, Ashish Vaswani, ficou profundamente chocado e escreveu um memorando intitulado "Meena devora o mundo".

O surgimento do Transformer fez com que a velocidade de inovação dos algoritmos de base na academia diminuísse. Elementos de engenharia como engenharia de dados, escala de poder computacional e arquitetura de modelos tornaram-se gradualmente cruciais nas competições de IA. Qualquer empresa de tecnologia com uma certa capacidade técnica pode desenvolver grandes modelos.

O cientista da computação Andrew Ng destacou em uma palestra na Universidade de Stanford: "A IA é um conjunto de ferramentas, incluindo aprendizado supervisionado, aprendizado não supervisionado, aprendizado por reforço e agora a inteligência artificial generativa. Todas essas são tecnologias gerais, semelhantes a outras tecnologias gerais como eletricidade e internet."

A OpenAI continua a ser a líder em LLM, mas as instituições de análise de semicondutores acreditam que a vantagem do GPT-4 se deve principalmente a soluções de engenharia. Se for open source, os concorrentes poderão copiar rapidamente. O analista prevê que outras grandes empresas de tecnologia poderão em breve desenvolver modelos grandes com desempenho semelhante ao do GPT-4.

A barreira frágil

Atualmente, a "Batalha dos Cem Modelos" tornou-se uma realidade objetiva.

O relatório mostra que, até julho deste ano, o número de grandes modelos na China já alcançou 130, superando os 114 dos Estados Unidos. Várias lendas mitológicas já não são suficientes para as empresas de tecnologia do país nomearem seus produtos.

Além da China e dos EUA, outros países ricos também realizaram preliminarmente o "um país, um modelo": o Japão e os Emirados Árabes Unidos já têm seus próprios modelos, o governo da Índia liderou o desenvolvimento do Bhashini, e a empresa de internet sul-coreana Naver lançou o HyperClova X, entre outros.

Esta cena parece ter voltado aos primórdios da internet, a era em que vários capitais queimavam dinheiro para conquistar território.

Como mencionado anteriormente, o Transformer tornou o desenvolvimento de grandes modelos um problema puramente de engenharia; desde que haja pessoas com dinheiro e poder de computação, é possível desenvolvê-los. No entanto, embora a barreira de entrada seja baixa, isso não significa que todos possam se tornar gigantes na era da IA.

O "conflito animal" mencionado no início é um exemplo típico: embora o Falcon esteja temporariamente à frente, é difícil dizer qual o impacto que teve na Meta.

As empresas abrem o seu próprio成果, não só para partilhar os benefícios da tecnologia, mas também para mobilizar a sabedoria social. À medida que diversos setores continuam a utilizar e a melhorar o Llama, a Meta pode aplicar esses resultados nos seus próprios produtos.

Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a principal vantagem competitiva.

A Meta estabeleceu uma rota de código aberto já em 2015, quando fundou seu laboratório de IA. Zuckerberg entende bem o caminho de "manter boas relações com o público".

Em outubro, a Meta organizou especificamente o evento "Incentivo para Criadores em IA": desenvolvedores que usarem o Llama 2 para resolver problemas sociais terão a oportunidade de receber um financiamento de 500 mil dólares.

Hoje, a série Llama da Meta tornou-se um marco para LLMs de código aberto.

Até o início de outubro, 8 dos 10 principais modelos de linguagem de código aberto em um ranking estavam baseados no Llama 2. Apenas nesta plataforma, existem mais de 1500 LLMs que utilizam a licença de código aberto Llama 2.

Melhorar o desempenho é, sem dúvida, importante, mas atualmente a maioria dos LLM ainda apresenta uma diferença clara em relação ao GPT-4.

Por exemplo, recentemente o GPT-4 alcançou a primeira posição na tabela de testes AgentBench com uma pontuação de 4,41. O AgentBench foi lançado em conjunto por várias universidades para avaliar a capacidade de raciocínio e decisão dos LLM em ambientes abertos multidimensionais.

Os resultados dos testes mostram que o segundo colocado, Claude, teve apenas 2,77 pontos, com uma diferença clara. Aqueles LLMs de código aberto tão grandiosos, geralmente ficam em torno de 1 ponto, ainda menos de 1/4 do GPT-4.

É importante saber que o GPT-4 foi lançado em março deste ano, e isso é o resultado de mais de seis meses de concorrência global. A causa dessa diferença é a equipe de cientistas de alto nível da OpenAI e a experiência acumulada ao longo de muitos anos em pesquisa de LLM.

Ou seja, a capacidade central de um grande modelo não são os parâmetros, mas sim a construção de ecossistemas ( código aberto ) ou capacidade de inferência pura ( código fechado ).

Com a crescente atividade da comunidade de código aberto, o desempenho de cada LLM pode convergir, uma vez que todos utilizam arquiteturas de modelos e conjuntos de dados semelhantes.

Outro problema mais intuitivo é: além do Midjourney, parece que nenhum outro grande modelo conseguiu ser lucrativo.

Ponto de Âncora do Valor

Em agosto deste ano, um artigo intitulado "A OpenAI pode falir até ao final de 2024" chamou a atenção. A essência do artigo é: a OpenAI está queimando dinheiro demasiado rápido.

O texto menciona que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI aumentaram rapidamente, com uma perda de cerca de 540 milhões de dólares em 2022, e só podem esperar pelo investimento da Microsoft.

O título do artigo pode ser exagerado, mas reflete a situação atual dos provedores de modelos grandes: um grave desequilíbrio entre custos e receitas.

Os altos custos significam que atualmente apenas a Nvidia está a ganhar muito dinheiro com IA, talvez acrescentando a Broadcom.

Segundo estimativas de consultorias, a NVIDIA vendeu mais de 300 mil chips H100 no segundo trimestre deste ano. Este é um chip de IA altamente eficiente, que as empresas de tecnologia e instituições de pesquisa em todo o mundo estão a adquirir. Se empilharmos esses H100, o peso equivale a 4,5 aviões Boeing 747.

Os resultados da Nvidia dispararam, com um crescimento da receita de 854% em comparação anual, surpreendendo Wall Street. Atualmente, o H100 está sendo negociado no mercado de segunda mão por 40.000 a 50.000 dólares, enquanto seu custo é de apenas cerca de 3.000 dólares.

Os altos custos de poder computacional tornaram-se um obstáculo ao desenvolvimento da indústria. Algumas instituições estimam que as empresas de tecnologia em todo o mundo gastarão anualmente 200 bilhões de dólares em infraestrutura de modelos grandes, enquanto esses modelos geram no máximo 75 bilhões de dólares em receita por ano, resultando em um déficit de pelo menos 125 bilhões de dólares.

Além disso, à exceção de algumas poucas, a maioria das empresas de software ainda não encontrou um modelo de lucro após enormes investimentos. Mesmo os líderes de mercado Microsoft e Adobe não têm tido um caminho muito fácil.

A ferramenta de geração de código AI GitHub Copilot, desenvolvida pela Microsoft em colaboração com a OpenAI, custa 10 dólares por mês, mas devido aos custos de infraestrutura, a Microsoft acaba perdendo 20 dólares por mês, e usuários intensivos podem fazer a Microsoft perder até 80 dólares. Assim, pode-se inferir que o Microsoft 365 Copilot, com um preço de 30 dólares, pode estar a resultar em prejuízos ainda maiores.

Da mesma forma, a Adobe, que recentemente lançou a ferramenta Firefly AI, rapidamente introduziu um sistema de pontos para evitar que os usuários abusassem do serviço, o que poderia levar a perdas para a empresa. Quando os usuários ultrapassam os pontos mensais, a Adobe reduz a velocidade do serviço.

É importante saber que a Microsoft e a Adobe já são gigantes de software com negócios claros e uma vasta base de usuários pagantes. E a maioria dos grandes modelos de parâmetros ainda tem como principal cenário de aplicação o chat.

É inegável que, sem a OpenAI e o ChatGPT, esta revolução da IA pode não ter ocorrido. Mas, atualmente, o valor trazido pelo treinamento de grandes modelos ainda é discutível.

Além disso, com o aumento da concorrência homogeneizada e o número crescente de modelos de código aberto, os fornecedores de grandes modelos podem enfrentar uma pressão maior.

O sucesso do iPhone 4 não se deve ao processador A4 de 45nm, mas sim ao fato de poder jogar Plantas vs. Zumbis e Angry Birds.

GPT15.63%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 4
  • Repostar
  • Compartilhar
Comentário
0/400
PonziDetectorvip
· 8h atrás
Esses modelos não fazem sentido na disputa pelo primeiro lugar. O que realmente importa é o que traz lucro.
Ver originalResponder0
FreeRidervip
· 8h atrás
Desgastar-se tanto assim, quem perde ou ganha não importa, o importante é a luta.
Ver originalResponder0
MoonMathMagicvip
· 8h atrás
Bateu, bateu, quem ganhar é o pai
Ver originalResponder0
HashRatePhilosophervip
· 9h atrás
Para brincar com a IA, é preciso ver quem tem mais poder de computação.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)