Notícia: Nvidia lança "novo chip de raciocínio" na GTC do próximo mês, incorporando o design Groq LPU

robot
Geração de resumo em curso

A NVIDIA planeia lançar um novo chip de inferência que integra a tecnologia “language processing unit” (LPU) da Groq na conferência de programadores GTC do próximo mês, representando que a NVIDIA está a acelerar a sua transformação para o campo da computação de inferência para responder às necessidades urgentes dos clientes por soluções de computação de alto desempenho e baixo custo.

Segundo o Wall Street Journal, o novo sistema, que o CEO da Nvidia, Jensen Huang, chamou de “que o mundo nunca viu antes”, foi concebido para acelerar a resposta às consultas dos modelos de IA. Espera-se que o lançamento deste produto remodele o atual panorama do mercado de poder computacional de IA, impactando diretamente os fornecedores de serviços cloud e investidores a nível empresarial que procuram alternativas mais económicas.

Como um sinal importante do reconhecimento inicial da tecnologia no mercado, o desenvolvedor do ChatGPT, OpenAI, aceitou tornar-se um dos maiores clientes do novo processador e anunciou que irá adquirir “capacidade dedicada de inferência” em grande escala à Nvidia. Esta medida não só estabiliza o mercado principal de clientes da Nvidia, como também envia um sinal claro ao mercado:A infraestrutura subjacente que suporta agentes autónomos de IA está a passar de pré-treino em grande escala para inferência eficiente.

Perante uma forte concorrência da Google, Amazon e muitas startups, a Nvidia está a ultrapassar a dependência única das unidades tradicionais de processamento gráfico (GPUs). Ao introduzir novas arquiteturas técnicas e explorar modelos de implementação puramente centrais de unidades de processamento (CPU), a empresa procura continuar a consolidar o seu domínio de mercado na próxima fase da evolução da indústria da IA.

Integrar o design das LPUs para atingir diretamente o gargalo da inferência de grandes modelos

À medida que a indústria da IA passa do treino de modelos para a implementação de aplicações no mundo real, a computação de inferência tornou-se o foco central. A inferência de IA está principalmente dividida em duas fases: pré-preenchimento e decodificação, sendo o processo de decodificação de grandes modelos de IA particularmente lento. Em resposta a este gargalo técnico, a NVIDIA optou por ultrapassar os limites físicos através da integração tecnológica externa.

Segundo o Wall Street Journal, a Nvidia gastou 20 mil milhões de dólares para licenciar tecnologias-chave da startup Groq no final do ano passado e trouxe uma equipa de executivos, incluindo o fundador Jonathan Ross, num grande acordo de “contratação central”.A “unidade de processamento de linguagem” (LPU) do Groq utiliza uma arquitetura completamente diferente das GPUs tradicionais e demonstra grande eficiência ao processar funções de inferência.

Os analistas da indústria acreditam**, os novos produtos futuros podem envolver a próxima geração disruptiva da arquitetura Feynman.**Segundo um artigo anterior da Wall Street News, a arquitetura Feynman pode adotar um esquema de integração SRAM mais amplo, ou até integrar profundamente LPUs através de tecnologia de empilhamento 3D, otimizando especificamente para os dois principais estrangulamentos de inferência: latência e largura de banda da memória, reduzindo assim significativamente o consumo de energia e o custo da operação de agentes de IA.

Expandir implementações apenas para CPU e oferecer opções de computação diversificadas

Ao introduzir a arquitetura LPU, a Nvidia está também a ajustar de forma flexível o uso dos seus processadores tradicionais. A prática padrão da Nvidia no passado era agrupar CPUs Vera com as suas potentes GPUs Rubin em servidores de data center, mas esta configuração revelou-se proibitivamente dispendiosa e inadequada ao lidar com certas cargas de trabalho de agentes de IA.

Alguns grandes clientes empresariais consideram que os ambientes apenas com CPU são mais eficientes ao executar tarefas específicas de IA. Em resposta a esta tendência, a Nvidia anunciou este mês que expandiu a sua cooperação com a Meta Platforms para a primeira implementação em grande escala apenas com CPU, para suportar os agentes de IA segmentados por anúncios da Meta. Esta cooperação é vista pelo mercado como uma janela inicial para o ajuste estratégico da Nvidia.Isto mostra que a empresa está a ultrapassar um modelo de vendas de GPU único e a tentar atingir diferentes segmentos do mercado de IA através de um portefólio diversificado de hardware.

A procura do mercado muda e a situação competitiva continua a escalar

Esta evolução do design de hardware subjacente resulta diretamente da explosão da procura por aplicações de agentes de IA na indústria tecnológica.Muitas empresas que desenvolvem e operam agentes de IA consideram que as GPUs tradicionais são demasiado caras e não a melhor escolha para executar modelos na prática.

Os movimentos da OpenAI evidenciam esta tendência.**Para além de se comprometer a adquirir os novos sistemas da Nvidia para melhorar as suas ferramentas Codex em rápido crescimento, a OpenAI também estabeleceu no mês passado uma parceria de computação de vários milhares de milhões de dólares com a startup Cerebras.**Segundo o CEO da Cerebras, Andrew Feldman, os seus chips focados em inferência superam as GPUs da Nvidia em velocidade. Além disso, a OpenAI assinou um acordo importante para utilizar chips Amazon Trainium.

**Não só as startups, mas também os principais fornecedores de serviços cloud estão a acelerar o ritmo dos chips auto-desenvolvidos.**A Anthropic Claude Code, amplamente considerada líder de mercado em codificação automática, baseia-se atualmente principalmente em chips concebidos pela Amazon AWS e pela Google Cloud da Alphabet, em vez dos produtos da Nvidia. Perante o cerco e repressão dos concorrentes, Huang enfatizou numa entrevista à wccftech que a Nvidia está a transformar-se de um simples fornecedor de chips para um construtor completo de ecossistemas de IA, abrangendo semicondutores, centros de dados, clouds e aplicações. Para os investidores, a conferência GTC do próximo mês será um nó chave para testar se a Nvidia consegue manter o seu mito dos 90% de quota de mercado na era do raciocínio.

Aviso de risco e aviso legal

        O mercado é arriscado e o investimento precisa de ser cauteloso. Este artigo não constitui aconselhamento pessoal de investimento e não tem em conta os objetivos de investimento específicos, a situação financeira ou as necessidades dos utilizadores individuais. Os utilizadores devem considerar se quaisquer opiniões, opiniões ou conclusões contidas neste artigo são consistentes com as suas circunstâncias específicas. Invista em conformidade, por sua conta e risco.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)