Por que a procura por SRAM de repente explodiu? Veja esta operação e entenderá.



Recentemente, uma grande fabricante de chips de IA revelou posições numa grande empresa de tecnologia e, pouco depois, anunciou a aquisição de uma startup de inovação em chips. Essa sorte ou força, ao analisar com atenção, revela a resposta.

Qual é a vantagem central desta empresa? Ao contrário dos GPUs tradicionais que dependem de memória externa de alta largura de banda (HBM), seus processadores LPU utilizam uma abordagem de design com memória estática de acesso aleatório (SRAM) integrada no chip. Esses 230MB de SRAM no chip podem fornecer até 80TB/s de largura de banda de memória — o que isso significa? A velocidade de processamento de dados supera de longe os métodos tradicionais de GPU.

Como é o desempenho real? Seus serviços em nuvem são famosos pela velocidade de inferência impressionante. Ao rodar grandes modelos de código aberto como Mixtral e Llama 2, eles podem gerar cerca de 500 tokens por segundo, uma resposta muito mais rápida do que os serviços tradicionais. Além disso, o preço é competitivo, cobrando por milhão de tokens, o que é bastante acessível.

Por que isso é tão importante agora? Porque o setor de IA está passando por uma mudança crucial — a demanda por inferência está prestes a superar completamente a necessidade de treinamento. Nesse contexto, a inovação na arquitetura LPU oferece uma infraestrutura de inferência eficiente, de baixo custo e realmente escalável, que é o que o mercado realmente precisa. Um responsável por uma fabricante de chips afirmou claramente que planeja integrar esses processadores de baixa latência na sua arquitetura de IA, com o objetivo de atender a uma gama mais ampla de inferências de IA e cargas de trabalho em tempo real.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 5
  • Republicar
  • Partilhar
Comentar
0/400
CodeSmellHuntervip
· 12h atrás
80TB/s de largura de banda? Este número realmente arrasa com as GPUs É interessante, a ideia de integrar SRAM no chip realmente é impressionante A inferência vai explodir, parece que a guerra dos chips está realmente a começar Apostar que esta onda de LPU pode sustentar a grande bandeira da inferência
Ver originalResponder0
MEVvictimvip
· 12-26 11:52
80TB/s esta cifra assim que saiu, soube imediatamente quem ganhou, o modo de operação HBM vai ser eliminado O custo de inferência tão competitivo, estou confiante nesta onda Mais uma história de "comprei antecipadamente", a sorte ou a habilidade, avalie você mesmo Integrar SRAM é uma jogada genial, atacar a solução tradicional de forma direta e de nível inferior 500 tokens por segundo eu acredito, mas quero mesmo é ver quanto tempo essa coisa consegue rodar em um ambiente de produção real É por isso que tenho acompanhado de perto a direção do armazenamento em chip, já percebi essa mudança há algum tempo O rei da competição lançou uma nova jogada, vamos ver até onde os custos podem ser reduzidos A arquitetura LPU está pronta, o tempo dos GPUs vai precisar mudar É uma arma secreta de preço, só mesmo vendo como será a implementação prática A ideia de inferência superando o treinamento já ouço há anos, será que agora realmente vai acontecer?
Ver originalResponder0
AirdropDreamervip
· 12-26 11:52
80TB/s de largura de banda? Agora os fabricantes de GPUs vão ficar inquietos, a SRAM realmente é uma corrida invisível nesta onda.
Ver originalResponder0
rugpull_ptsdvip
· 12-26 11:41
80TB/s este número é realmente impressionante, esmagando GPUs tradicionais, não é conversa fiada --- Portanto, no final das contas, é mesmo a parte de inferência que precisa de um impulso, já devia ter sido valorizada --- 500 tokens/s? Essa velocidade é realmente um pouco louca, finalmente alguém levando a sério a inferência --- É essa a ideia, SRAM na chiplet elimina de vez o monstro da latência, eficiência lá em cima --- A jogada de aquisição foi genial, LPU é que é o futuro da inferência, não é? --- Custo ainda é barato? Agora os de treinamento estão preocupados, a inferência vai realmente virar o jogo --- Espera aí, o que é esse conceito de 80TB/s... isso é mais rápido que tudo --- Finalmente alguém dominou bem a parte de inferência, o conjunto HBM já devia ter sido eliminado
Ver originalResponder0
BearMarketBrovip
· 12-26 11:39
80TB/s?Rir, se isso realmente puder ser alcançado, os fabricantes de HBM vão chorar --- Inferência de treinamento, agora realmente entendi, tudo é uma questão de dinheiro --- Um pouco agressivo, integrar SRAM diretamente para evitar o gargalo do HBM, já devia ter feito assim --- 500 tokens/s parece impressionante, mas onde estão os dados de desempenho reais? --- Essa é a verdadeira direção dos chips de IA, contornar os gargalos externos para vencer --- Fabricantes de chips entendem bem, primeiro manter posições e depois adquirir, o capital é realmente arbitrário --- O caminho do SRAM está correto, só tenho medo de os custos de processo não conseguirem diminuir depois --- O ponto de inflexão em que a inferência se torna mainstream finalmente chegou, quem liderar vence --- Preço acessível + velocidade rápida, a era de competição vai mudar --- Espera aí, será que a encomenda de HBM vai acabar sendo cancelada?
Ver originalResponder0
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)