Por que a procura por SRAM de repente explodiu? Veja esta operação e entenderá.
Recentemente, uma grande fabricante de chips de IA revelou posições numa grande empresa de tecnologia e, pouco depois, anunciou a aquisição de uma startup de inovação em chips. Essa sorte ou força, ao analisar com atenção, revela a resposta.
Qual é a vantagem central desta empresa? Ao contrário dos GPUs tradicionais que dependem de memória externa de alta largura de banda (HBM), seus processadores LPU utilizam uma abordagem de design com memória estática de acesso aleatório (SRAM) integrada no chip. Esses 230MB de SRAM no chip podem fornecer até 80TB/s de largura de banda de memória — o que isso significa? A velocidade de processamento de dados supera de longe os métodos tradicionais de GPU.
Como é o desempenho real? Seus serviços em nuvem são famosos pela velocidade de inferência impressionante. Ao rodar grandes modelos de código aberto como Mixtral e Llama 2, eles podem gerar cerca de 500 tokens por segundo, uma resposta muito mais rápida do que os serviços tradicionais. Além disso, o preço é competitivo, cobrando por milhão de tokens, o que é bastante acessível.
Por que isso é tão importante agora? Porque o setor de IA está passando por uma mudança crucial — a demanda por inferência está prestes a superar completamente a necessidade de treinamento. Nesse contexto, a inovação na arquitetura LPU oferece uma infraestrutura de inferência eficiente, de baixo custo e realmente escalável, que é o que o mercado realmente precisa. Um responsável por uma fabricante de chips afirmou claramente que planeja integrar esses processadores de baixa latência na sua arquitetura de IA, com o objetivo de atender a uma gama mais ampla de inferências de IA e cargas de trabalho em tempo real.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
13 gostos
Recompensa
13
5
Republicar
Partilhar
Comentar
0/400
CodeSmellHunter
· 12h atrás
80TB/s de largura de banda? Este número realmente arrasa com as GPUs
É interessante, a ideia de integrar SRAM no chip realmente é impressionante
A inferência vai explodir, parece que a guerra dos chips está realmente a começar
Apostar que esta onda de LPU pode sustentar a grande bandeira da inferência
Ver originalResponder0
MEVvictim
· 12-26 11:52
80TB/s esta cifra assim que saiu, soube imediatamente quem ganhou, o modo de operação HBM vai ser eliminado
O custo de inferência tão competitivo, estou confiante nesta onda
Mais uma história de "comprei antecipadamente", a sorte ou a habilidade, avalie você mesmo
Integrar SRAM é uma jogada genial, atacar a solução tradicional de forma direta e de nível inferior
500 tokens por segundo eu acredito, mas quero mesmo é ver quanto tempo essa coisa consegue rodar em um ambiente de produção real
É por isso que tenho acompanhado de perto a direção do armazenamento em chip, já percebi essa mudança há algum tempo
O rei da competição lançou uma nova jogada, vamos ver até onde os custos podem ser reduzidos
A arquitetura LPU está pronta, o tempo dos GPUs vai precisar mudar
É uma arma secreta de preço, só mesmo vendo como será a implementação prática
A ideia de inferência superando o treinamento já ouço há anos, será que agora realmente vai acontecer?
Ver originalResponder0
AirdropDreamer
· 12-26 11:52
80TB/s de largura de banda? Agora os fabricantes de GPUs vão ficar inquietos, a SRAM realmente é uma corrida invisível nesta onda.
Ver originalResponder0
rugpull_ptsd
· 12-26 11:41
80TB/s este número é realmente impressionante, esmagando GPUs tradicionais, não é conversa fiada
---
Portanto, no final das contas, é mesmo a parte de inferência que precisa de um impulso, já devia ter sido valorizada
---
500 tokens/s? Essa velocidade é realmente um pouco louca, finalmente alguém levando a sério a inferência
---
É essa a ideia, SRAM na chiplet elimina de vez o monstro da latência, eficiência lá em cima
---
A jogada de aquisição foi genial, LPU é que é o futuro da inferência, não é?
---
Custo ainda é barato? Agora os de treinamento estão preocupados, a inferência vai realmente virar o jogo
---
Espera aí, o que é esse conceito de 80TB/s... isso é mais rápido que tudo
---
Finalmente alguém dominou bem a parte de inferência, o conjunto HBM já devia ter sido eliminado
Ver originalResponder0
BearMarketBro
· 12-26 11:39
80TB/s?Rir, se isso realmente puder ser alcançado, os fabricantes de HBM vão chorar
---
Inferência de treinamento, agora realmente entendi, tudo é uma questão de dinheiro
---
Um pouco agressivo, integrar SRAM diretamente para evitar o gargalo do HBM, já devia ter feito assim
---
500 tokens/s parece impressionante, mas onde estão os dados de desempenho reais?
---
Essa é a verdadeira direção dos chips de IA, contornar os gargalos externos para vencer
---
Fabricantes de chips entendem bem, primeiro manter posições e depois adquirir, o capital é realmente arbitrário
---
O caminho do SRAM está correto, só tenho medo de os custos de processo não conseguirem diminuir depois
---
O ponto de inflexão em que a inferência se torna mainstream finalmente chegou, quem liderar vence
---
Preço acessível + velocidade rápida, a era de competição vai mudar
---
Espera aí, será que a encomenda de HBM vai acabar sendo cancelada?
Por que a procura por SRAM de repente explodiu? Veja esta operação e entenderá.
Recentemente, uma grande fabricante de chips de IA revelou posições numa grande empresa de tecnologia e, pouco depois, anunciou a aquisição de uma startup de inovação em chips. Essa sorte ou força, ao analisar com atenção, revela a resposta.
Qual é a vantagem central desta empresa? Ao contrário dos GPUs tradicionais que dependem de memória externa de alta largura de banda (HBM), seus processadores LPU utilizam uma abordagem de design com memória estática de acesso aleatório (SRAM) integrada no chip. Esses 230MB de SRAM no chip podem fornecer até 80TB/s de largura de banda de memória — o que isso significa? A velocidade de processamento de dados supera de longe os métodos tradicionais de GPU.
Como é o desempenho real? Seus serviços em nuvem são famosos pela velocidade de inferência impressionante. Ao rodar grandes modelos de código aberto como Mixtral e Llama 2, eles podem gerar cerca de 500 tokens por segundo, uma resposta muito mais rápida do que os serviços tradicionais. Além disso, o preço é competitivo, cobrando por milhão de tokens, o que é bastante acessível.
Por que isso é tão importante agora? Porque o setor de IA está passando por uma mudança crucial — a demanda por inferência está prestes a superar completamente a necessidade de treinamento. Nesse contexto, a inovação na arquitetura LPU oferece uma infraestrutura de inferência eficiente, de baixo custo e realmente escalável, que é o que o mercado realmente precisa. Um responsável por uma fabricante de chips afirmou claramente que planeja integrar esses processadores de baixa latência na sua arquitetura de IA, com o objetivo de atender a uma gama mais ampla de inferências de IA e cargas de trabalho em tempo real.