Pourquoi la demande de SRAM a-t-elle soudainement explosé ? Regardez cette vague d’opérations.
Il y a quelque temps, peu après qu’un important fabricant de puces IA ait publiquement occupé une position dans un géant technologique, celui-ci a annoncé l’acquisition d’une société d’innovation sur puces. Cette chance reste de la force, et vous connaîtrez la réponse après un examen plus attentif.
Quelle est la force principale de cette entreprise ? Contrairement aux GPU traditionnels qui reposent sur une mémoire externe à haute bande passante (HBM), leurs processeurs LPU adoptent l’idée de conception de la mémoire SRAM (SRAM) statique intégrée à haute capacité. Ces 230 Mo de SRAM intégrée peuvent fournir jusqu’à 80 To/s de bande passante mémoire – quel est le concept de ce chiffre ? La vitesse de traitement des données écrase directement les solutions GPU traditionnelles.
Comment se passe-t-il réellement ? Leur service cloud est reconnu pour sa vitesse d’inférence incroyable. Lorsqu’il exécute des modèles open source de grande taille tels que Mixtral et Llama 2, il peut produire environ 500 jetons par seconde, ce qui n’est pas un ordre de grandeur comparé à la vitesse de réponse des services traditionnels. Les prix sont également compétitifs, et le coût par million de jetons est assez rentable.
Pourquoi est-ce si important maintenant ? Parce qu’un changement majeur a lieu dans l’ensemble du domaine de l’IA, les besoins d’inférence vont dépasser largement les besoins en formation. À cette époque, offrir une infrastructure d’inférence efficace, peu coûteuse et véritablement évolutive grâce à l’architecture innovante de la LPU est ce qui manque vraiment au marché. Le responsable d’une entreprise de puces a clairement indiqué qu’il comptait intégrer ce processeur à faible latence dans sa propre architecture d’usine d’IA, dans le but de servir un éventail plus large d’inférences d’IA et de charges de travail en temps réel.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
14 J'aime
Récompense
14
5
Reposter
Partager
Commentaire
0/400
CodeSmellHunter
· Il y a 17h
80TB/s de bande passante ? Ce chiffre réduit carrément le GPU en miettes
C'est intéressant, l'intégration SRAM sur puce est vraiment impressionnante
L'inférence va exploser, il semble que la guerre des puces ne fasse que commencer
Je parie que cette vague de LPU pourra porter haut le drapeau de l'inférence
Voir l'originalRépondre0
MEVvictim
· 12-26 11:52
80TB/s cette valeur, dès qu'elle est sortie, j'ai su qui allait gagner, cette stratégie HBM va être éliminée
Le coût de l'inférence est tellement compétitif, je mise sur cette vague
Encore une histoire de "je l'ai acheté à l'avance", la chance ou la compétence, à vous de juger
L'intégration SRAM est une idée brillante, une attaque directe à la réduction de dimension des solutions traditionnelles
500 tokens par seconde, je crois, mais je veux surtout voir combien de temps cette technologie peut fonctionner dans un environnement de production réel
C'est pour ça que je me suis récemment concentré sur la voie du stockage sur puce, j'avais déjà senti le changement arriver
Le roi de la compétition a encore une nouvelle astuce, on va voir jusqu'où il peut réduire les coûts
L'architecture LPU est en place, le temps des GPU doit changer
C'est une arme secrète pour le prix, il faut vraiment voir comment cela se déploie concrètement
Je parle de la supériorité de l'inférence sur l'entraînement depuis plusieurs années, cette fois, c'est vraiment pour de bon ?
Voir l'originalRépondre0
AirdropDreamer
· 12-26 11:52
80TB/s de bande passante ? Les fabricants de GPU ne vont pas pouvoir rester indifférents cette fois, la SRAM est vraiment une voie invisible.
Voir l'originalRépondre0
rugpull_ptsd
· 12-26 11:41
80TB/s ce chiffre est vraiment incroyable, écrasant les GPU traditionnels, ce n’est pas une blague
---
Donc, en fin de compte, c’est la partie inférence qui doit décoller, cela aurait dû être pris en compte depuis longtemps
---
500 tokens/s ? Cette vitesse est vraiment folle, enfin quelqu’un prend l’inférence au sérieux
---
C’est exactement cette idée, la SRAM sur puce élimine directement le monstre de la latence, une efficacité explosive
---
Ce coup d’achat est bien joué, le LPU est probablement la façon dont l’inférence du futur sera réalisée
---
C’est encore moins cher ? La communauté de l’entraînement doit être inquiète maintenant, l’inférence va vraiment changer la donne
---
Attendez, qu’est-ce que ça signifie, 80TB/s... c’est plus rapide que tout
---
Enfin quelqu’un a compris cette partie de l’inférence, cette série HBM aurait dû être éliminée depuis longtemps
Voir l'originalRépondre0
BearMarketBro
· 12-26 11:39
80TB/s ? Rire, si cela pouvait vraiment sortir, les fabricants de HBM pleureraient
---
L'entraînement par inférence, cette fois j'ai vraiment compris, tout est une question d'argent
---
C'est un peu dur, intégrer directement la SRAM pour éviter le goulot d'étranglement du HBM, ça aurait dû être la stratégie depuis longtemps
---
500 tokens/s ça a l'air impressionnant, mais où sont les vrais résultats de performance ?
---
C'est la voie royale pour les puces IA, contourner les goulots d'étranglement externes pour gagner
---
Les fabricants de puces jouent intelligemment, ils détiennent d'abord des positions, puis acquièrent, le capital est vraiment capricieux
---
Avoir choisi la SRAM était la bonne voie, mais j'ai peur que les coûts de fabrication ultérieurs ne puissent pas être réduits
---
Le tournant où l'inférence devient la norme est enfin arrivé, celui qui le prend en premier gagne
---
Prix abordable + vitesse rapide, l'époque de la concurrence va changer
---
Attends, est-ce que la commande HBM va être annulée ?
Pourquoi la demande de SRAM a-t-elle soudainement explosé ? Regardez cette vague d’opérations.
Il y a quelque temps, peu après qu’un important fabricant de puces IA ait publiquement occupé une position dans un géant technologique, celui-ci a annoncé l’acquisition d’une société d’innovation sur puces. Cette chance reste de la force, et vous connaîtrez la réponse après un examen plus attentif.
Quelle est la force principale de cette entreprise ? Contrairement aux GPU traditionnels qui reposent sur une mémoire externe à haute bande passante (HBM), leurs processeurs LPU adoptent l’idée de conception de la mémoire SRAM (SRAM) statique intégrée à haute capacité. Ces 230 Mo de SRAM intégrée peuvent fournir jusqu’à 80 To/s de bande passante mémoire – quel est le concept de ce chiffre ? La vitesse de traitement des données écrase directement les solutions GPU traditionnelles.
Comment se passe-t-il réellement ? Leur service cloud est reconnu pour sa vitesse d’inférence incroyable. Lorsqu’il exécute des modèles open source de grande taille tels que Mixtral et Llama 2, il peut produire environ 500 jetons par seconde, ce qui n’est pas un ordre de grandeur comparé à la vitesse de réponse des services traditionnels. Les prix sont également compétitifs, et le coût par million de jetons est assez rentable.
Pourquoi est-ce si important maintenant ? Parce qu’un changement majeur a lieu dans l’ensemble du domaine de l’IA, les besoins d’inférence vont dépasser largement les besoins en formation. À cette époque, offrir une infrastructure d’inférence efficace, peu coûteuse et véritablement évolutive grâce à l’architecture innovante de la LPU est ce qui manque vraiment au marché. Le responsable d’une entreprise de puces a clairement indiqué qu’il comptait intégrer ce processeur à faible latence dans sa propre architecture d’usine d’IA, dans le but de servir un éventail plus large d’inférences d’IA et de charges de travail en temps réel.