¿A qué se debe la repentina explosión en la demanda de SRAM? Con solo observar esta operación, lo entenderás.



Hace poco, un fabricante líder de chips AI anunció que había tomado posición en una gran empresa tecnológica y, poco después, anunció la adquisición de una compañía innovadora en chips. ¿Es suerte o fuerza? Solo con un análisis detallado se puede encontrar la respuesta.

¿Dónde radica la ventaja principal de esta compañía? A diferencia de las GPU tradicionales que dependen de memoria externa de alta ancho de banda (HBM), sus procesadores LPU utilizan un diseño que integra en el chip una gran capacidad de memoria estática de acceso aleatorio (SRAM). Estos 230MB de SRAM en el chip pueden ofrecer un ancho de banda de memoria de hasta 80TB/s — ¿qué significa esta cifra? La velocidad de procesamiento de datos supera con creces a las soluciones tradicionales de GPU.

¿Y cómo es su rendimiento real? Sus servicios en la nube son famosos por su velocidad de inferencia sorprendente. Al ejecutar grandes modelos de código abierto como Mixtral y Llama 2, pueden generar aproximadamente 500 tokens por segundo, una respuesta mucho más rápida que los servicios tradicionales. Además, su precio es competitivo, con costos basados en millones de tokens que resultan bastante asequibles.

¿Por qué es tan importante esto ahora? Porque en todo el campo de la IA se está produciendo un cambio clave: la demanda de inferencia está a punto de superar por completo la demanda de entrenamiento. En este contexto, ofrecer una infraestructura de inferencia eficiente, de bajo costo y verdaderamente escalable mediante arquitecturas innovadoras como la LPU, es lo que realmente necesita el mercado. Un responsable de una compañía de chips afirmó claramente que planean integrar estos procesadores de baja latencia en su propia arquitectura de fábrica de IA, con el objetivo de atender una gama más amplia de cargas de trabajo de inferencia y en tiempo real.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 4
  • Republicar
  • Compartir
Comentar
0/400
MEVvictimvip
· hace4h
80TB/s esta cifra cuando salió, supe quién ganó, la estrategia HBM va a ser eliminada El costo de inferencia tan competitivo, confío en esta tendencia Otra historia de "lo compré por adelantado", la suerte o la habilidad, tú decides Integrar SRAM es una jugada genial, golpe directo a los métodos tradicionales 500 tokens por segundo, lo creo, pero quiero ver cuánto tiempo puede funcionar esto en un entorno de producción real Por eso he estado siguiendo la tendencia del almacenamiento en chip, ya olfateaba estos cambios El rey de la competencia ha sacado nuevas jugadas, a ver hasta qué punto pueden reducir los costos La arquitectura LPU está lista, los días de la GPU deben cambiar Es una carta de triunfo en precios, pero hay que ver cómo funciona en la implementación real ¿La inferencia superando al entrenamiento? He oído esa frase durante años, ¿será que realmente va a suceder esta vez?
Ver originalesResponder0
AirdropDreamervip
· hace4h
¿Ancho de banda de 80TB/s? Ahora los fabricantes de GPU no podrán mantenerse quietos, SRAM realmente es una pista invisible en esta ola
Ver originalesResponder0
rugpull_ptsdvip
· hace4h
80TB/s este número es realmente increíble, aplasta a las GPU tradicionales sin exagerar --- Así que al final, ¡la inferencia es la que debe despegar! Ya era hora de prestarle atención --- ¿500 tokens/s? Esa velocidad es realmente una locura, finalmente alguien está haciendo inferencia en serio --- Eso es, esa idea, usar SRAM en chip para eliminar la monstruosidad de la latencia, eficiencia al máximo --- La jugada de adquirirla fue brillante, LPU es la verdadera forma de hacer inferencia en el futuro --- ¿El costo también es barato? Esto hará que los de entrenamiento se preocupen, la inferencia realmente va a cambiar --- Espera, ¿qué concepto es 80TB/s... esto es más rápido que cualquier otra cosa --- Finalmente alguien ha entendido bien la inferencia, esa serie de HBM ya debería ser eliminada
Ver originalesResponder0
BearMarketBrovip
· hace4h
80TB/s?Me río, si realmente pudiera lograrse, los fabricantes de HBM estarían llorando. --- El entrenamiento de inferencia, ahora sí lo tengo claro, todo se reduce a dinero. --- Eso es bastante agresivo, integrar directamente SRAM para evitar que HBM sea un cuello de botella, ya debería haberse hecho así. --- 500 tokens/s suena impresionante, pero ¿dónde están los datos de rendimiento real? --- Este es el camino correcto para los chips de IA, superar los cuellos de botella externos para ganar. --- Los fabricantes de chips lo entienden, primero mantienen la posición y luego adquieren, así de caprichoso es el capital. --- El camino de SRAM fue correcto, solo que temen que los costos de proceso posteriores no puedan reducirse. --- El punto de inflexión en que la inferencia se vuelve la corriente principal finalmente ha llegado, quien tome la delantera ganará. --- Precio asequible + velocidad rápida, la era de los objetivos de referencia está a punto de cambiar. --- Espera, ¿el pedido de HBM se va a enfriar?
Ver originalesResponder0
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • بالعربية
  • Português (Brasil)
  • 简体中文
  • English
  • Español
  • Français (Afrique)
  • Bahasa Indonesia
  • 日本語
  • Português (Portugal)
  • Русский
  • 繁體中文
  • Українська
  • Tiếng Việt