Claude Skills solo estuvo en auge por un tiempo, ayer DeepSeek publicó un nuevo artículo usando Engram para decirle al mercado: ¿puede que estén equivocados en su dirección?? ¡Los AI LLM realmente están protagonizando una pelea de dioses cada día!😱
Una comparación sencilla ya muestra la diferencia: Anthropic equipó a su modelo con un súper secretario, que ayuda a organizar 200 documentos y recordar todas las conversaciones; DeepSeek es más agresivo, directamente realiza una cirugía cerebral en el modelo para hacer que desarrolle un “órgano de memoria”, que responde en (1) segundos como si consultara un diccionario, sin necesidad de activar capas neuronales en cadena.
Este problema en realidad debería haberse resuelto hace tiempo.
Desde la arquitectura Transform, los grandes modelos procesan el conocimiento de forma innata como un estudiante que memoriza todo, cada vez que preguntan “¿quién fue la princesa Diana?”, tienen que recorrer toda la red de 175B parámetros, ¿cuánta energía y recursos de cálculo se desperdician?
Es como si cada vez que quieres buscar una palabra, tuvieras que memorizar toda la Oxford Dictionary de la A a la Z para que te dé la respuesta, ¿qué tan absurdo es eso? Incluso con la arquitectura MoE, que ahora está en tendencia, cada vez que quieres recordar un dato frío, tienes que movilizar a muchos expertos en cálculo costosos.
1) El avance clave de Engram: hacer que el modelo desarrolle un “órgano de memoria”
Lo que hace Engram es muy simple: separar el conocimiento factual estático de la “memoria de parámetros” y almacenarlo en una tabla hash escalable, mediante segmentación N-gram y mapeo hash multicanal, logrando una búsqueda en tiempo constante O(1).
En palabras sencillas, gestionar un sistema de contexto, o sea, que la IA tenga un manual y pueda consultar en él cuando tenga un problema, pero el objetivo de Engram es crear un nuevo órgano en el cerebro que permita “recordar” instantáneamente conocimientos que se han convertido en hechos comunes, sin necesidad de pensar y razonar.
¿Y qué tan impresionante es esto? Un modelo de 27B parámetros mejora un 3.4% en tareas de conocimiento (MMLU), y la recuperación de textos largos pasa del 84% al 97%. Lo más importante es que estos parámetros de memoria pueden descargarse en memorias DDR baratas o incluso en discos duros, haciendo que el costo de inferencia sea casi cero.
2) ¿Estamos en una carrera armamentística de RAG y GPU?
Si Engram realmente funciona, los primeros afectados no serán OpenAI, sino la estrategia RAG (recuperación aumentada por generación) y el negocio de memoria de NVIDIA, especialmente en bases de datos de conocimiento público RAG.
Porque, en esencia, RAG hace que el modelo consulte “fuentes externas” en bases de datos, pero las consultas son lentas, la integración es deficiente y hay que mantener un vector de búsqueda. Engram integra directamente el módulo de memoria en la arquitectura del modelo, haciendo las búsquedas rápidas y precisas, además de poder filtrar conflictos hash mediante control de contexto.
Y lo más interesante es que el descubrimiento de la “ley de escalado en U” mencionado en el artículo es muy estimulante: si el modelo dedica entre el 20-25% de sus parámetros a Engram como “disco de memoria”, y el resto del 75-80% lo deja para la red neuronal tradicional para “razonar”, entonces al ampliar la memoria en 10 veces, el rendimiento puede mejorar de forma logarítmica.
¿No es esto una ruptura total con la creencia de que “más parámetros = más inteligente”? De una carrera armamentística de “H100 infinito” a un juego de eficiencia de “potencia de cálculo moderada + memoria barata en masa”.
Eso es todo.
No sé si DeepSeek V4 será lanzado antes o después del Año Nuevo chino, pero seguramente integrará toda la combinación de Engram y mHC que ha presentado antes.
Esta revolución paradigmática de “potencia de cálculo como rey” a “potencia + memoria en doble motor” probablemente volverá a desatar una ola de caos y competencia feroz, solo queda ver cómo reaccionarán los gigantes como OpenAI, Anthropic y otros que controlan los recursos de cálculo.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Claude Skills solo estuvo en auge por un tiempo, ayer DeepSeek publicó un nuevo artículo usando Engram para decirle al mercado: ¿puede que estén equivocados en su dirección?? ¡Los AI LLM realmente están protagonizando una pelea de dioses cada día!😱
Una comparación sencilla ya muestra la diferencia: Anthropic equipó a su modelo con un súper secretario, que ayuda a organizar 200 documentos y recordar todas las conversaciones; DeepSeek es más agresivo, directamente realiza una cirugía cerebral en el modelo para hacer que desarrolle un “órgano de memoria”, que responde en (1) segundos como si consultara un diccionario, sin necesidad de activar capas neuronales en cadena.
Este problema en realidad debería haberse resuelto hace tiempo.
Desde la arquitectura Transform, los grandes modelos procesan el conocimiento de forma innata como un estudiante que memoriza todo, cada vez que preguntan “¿quién fue la princesa Diana?”, tienen que recorrer toda la red de 175B parámetros, ¿cuánta energía y recursos de cálculo se desperdician?
Es como si cada vez que quieres buscar una palabra, tuvieras que memorizar toda la Oxford Dictionary de la A a la Z para que te dé la respuesta, ¿qué tan absurdo es eso? Incluso con la arquitectura MoE, que ahora está en tendencia, cada vez que quieres recordar un dato frío, tienes que movilizar a muchos expertos en cálculo costosos.
1) El avance clave de Engram: hacer que el modelo desarrolle un “órgano de memoria”
Lo que hace Engram es muy simple: separar el conocimiento factual estático de la “memoria de parámetros” y almacenarlo en una tabla hash escalable, mediante segmentación N-gram y mapeo hash multicanal, logrando una búsqueda en tiempo constante O(1).
En palabras sencillas, gestionar un sistema de contexto, o sea, que la IA tenga un manual y pueda consultar en él cuando tenga un problema, pero el objetivo de Engram es crear un nuevo órgano en el cerebro que permita “recordar” instantáneamente conocimientos que se han convertido en hechos comunes, sin necesidad de pensar y razonar.
¿Y qué tan impresionante es esto? Un modelo de 27B parámetros mejora un 3.4% en tareas de conocimiento (MMLU), y la recuperación de textos largos pasa del 84% al 97%. Lo más importante es que estos parámetros de memoria pueden descargarse en memorias DDR baratas o incluso en discos duros, haciendo que el costo de inferencia sea casi cero.
2) ¿Estamos en una carrera armamentística de RAG y GPU?
Si Engram realmente funciona, los primeros afectados no serán OpenAI, sino la estrategia RAG (recuperación aumentada por generación) y el negocio de memoria de NVIDIA, especialmente en bases de datos de conocimiento público RAG.
Porque, en esencia, RAG hace que el modelo consulte “fuentes externas” en bases de datos, pero las consultas son lentas, la integración es deficiente y hay que mantener un vector de búsqueda. Engram integra directamente el módulo de memoria en la arquitectura del modelo, haciendo las búsquedas rápidas y precisas, además de poder filtrar conflictos hash mediante control de contexto.
Y lo más interesante es que el descubrimiento de la “ley de escalado en U” mencionado en el artículo es muy estimulante: si el modelo dedica entre el 20-25% de sus parámetros a Engram como “disco de memoria”, y el resto del 75-80% lo deja para la red neuronal tradicional para “razonar”, entonces al ampliar la memoria en 10 veces, el rendimiento puede mejorar de forma logarítmica.
¿No es esto una ruptura total con la creencia de que “más parámetros = más inteligente”? De una carrera armamentística de “H100 infinito” a un juego de eficiencia de “potencia de cálculo moderada + memoria barata en masa”.
Eso es todo.
No sé si DeepSeek V4 será lanzado antes o después del Año Nuevo chino, pero seguramente integrará toda la combinación de Engram y mHC que ha presentado antes.
Esta revolución paradigmática de “potencia de cálculo como rey” a “potencia + memoria en doble motor” probablemente volverá a desatar una ola de caos y competencia feroz, solo queda ver cómo reaccionarán los gigantes como OpenAI, Anthropic y otros que controlan los recursos de cálculo.