O Claude Skills esteve em destaque por um tempo, mas ontem a DeepSeek lançou um novo artigo, usando o Engram para mostrar ao mercado: vocês podem estar na direção errada?? AI LLM realmente está sempre a protagonizar batalhas de deuses!😱



Uma comparação simples já revela as diferenças: a Anthropic equipou o modelo com um super secretário, ajudando a organizar 200 documentos e a lembrar todas as conversas; a DeepSeek é mais agressiva, realizando uma cirurgia cerebral direta no modelo, fazendo-o desenvolver um “órgão de memória”, respondendo em O(1) segundos como se fosse um dicionário, sem precisar ativar camadas complexas de redes neurais.

Na verdade, esse problema já deveria ter sido resolvido há algum tempo.

Desde a arquitetura Transform, modelos grandes lidam com conhecimento de forma inerente como um estudante que decora tudo, toda vez que perguntam “quem foi a princesa Diana”, precisam passar por toda a sua rede de 175B de parâmetros, consumindo uma quantidade enorme de recursos computacionais.

É como se, toda vez que você quisesse consultar uma palavra, precisasse consultar o dicionário Oxford inteiro de A a Z para te dar a resposta — quão absurdo é isso? Mesmo com a arquitetura MoE, que está na moda agora, toda vez que tenta recuperar um fato pouco conhecido, é preciso mobilizar uma grande equipe de especialistas em computação de alto custo.

1) O avanço central do Engram: fazer o modelo desenvolver um “órgão de memória”

O que o Engram faz é simples: separar o conhecimento factual estático do “memória de parâmetros” e colocá-lo em uma tabela hash escalável, usando divisão por N-gram e mapeamento por múltiplas cabeças de hash, permitindo buscas em tempo constante O(1).

Em linguagem simples, é como gerenciar um sistema de contexto, ou seja, fazer a IA pegar o manual e consultar ao encontrar uma dúvida, mas o objetivo do Engram é criar um novo órgão no cérebro, dedicado a “recordar” instantaneamente conhecimentos que se tornaram parte do senso comum, sem precisar pensar ou fazer inferências.

Quão impressionante é o resultado? Um modelo de 27B de parâmetros melhora 3,4% na tarefa de conhecimento (MMLU), e a recuperação de textos longos sobe de 84% para 97%. O mais importante é que esses parâmetros de memória podem ser descarregados para memórias DDR baratas ou até mesmo para discos rígidos, tornando a inferência quase gratuita.

2) Isso é uma revolução na corrida armamentista de RAG e GPUs?

Se o Engram realmente funcionar, o primeiro impacto não será no OpenAI, mas na abordagem RAG (recuperação aprimorada por geração) e nos negócios de memória da NVIDIA, especialmente na base de conhecimento pública RAG.

Porque, essencialmente, o RAG faz o modelo consultar bancos de dados externos, mas essa consulta é lenta, a integração é ruim e ainda é preciso manter um vetor de busca. O Engram integra o módulo de memória diretamente na arquitetura do modelo, tornando as buscas rápidas e precisas, além de usar o controle de contexto para filtrar conflitos de hash.

E o mais interessante é que a descoberta do “U-shaped scaling law” mencionada no artigo é empolgante: se o modelo dedicar de 20 a 25% dos seus parâmetros ao Engram como “disco de memória”, os restantes 75-80% podem ser usados para o “cérebro de inferência” tradicional, e à medida que a escala de memória aumenta 10 vezes, o desempenho pode crescer de forma logarítmica.

Isso quebra de vez a crença de que “quanto maior o parâmetro, mais inteligente é o modelo”, transformando a corrida armamentista de “H100 infinito” em um jogo de eficiência de “poder de cálculo moderado + memória barata em grande escala”.

É isso.

Não se sabe se o DeepSeek V4 será lançado antes ou depois do Ano Novo Chinês, mas talvez eles apresentem toda a combinação de Engram com o anterior mHC.

Essa revolução paradigmática de “poder de cálculo como rei” para “poder de cálculo + memória” provavelmente vai desencadear mais uma onda de turbulência, dependendo de como os gigantes como OpenAI, Anthropic e outros vão reagir, aproveitando sua vantagem de recursos computacionais.
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)