2026-01-07 23:30:06

O aprendizado por reforço costumava ser realmente difícil—avaliar ações do agente, determinar recompensas e penalidades adequadas, atribuir resultados a componentes específicos. Era complicado.

Isso mudou drasticamente. Os grandes modelos de linguagem agora lidam com as tarefas pesadas de avaliação. Com os LLMs gerenciando os ciclos de avaliação e feedback, o que antes exigia um design manual meticuloso tornou-se viável algoritmicamente. O gargalo foi rompido.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

13 gostos

Recompensa
13
7
Republicar
Partilhar

Comentar

0/400

UnruggableChad

· 13h atrás

O LLM realmente salvou o problema do RL, a antiga estrutura de recompensas e punições estava a ser um pesadelo, agora basta entregar tudo ao AI e pronto.

Ver originalResponder0

NotAFinancialAdvice

· 20h atrás

O LLM assumiu as tarefas difíceis e cansativas do RL, agora o algoritmo pode rodar... Mas parece que está apenas empurrando o problema para outra caixa preta?

Ver originalResponder0

TokenStorm

· 01-07 23:57

A avaliação de LLM é realmente um avanço técnico importante, mas, para ser honesto, será que essa lógica pode ser reutilizada para feedback de dados on-chain? Os dados de backtest parecem bons, mas na prática, sempre sinto que falta alguma coisa... De qualquer forma, ainda não consegui entender completamente, então vou apostar tudo de uma vez [cabeça de cachorro]

Ver originalResponder0

ParallelChainMaxi

· 01-07 23:56

lm substitui diretamente o design manual, esta onda é realmente incrível... mas quem garante que a lógica de avaliação do lm em si não tem problemas?

Ver originalResponder0

TokenomicsTinfoilHat

· 01-07 23:44

llm uma aposta arriscada, o trabalho árduo de rl foi terceirizado, agora realmente há algo de valor

Ver originalResponder0

AlwaysAnon

· 01-07 23:35

Pois, a avaliação com LLM realmente mudou as regras do jogo; aquela rotina de ajuste manual de parâmetros, que era um pesadelo, finalmente deu lugar a uma abordagem mais tranquila.

Ver originalResponder0

gaslight_gasfeez