O aprendizado por reforço costumava ser realmente difícil—avaliar ações do agente, determinar recompensas e penalidades adequadas, atribuir resultados a componentes específicos. Era complicado.
Isso mudou drasticamente. Os grandes modelos de linguagem agora lidam com as tarefas pesadas de avaliação. Com os LLMs gerenciando os ciclos de avaliação e feedback, o que antes exigia um design manual meticuloso tornou-se viável algoritmicamente. O gargalo foi rompido.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
13 gostos
Recompensa
13
7
Republicar
Partilhar
Comentar
0/400
UnruggableChad
· 13h atrás
O LLM realmente salvou o problema do RL, a antiga estrutura de recompensas e punições estava a ser um pesadelo, agora basta entregar tudo ao AI e pronto.
Ver originalResponder0
NotAFinancialAdvice
· 20h atrás
O LLM assumiu as tarefas difíceis e cansativas do RL, agora o algoritmo pode rodar... Mas parece que está apenas empurrando o problema para outra caixa preta?
Ver originalResponder0
TokenStorm
· 01-07 23:57
A avaliação de LLM é realmente um avanço técnico importante, mas, para ser honesto, será que essa lógica pode ser reutilizada para feedback de dados on-chain? Os dados de backtest parecem bons, mas na prática, sempre sinto que falta alguma coisa... De qualquer forma, ainda não consegui entender completamente, então vou apostar tudo de uma vez [cabeça de cachorro]
Ver originalResponder0
ParallelChainMaxi
· 01-07 23:56
lm substitui diretamente o design manual, esta onda é realmente incrível... mas quem garante que a lógica de avaliação do lm em si não tem problemas?
Ver originalResponder0
TokenomicsTinfoilHat
· 01-07 23:44
llm uma aposta arriscada, o trabalho árduo de rl foi terceirizado, agora realmente há algo de valor
Ver originalResponder0
AlwaysAnon
· 01-07 23:35
Pois, a avaliação com LLM realmente mudou as regras do jogo; aquela rotina de ajuste manual de parâmetros, que era um pesadelo, finalmente deu lugar a uma abordagem mais tranquila.
Ver originalResponder0
gaslight_gasfeez
· 01-07 23:33
O LLM assumiu a avaliação de RL? Agora o teto do RL realmente vai ser rompido.
O aprendizado por reforço costumava ser realmente difícil—avaliar ações do agente, determinar recompensas e penalidades adequadas, atribuir resultados a componentes específicos. Era complicado.
Isso mudou drasticamente. Os grandes modelos de linguagem agora lidam com as tarefas pesadas de avaliação. Com os LLMs gerenciando os ciclos de avaliação e feedback, o que antes exigia um design manual meticuloso tornou-se viável algoritmicamente. O gargalo foi rompido.