O aprendizado por reforço costumava ser realmente difícil—avaliar ações do agente, determinar recompensas e penalidades adequadas, atribuir resultados a componentes específicos. Era complicado.



Isso mudou drasticamente. Os grandes modelos de linguagem agora lidam com as tarefas pesadas de avaliação. Com os LLMs gerenciando os ciclos de avaliação e feedback, o que antes exigia um design manual meticuloso tornou-se viável algoritmicamente. O gargalo foi rompido.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • Republicar
  • Partilhar
Comentar
0/400
UnruggableChadvip
· 13h atrás
O LLM realmente salvou o problema do RL, a antiga estrutura de recompensas e punições estava a ser um pesadelo, agora basta entregar tudo ao AI e pronto.
Ver originalResponder0
NotAFinancialAdvicevip
· 20h atrás
O LLM assumiu as tarefas difíceis e cansativas do RL, agora o algoritmo pode rodar... Mas parece que está apenas empurrando o problema para outra caixa preta?
Ver originalResponder0
TokenStormvip
· 01-07 23:57
A avaliação de LLM é realmente um avanço técnico importante, mas, para ser honesto, será que essa lógica pode ser reutilizada para feedback de dados on-chain? Os dados de backtest parecem bons, mas na prática, sempre sinto que falta alguma coisa... De qualquer forma, ainda não consegui entender completamente, então vou apostar tudo de uma vez [cabeça de cachorro]
Ver originalResponder0
ParallelChainMaxivip
· 01-07 23:56
lm substitui diretamente o design manual, esta onda é realmente incrível... mas quem garante que a lógica de avaliação do lm em si não tem problemas?
Ver originalResponder0
TokenomicsTinfoilHatvip
· 01-07 23:44
llm uma aposta arriscada, o trabalho árduo de rl foi terceirizado, agora realmente há algo de valor
Ver originalResponder0
AlwaysAnonvip
· 01-07 23:35
Pois, a avaliação com LLM realmente mudou as regras do jogo; aquela rotina de ajuste manual de parâmetros, que era um pesadelo, finalmente deu lugar a uma abordagem mais tranquila.
Ver originalResponder0
gaslight_gasfeezvip
· 01-07 23:33
O LLM assumiu a avaliação de RL? Agora o teto do RL realmente vai ser rompido.
Ver originalResponder0
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)