RL's Razor: O RL em política esquece menos do que o SFT.
Mesmo com precisão compatível, RL mostra menos esquecimento catastrófico
Principais descobertas: 1) RL tende a "esquecer" menos do que SFT 2) O RL em política (PPO) esquece menos do que o RL fora de política (DQN) 3) Mesmo com precisão igualada, RL apresenta menos esquecimento catastrófico
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
9 gostos
Recompensa
9
5
Republicar
Partilhar
Comentar
0/400
GasFeeWhisperer
· 2h atrás
ppo ganhou de novo
Ver originalResponder0
ZKSherlock
· 10h atrás
na verdade, é bastante fascinante do ponto de vista da teoria da informação... menos esquecimento implica uma melhor preservação da entropia, para ser sincero
Ver originalResponder0
BrokenYield
· 09-06 21:51
finalmente algo que não esquece como os meus longs alavancados na queda de 2022
Ver originalResponder0
PumpDoctrine
· 09-06 21:41
Será que o SFT consegue lembrar-se por mais tempo?
RL's Razor: O RL em política esquece menos do que o SFT.
Mesmo com precisão compatível, RL mostra menos esquecimento catastrófico
Principais descobertas:
1) RL tende a "esquecer" menos do que SFT
2) O RL em política (PPO) esquece menos do que o RL fora de política (DQN)
3) Mesmo com precisão igualada, RL apresenta menos esquecimento catastrófico