RL'in Jileti: Politika bazlı RL, SFT'den daha az unutur.



Eşleşen doğrulukta bile, RL felaket unutmayı daha az gösteriyor.

Ana bulgular:
1) RL, SFT'ye göre daha az "unutma" eğilimindedir.
2) Politika üzeri RL (PPO), politika dışı RL (DQN)'ye göre daha az unutur.
3) Eşleşmiş doğrulukta bile, RL daha az felaket unutma gösteriyor.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 5
  • Repost
  • Share
Comment
0/400
GasFeeWhisperervip
· 1h ago
ppo yine kazandı
View OriginalReply0
ZKSherlockvip
· 9h ago
aslında bilgi teorisi perspektifinden oldukça ilginç... daha az unutma, daha iyi entropi korunumu anlamına geliyor doğrusu
View OriginalReply0
BrokenYieldvip
· 09-06 21:51
sonunda 2022 çöküşündeki kaldıraçlı uzunlarım gibi unutmayan bir şey
View OriginalReply0
PumpDoctrinevip
· 09-06 21:41
SFT uzun süre hafızasını tutabilir mi?
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)