Pangkas RL: RL on-policy melupakan lebih sedikit daripada SFT.



Bahkan dengan akurasi yang cocok, RL menunjukkan pelupaan yang kurang katastropik.

Temuan kunci:
1) RL cenderung "melupakan" lebih sedikit daripada SFT
2) RL kebijakan (PPO) melupakan lebih sedikit dibandingkan RL off-policy (DQN)
3) Bahkan pada akurasi yang sama, RL menunjukkan lupa bencana yang lebih sedikit
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • Posting ulang
  • Bagikan
Komentar
0/400
ZKSherlockvip
· 4jam yang lalu
sebenarnya cukup menarik dari perspektif teori informasi... kurang melupakan berarti pelestarian entropi yang lebih baik sejujurnya
Lihat AsliBalas0
BrokenYieldvip
· 09-06 21:51
akhirnya sesuatu yang tidak melupakan seperti longs terleveraged saya dalam kejatuhan 2022
Lihat AsliBalas0
PumpDoctrinevip
· 09-06 21:41
Apakah SFT bisa mengingat lebih lama?
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)