RL的剃刀:在线策略RL的遗忘程度小于SFT。



即使在匹配的准确性下,RL显示出较少的灾难性遗忘

主要发现:
1) RL 比 SFT 更倾向于 "忘记"
2) 在策略 RL (PPO) 的遗忘程度低于离策略 RL (DQN)
3) 即使在匹配的准确率下,RL显示出较少的灾难性遗忘
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 4
  • 转发
  • 分享
评论
0/400
ZKSherlockvip
· 4小时前
从信息论的角度来看,实际上非常迷人……较少的遗忘意味着更好的熵保持,老实说。
查看原文回复0
BrokenYieldvip
· 09-06 21:51
终于有些东西不会像我在2022年崩盘中的多头那样被遗忘
查看原文回复0
PumpDoctrinevip
· 09-06 21:41
SFT能不能长长记性啊
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)