研究显示,在线和离线RL在LLMs之间存在性能空档——尤其是在大规模时——但将在线策略样本纳入离线算法(迭代/半在线RL)可以弥补这一空档,训练数据的质量往往超过RL方法的选择。

查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 6
  • 转发
  • 分享
评论
0/400
幽灵地址挖掘机vip
· 10小时前
数据质量造假链上信号已跟踪
回复0
WagmiOrRektvip
· 10小时前
训练数据的质量才是关键吧
回复0
合约自由人vip
· 10小时前
离线训练还是差点意思
回复0
MEV受害者互助会vip
· 10小时前
离线训练还是块链上训练 都一个吊样
回复0
链上侦探小饼vip
· 10小时前
离线跑的辣鸡hhh
回复0
Stake_OrRegretvip
· 11小时前
搁这薄纱纯离线呢
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)