强化学习曾经真正困难——评估代理行为、确定适当的奖励和惩罚、将结果归因于特定组件。那时非常混乱。



现在情况发生了巨大变化。大型语言模型(LLMs)现在承担了评估任务的重任。在LLMs管理评估和反馈循环的情况下,曾经需要费力手动设计的工作变得可以通过算法实现。瓶颈被打破了。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 7
  • 转发
  • 分享
评论
0/400
UnruggableChadvip
· 13小时前
llm 真的救了 rl 这个难题啊,之前那套奖惩机制设计得要死,现在直接甩给 ai 就完事儿
回复0
NotAFinancialAdvicevip
· 20小时前
llm接手了rl的脏活累活,这下算法能跑了...但感觉又是把问题踢给了另一个黑盒?
回复0
Token风暴vip
· 01-07 23:57
LLM做评估这块确实是个技术面的关键突破,但老实说,这套逻辑能复用到链上数据反馈吗?回测数据看着漂亮,实际跑起来总感觉差点意思...不过反正我也没想明白,先梭哈一把再说[狗头]
回复0
ParallelChainMaxivip
· 01-07 23:56
lm直接替代人工设计,这波确实牛...不过谁来保证lm的评估逻辑本身没问题啊
回复0
TokenomicsTinfoilHatvip
· 01-07 23:44
llm一把梭哈,rl的苦活都外包了,这下真的有点东西
回复0
AlwaysAnonvip
· 01-07 23:35
嗯 LLM做评估这事儿确实改变了游戏规则,以前那套手动调参的噩梦总算缓口气了
回复0
gaslight_gasfeezvip
· 01-07 23:33
llm接管了RL的评估?这下RL的天花板真的要被捅破了啊
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)