2026-01-07 23:30:06

强化学习曾经真正困难——评估代理行为、确定适当的奖励和惩罚、将结果归因于特定组件。那时非常混乱。

现在情况发生了巨大变化。大型语言模型（LLMs）现在承担了评估任务的重任。在LLMs管理评估和反馈循环的情况下，曾经需要费力手动设计的工作变得可以通过算法实现。瓶颈被打破了。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

13人点赞了这条动态

赞赏
13
7
转发
分享

0/400

UnruggableChad

· 13小时前

llm 真的救了 rl 这个难题啊，之前那套奖惩机制设计得要死，现在直接甩给 ai 就完事儿

NotAFinancialAdvice

· 20小时前

llm接手了rl的脏活累活，这下算法能跑了...但感觉又是把问题踢给了另一个黑盒？

Token风暴

· 01-07 23:57

LLM做评估这块确实是个技术面的关键突破，但老实说，这套逻辑能复用到链上数据反馈吗？回测数据看着漂亮，实际跑起来总感觉差点意思...不过反正我也没想明白，先梭哈一把再说[狗头]

ParallelChainMaxi

· 01-07 23:56

lm直接替代人工设计，这波确实牛...不过谁来保证lm的评估逻辑本身没问题啊

TokenomicsTinfoilHat

· 01-07 23:44

llm一把梭哈，rl的苦活都外包了，这下真的有点东西

AlwaysAnon

· 01-07 23:35

嗯 LLM做评估这事儿确实改变了游戏规则，以前那套手动调参的噩梦总算缓口气了

gaslight_gasfeez

· 01-07 23:33

llm接管了RL的评估？这下RL的天花板真的要被捅破了啊

热门话题
查看更多
#
GateFun马勒戈币暴涨1251.09%
9025 热度
#
Gate广场创作者新春激励
3.26万热度
#
非农就业数据
6966 热度
#
每日行情分析
5898 热度
#
市场触底了吗？
9.07万热度

热门 Gate Fun
查看更多

1
FuckMe
用力不要停
市值:$3662.5持有人数:2
0.95%
2
我赶上了赶上了来，你咋没
我赶上了
市值:$3517.24持有人数:1
0.00%
3
海豹舞
SEALDANCE
市值:$3538.09持有人数:2
0.00%
4
WCNMB
卧槽尼马币
市值:$3645.89持有人数:2
0.56%
5
芝麻管理员
芝麻管理员
市值:$3531.03持有人数:1
0.00%

强化学习曾经真正困难——评估代理行为、确定适当的奖励和惩罚、将结果归因于特定组件。那时非常混乱。

热门话题

GateFun马勒戈币暴涨1251.09%

Gate广场创作者新春激励

非农就业数据

每日行情分析

市场触底了吗？

热门 Gate Fun

FuckMe

用力不要停

我赶上了赶上了来，你咋没

我赶上了

海豹舞

SEALDANCE

WCNMB

卧槽尼马币

芝麻管理员

芝麻管理员

置顶