2026-01-07 23:30:06

強化學習曾經真的很困難——評估代理人的行動、確定適當的獎勵與懲罰、將結果歸因於特定的組件。這一切都很混亂。

如今情況已經大為改變。大型語言模型（LLMs）現在負責評估任務的繁重工作。有了LLMs來管理評估與反饋循環，曾經需要費盡心思的手動設計變得可以用演算法實現。瓶頸被打破了。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

12人點讚了這條動態

讚賞
12
6
轉發
分享

留言

0/400

NotAFinancialAdvice

· 4小時前

llm接手了rl的髒活累活，這下算法能跑了...但感覺又是把問題踢給了另一個黑盒？

查看原文回復0

Token风暴

· 01-07 23:57

LLM做評估這塊確實是個技術面的關鍵突破，但老實說，這套邏輯能復用到鏈上數據反饋嗎？回測數據看著漂亮，實際跑起來總感覺差點意思...不過反正我也沒想明白，先梭哈一把再說[狗頭]

查看原文回復0

ParallelChainMaxi

· 01-07 23:56

lm直接替代人工設計，這波確實牛...不過誰來保證lm的評估邏輯本身沒問題啊

查看原文回復0

TokenomicsTinfoilHat

· 01-07 23:44

llm一把梭哈，rl的苦活都外包了，这下真的有点东西

回復0

AlwaysAnon

· 01-07 23:35

嗯 LLM做評估這事兒確實改變了遊戲規則，以前那套手動調參的噩夢總算緩口氣了

查看原文回復0

gaslight_gasfeez

· 01-07 23:33

llm接管了RL的評估？這下RL的天花板真的要被捅破了啊

查看原文回復0

熱門話題
查看更多
#
GT2025第四季度銷毀完成
1萬熱度
#
Gate廣場創作者新春激勵
1.47萬熱度
#
GateAI正式上線
2.87萬熱度
#
美司法部拋售比特幣
1.25萬熱度
#
我的2026第一條帖
15.26萬熱度

熱門 Gate Fun
查看更多

1
HHS
我胡汉三又回来了
市值:$3584.32持有人數:2
0.09%
2
ZZLX
ZZLX
市值:$3531.03持有人數:1
0.00%
3
芝麻开门
芝麻开门
市值:$3541.37持有人數:1
0.00%
4
U
XXLZ
市值:$3541.37持有人數:1
0.00%
5
芝麻来了
芝麻来了
市值:$5265.94持有人數:3
8.10%

強化學習曾經真的很困難——評估代理人的行動、確定適當的獎勵與懲罰、將結果歸因於特定的組件。這一切都很混亂。

熱門話題

GT2025第四季度銷毀完成

Gate廣場創作者新春激勵

GateAI正式上線

美司法部拋售比特幣

我的2026第一條帖

熱門 Gate Fun

HHS

我胡汉三又回来了

ZZLX

ZZLX

芝麻开门

芝麻开门

U

XXLZ

芝麻来了

芝麻来了

置頂