強化學習曾經真的很困難——評估代理人的行動、確定適當的獎勵與懲罰、將結果歸因於特定的組件。這一切都很混亂。



如今情況已經大為改變。大型語言模型(LLMs)現在負責評估任務的繁重工作。有了LLMs來管理評估與反饋循環,曾經需要費盡心思的手動設計變得可以用演算法實現。瓶頸被打破了。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 6
  • 轉發
  • 分享
留言
0/400
NotAFinancialAdvicevip
· 4小時前
llm接手了rl的髒活累活,這下算法能跑了...但感覺又是把問題踢給了另一個黑盒?
查看原文回復0
Token风暴vip
· 01-07 23:57
LLM做評估這塊確實是個技術面的關鍵突破,但老實說,這套邏輯能復用到鏈上數據反饋嗎?回測數據看著漂亮,實際跑起來總感覺差點意思...不過反正我也沒想明白,先梭哈一把再說[狗頭]
查看原文回復0
ParallelChainMaxivip
· 01-07 23:56
lm直接替代人工設計,這波確實牛...不過誰來保證lm的評估邏輯本身沒問題啊
查看原文回復0
TokenomicsTinfoilHatvip
· 01-07 23:44
llm一把梭哈,rl的苦活都外包了,这下真的有点东西
回復0
AlwaysAnonvip
· 01-07 23:35
嗯 LLM做評估這事兒確實改變了遊戲規則,以前那套手動調參的噩夢總算緩口氣了
查看原文回復0
gaslight_gasfeezvip
· 01-07 23:33
llm接管了RL的評估?這下RL的天花板真的要被捅破了啊
查看原文回復0
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)