広場
最新
注目
ニュース
プロフィール
ポスト
TokenTreasury_
2026-01-07 23:30:06
フォロー
強化学習はかつて本当に難しかった—エージェントの行動評価、適切な報酬とペナルティの決定、結果を特定の要素に帰属させることなどが含まれていた。それは複雑だった。
それが劇的に変わった。現在では、大規模言語モデル(LLM)が評価タスクの重い作業を担っている。LLMが評価とフィードバックループを管理することで、かつては手間のかかる手動設計がアルゴリズム的に実現可能になった。ボトルネックが打ち破られた。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
13 いいね
報酬
13
7
リポスト
共有
コメント
0/400
コメント
UnruggableChad
· 13時間前
LLM は本当に RL のこの難問を救ったね。前のその報酬・罰則メカニズムの設計は本当に大変だったけど、今は AI に直接投げればいいんだ。
原文表示
返信
0
NotAFinancialAdvice
· 20時間前
llmがrlの汚れ仕事や骨折りを引き受けたので、これでアルゴリズムが動くようになった...でもまた問題を別のブラックボックスに押し付けているような気がする?
原文表示
返信
0
TokenStorm
· 01-07 23:57
LLMによる評価は確かに技術的な重要なブレークスルーですが、正直なところ、このロジックをオンチェーンデータのフィードバックに再利用できるのでしょうか?バックテストのデータは見た目は良いですが、実際に動かしてみるとどうも物足りない感じがします...でも、結局私もよく理解していないので、とりあえず一発勝負してみます[犬頭]
原文表示
返信
0
ParallelChainMaxi
· 01-07 23:56
lmは直接人工設計の代替となり、この波は確かにすごい...しかし、誰がlmの評価ロジック自体に問題がないことを保証できるのか。
原文表示
返信
0
TokenomicsTinfoilHat
· 01-07 23:44
LLMが一気に全力投球して、RLの辛い仕事はすべて外注されたから、今回は本当に何かあるな
原文表示
返信
0
AlwaysAnon
· 01-07 23:35
うん、LLMによる評価は確かにゲームのルールを変えた。以前の手動調整の悪夢はやっと一息つけるようになった。
原文表示
返信
0
gaslight_gasfeez
· 01-07 23:33
llmがRLの評価を引き継いだ?これでRLの天井が本当に打ち破られるぞ
原文表示
返信
0
人気の話題
もっと見る
#
GateFun马勒戈币Surges1251.09%
9.02K 人気度
#
GateSquareCreatorNewYearIncentives
32.62K 人気度
#
NonfarmPayrollsComing
6.96K 人気度
#
DailyMarketOverview
5.89K 人気度
#
IstheMarketBottoming?
90.73K 人気度
人気の Gate Fun
もっと見る
Gate Fun
KOL
最新
ファイナライズ中
リスト済み
1
FuckMe
用力不要停
時価総額:
$3.66K
保有者数:
2
0.95%
2
我赶上了赶上了来,你咋没
我赶上了
時価総額:
$3.51K
保有者数:
1
0.00%
3
海豹舞
SEALDANCE
時価総額:
$3.53K
保有者数:
2
0.00%
4
WCNMB
卧槽尼马币
時価総額:
$3.64K
保有者数:
2
0.56%
5
芝麻管理员
芝麻管理员
時価総額:
$3.53K
保有者数:
1
0.00%
ピン
サイトマップ
強化学習はかつて本当に難しかった—エージェントの行動評価、適切な報酬とペナルティの決定、結果を特定の要素に帰属させることなどが含まれていた。それは複雑だった。
それが劇的に変わった。現在では、大規模言語モデル(LLM)が評価タスクの重い作業を担っている。LLMが評価とフィードバックループを管理することで、かつては手間のかかる手動設計がアルゴリズム的に実現可能になった。ボトルネックが打ち破られた。