2026-01-07 23:30:06

Pembelajaran penguatan dulu benar-benar sulit—menilai tindakan agen, menentukan hadiah dan hukuman yang tepat, mengaitkan hasil dengan komponen tertentu. Itu sangat rumit.

Namun, situasinya telah berubah secara drastis. Model bahasa besar sekarang menangani tugas penilaian secara otomatis. Dengan LLM yang mengelola proses penilaian dan umpan balik, apa yang dulu memerlukan desain manual yang rumit menjadi mungkin secara algoritmik. Kemacetan tersebut terbuka lebar.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

13 Suka

Hadiah
13
7
Posting ulang
Bagikan

Komentar

0/400

UnruggableChad

· 13jam yang lalu

llm benar-benar menyelamatkan masalah rl ini, sebelumnya mekanisme penghargaan dan hukuman dirancang dengan sangat rumit, sekarang langsung diserahkan ke ai dan selesai.

Lihat AsliBalas0

NotAFinancialAdvice

· 20jam yang lalu

llm mengambil alih pekerjaan kotor dan berat dari rl, sekarang algoritma bisa berjalan... tapi rasanya ini hanya memindahkan masalah ke kotak hitam lain?

Lihat AsliBalas0

TokenStorm

· 01-07 23:57

LLM melakukan evaluasi memang merupakan terobosan kunci dari segi teknologi, tapi jujur saja, akankah logika ini bisa digunakan kembali untuk umpan balik data di blockchain? Data backtest terlihat bagus, tapi saat dijalankan secara nyata selalu terasa kurang... Tapi bagaimanapun juga, saya juga belum paham, jadi akan coba taruhan besar dulu [dog head]

Lihat AsliBalas0

ParallelChainMaxi

· 01-07 23:56

lm langsung menggantikan desain manusia, gelombang ini memang luar biasa... tapi siapa yang menjamin bahwa logika evaluasi lm sendiri tidak bermasalah?

Lihat AsliBalas0

TokenomicsTinfoilHat

· 01-07 23:44

llm satu taruhan besar, pekerjaan keras dari rl semua dioutsourcing, sekarang benar-benar ada sesuatu

Lihat AsliBalas0

AlwaysAnon

· 01-07 23:35

Hmm, melakukan evaluasi dengan LLM memang benar-benar mengubah permainan, sebelumnya proses penyesuaian parameter secara manual yang menjadi mimpi buruk akhirnya bisa bernafas lega.

Lihat AsliBalas0

gaslight_gasfeez