Pembelajaran penguatan dulu benar-benar sulit—menilai tindakan agen, menentukan hadiah dan hukuman yang tepat, mengaitkan hasil dengan komponen tertentu. Itu sangat rumit.
Namun, situasinya telah berubah secara drastis. Model bahasa besar sekarang menangani tugas penilaian secara otomatis. Dengan LLM yang mengelola proses penilaian dan umpan balik, apa yang dulu memerlukan desain manual yang rumit menjadi mungkin secara algoritmik. Kemacetan tersebut terbuka lebar.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
13 Suka
Hadiah
13
7
Posting ulang
Bagikan
Komentar
0/400
UnruggableChad
· 13jam yang lalu
llm benar-benar menyelamatkan masalah rl ini, sebelumnya mekanisme penghargaan dan hukuman dirancang dengan sangat rumit, sekarang langsung diserahkan ke ai dan selesai.
Lihat AsliBalas0
NotAFinancialAdvice
· 20jam yang lalu
llm mengambil alih pekerjaan kotor dan berat dari rl, sekarang algoritma bisa berjalan... tapi rasanya ini hanya memindahkan masalah ke kotak hitam lain?
Lihat AsliBalas0
TokenStorm
· 01-07 23:57
LLM melakukan evaluasi memang merupakan terobosan kunci dari segi teknologi, tapi jujur saja, akankah logika ini bisa digunakan kembali untuk umpan balik data di blockchain? Data backtest terlihat bagus, tapi saat dijalankan secara nyata selalu terasa kurang... Tapi bagaimanapun juga, saya juga belum paham, jadi akan coba taruhan besar dulu [dog head]
Lihat AsliBalas0
ParallelChainMaxi
· 01-07 23:56
lm langsung menggantikan desain manusia, gelombang ini memang luar biasa... tapi siapa yang menjamin bahwa logika evaluasi lm sendiri tidak bermasalah?
Lihat AsliBalas0
TokenomicsTinfoilHat
· 01-07 23:44
llm satu taruhan besar, pekerjaan keras dari rl semua dioutsourcing, sekarang benar-benar ada sesuatu
Lihat AsliBalas0
AlwaysAnon
· 01-07 23:35
Hmm, melakukan evaluasi dengan LLM memang benar-benar mengubah permainan, sebelumnya proses penyesuaian parameter secara manual yang menjadi mimpi buruk akhirnya bisa bernafas lega.
Lihat AsliBalas0
gaslight_gasfeez
· 01-07 23:33
llm mengambil alih penilaian RL? Sekarang batas atas RL benar-benar akan ditembus nih
Pembelajaran penguatan dulu benar-benar sulit—menilai tindakan agen, menentukan hadiah dan hukuman yang tepat, mengaitkan hasil dengan komponen tertentu. Itu sangat rumit.
Namun, situasinya telah berubah secara drastis. Model bahasa besar sekarang menangani tugas penilaian secara otomatis. Dengan LLM yang mengelola proses penilaian dan umpan balik, apa yang dulu memerlukan desain manual yang rumit menjadi mungkin secara algoritmik. Kemacetan tersebut terbuka lebar.