Pembelajaran penguatan dulu benar-benar sulit—menilai tindakan agen, menentukan hadiah dan hukuman yang tepat, mengaitkan hasil dengan komponen tertentu. Itu sangat rumit.



Namun, situasinya telah berubah secara drastis. Model bahasa besar sekarang menangani tugas penilaian secara otomatis. Dengan LLM yang mengelola proses penilaian dan umpan balik, apa yang dulu memerlukan desain manual yang rumit menjadi mungkin secara algoritmik. Kemacetan tersebut terbuka lebar.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • Posting ulang
  • Bagikan
Komentar
0/400
UnruggableChadvip
· 13jam yang lalu
llm benar-benar menyelamatkan masalah rl ini, sebelumnya mekanisme penghargaan dan hukuman dirancang dengan sangat rumit, sekarang langsung diserahkan ke ai dan selesai.
Lihat AsliBalas0
NotAFinancialAdvicevip
· 20jam yang lalu
llm mengambil alih pekerjaan kotor dan berat dari rl, sekarang algoritma bisa berjalan... tapi rasanya ini hanya memindahkan masalah ke kotak hitam lain?
Lihat AsliBalas0
TokenStormvip
· 01-07 23:57
LLM melakukan evaluasi memang merupakan terobosan kunci dari segi teknologi, tapi jujur saja, akankah logika ini bisa digunakan kembali untuk umpan balik data di blockchain? Data backtest terlihat bagus, tapi saat dijalankan secara nyata selalu terasa kurang... Tapi bagaimanapun juga, saya juga belum paham, jadi akan coba taruhan besar dulu [dog head]
Lihat AsliBalas0
ParallelChainMaxivip
· 01-07 23:56
lm langsung menggantikan desain manusia, gelombang ini memang luar biasa... tapi siapa yang menjamin bahwa logika evaluasi lm sendiri tidak bermasalah?
Lihat AsliBalas0
TokenomicsTinfoilHatvip
· 01-07 23:44
llm satu taruhan besar, pekerjaan keras dari rl semua dioutsourcing, sekarang benar-benar ada sesuatu
Lihat AsliBalas0
AlwaysAnonvip
· 01-07 23:35
Hmm, melakukan evaluasi dengan LLM memang benar-benar mengubah permainan, sebelumnya proses penyesuaian parameter secara manual yang menjadi mimpi buruk akhirnya bisa bernafas lega.
Lihat AsliBalas0
gaslight_gasfeezvip
· 01-07 23:33
llm mengambil alih penilaian RL? Sekarang batas atas RL benar-benar akan ditembus nih
Lihat AsliBalas0
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)