OpenAI merilis laporan tentang ilusi model bahasa besar, menyoroti bias dalam mekanisme evaluasi saat ini dan menyarankan solusi. (Ringkasan: Meta Zuckerberg bekerja keras! Memberikan gaji lebih dari seratus juta dolar, tiga jenius AI pergi dalam dua bulan) (Latar belakang: daftar AI 100 teratas terbaru dari a16z: Grok melompat ke posisi 4 dalam setahun, aplikasi China menembus global) OpenAI baru-baru ini mengumumkan sebuah penelitian tentang fenomena "ilusi" dari model bahasa besar, menunjukkan bahwa metode pelatihan dan evaluasi yang ada membuat model cenderung "menebak dengan percaya diri" dan enggan mengakui ketidaktahuan, yang menjadi penyebab ilusi, dan mengusulkan langkah selanjutnya. Inti laporan: cara evaluasi mendorong model untuk menebak Tim penelitian OpenAI menemukan bahwa saat ini banyak soal evaluasi yang disajikan dalam bentuk pilihan ganda ketika melatih model, model hanya perlu menebak dengan beruntung untuk mendapatkan skor, sebaliknya, menjawab "tidak tahu" tidak mendapatkan poin sama sekali. (Ini mudah dipahami, seperti ketika Anda mengerjakan soal pilihan ganda, meskipun tidak tahu jawabannya, Anda tetap bisa mengisi secara acak, setidaknya ada peluang untuk benar) Laporan ini mengambil tes SimpleQA sebagai contoh, membandingkan model lama o4-mini dengan versi baru gpt-5-thinking-mini: yang pertama memiliki akurasi sedikit lebih tinggi, tetapi "rasio ilusi" mencapai 75%; yang terakhir meskipun sering memilih untuk menyerah, tingkat kesalahannya turun secara signifikan. OpenAI lebih lanjut menunjukkan bahwa sebagian besar pengembang fokus meningkatkan tingkat akurasi keseluruhan, tetapi mengabaikan bahwa "kesalahan percaya diri" memiliki dampak jauh lebih besar pada pengguna dibandingkan dengan mengakui ketidakpastian. Tim penelitian merangkum akar masalah dengan satu kalimat: "Prosedur pelatihan dan evaluasi standar memberi penghargaan kepada model untuk menebak, alih-alih mengakui batasan saat tidak yakin." Dengan kata lain, ilusi bukanlah hasil dari ketidakcukupan perangkat keras model atau ukuran parameter, tetapi aturan penilaian yang mendorong model untuk mengambil strategi berisiko tinggi. Peningkatan akurasi tidak dapat menyelesaikan ilusi Laporan ini membongkar lima kesalahpahaman umum di industri, dua poin terpenting adalah: pertama, hanya dengan membuat model lebih besar atau memberikan lebih banyak data, ilusi dapat dihilangkan; kedua, ilusi adalah efek samping yang tidak dapat dihindari. OpenAI menyatakan: Dunia nyata penuh dengan celah informasi, model dengan ukuran berapa pun dapat menghadapi soal "kekurangan data". Kunci sebenarnya adalah apakah model memiliki hak untuk memilih "menyerah". Laporan ini juga menekankan bahwa model kecil kadang-kadang lebih mudah menyadari kekosongan pengetahuan mereka; dan selama standar evaluasi disesuaikan, memberi skor sebagian untuk "jawaban yang rendah hati", dan mengurangi poin lebih berat untuk "kesalahan percaya diri", model berukuran penuh juga dapat mengurangi ilusi. OpenAI menyarankan industri untuk beralih dari "tingkat jawaban benar" ke "indikator keandalan", seperti memasukkan tingkat kepercayaan kesalahan sebagai KPI utama, untuk mendorong model tetap konservatif dalam situasi ketidakpastian. Skenario fintech: celah kepercayaan memperbesar risiko Bagi Wall Street dan Silicon Valley, ilusi bukanlah isu akademis yang abstrak, tetapi variabel yang secara langsung mempengaruhi keputusan pasar. Dana kuantitatif, bank investasi, dan platform perdagangan cryptocurrency semakin bergantung pada LLM untuk analisis teks, penilaian sentimen, bahkan laporan otomatis. Jika model mengalami ilusi dalam detail laporan perusahaan atau ketentuan kontrak, konten yang salah dapat dengan cepat diperbesar melalui algoritma perdagangan, menyebabkan kerugian besar. Oleh karena itu, regulator dan departemen manajemen risiko perusahaan mulai memperhatikan indikator "kejujuran model". Beberapa pialang telah memasukkan "tingkat ketidakpastian jawaban" ke dalam penerimaan internal, membuat model di bidang yang tidak diketahui secara default melaporkan "memerlukan lebih banyak data". Perubahan ini berarti bahwa meskipun solusi AI yang paling efisien dikembangkan, jika tidak dapat memberikan label keandalan, akan sulit untuk diterima di pasar keuangan. Langkah selanjutnya: beralih dari kompetisi skor tinggi ke rekayasa kejujuran Terakhir, jalur yang disarankan oleh OpenAI adalah menulis ulang spesifikasi evaluasi: Pertama, menetapkan hukuman tinggi untuk kesalahan percaya diri Kedua, memberi poin sebagian untuk ekspresi ketidakpastian yang moderat Ketiga, meminta model untuk mengembalikan sumber referensi yang dapat diverifikasi. Tim penelitian menyatakan bahwa langkah ini dapat memaksa model untuk belajar "manajemen risiko" selama tahap pelatihan, mirip dengan teori portofolio investasi yang "melindungi modal pertama". Bagi pengembang, ini berarti peserta tidak hanya bersaing dalam ukuran model, tetapi siapa yang bisa secara akurat menilai kapan harus berhenti dalam anggaran komputasi yang terbatas; bagi investor dan regulator, indikator baru juga memberikan titik jangkar manajemen risiko yang lebih intuitif. Dengan "kerendahan hati" menjadi ilmu baru, ekosistem AI sedang beralih dari orientasi skor menuju orientasi kepercayaan. Laporan terkait ETH melampaui 3600 USD! BlackRock mengajukan aplikasi staking untuk ETF Ethereum, LDO melonjak 20% ETF Bitcoin BlackRock "IBIT" menghasilkan lebih banyak daripada semua dana yang dimilikinya, bahkan lebih menguntungkan daripada ETF S&P 500 yang sepuluh kali lebih besar! XRP melewati USDT menjadi cryptocurrency dengan kapitalisasi pasar terbesar ketiga! Namun 95% pasokan beredar berada di zona profit, $3 menjadi garis hidup dan mati. Solana hanya tersisa kemewahan permukaan? Kenaikan koin kontemporer hanya bergantung pada manipulasi di belakang layar, siklus on-chain mungkin sudah menuju akhir 〈OpenAI menjelaskan mengapa ada ilusi AI? Tiga solusi untuk mengubah pemikiran evaluasi〉 artikel ini pertama kali diterbitkan oleh BlockTempo "Dunia Dinamis - Media Berita Blockchain Paling Berpengaruh."
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
OpenAI menjelaskan mengapa ada ilusi AI? Tiga solusi untuk mengubah penilaian mitos.
OpenAI merilis laporan tentang ilusi model bahasa besar, menyoroti bias dalam mekanisme evaluasi saat ini dan menyarankan solusi. (Ringkasan: Meta Zuckerberg bekerja keras! Memberikan gaji lebih dari seratus juta dolar, tiga jenius AI pergi dalam dua bulan) (Latar belakang: daftar AI 100 teratas terbaru dari a16z: Grok melompat ke posisi 4 dalam setahun, aplikasi China menembus global) OpenAI baru-baru ini mengumumkan sebuah penelitian tentang fenomena "ilusi" dari model bahasa besar, menunjukkan bahwa metode pelatihan dan evaluasi yang ada membuat model cenderung "menebak dengan percaya diri" dan enggan mengakui ketidaktahuan, yang menjadi penyebab ilusi, dan mengusulkan langkah selanjutnya. Inti laporan: cara evaluasi mendorong model untuk menebak Tim penelitian OpenAI menemukan bahwa saat ini banyak soal evaluasi yang disajikan dalam bentuk pilihan ganda ketika melatih model, model hanya perlu menebak dengan beruntung untuk mendapatkan skor, sebaliknya, menjawab "tidak tahu" tidak mendapatkan poin sama sekali. (Ini mudah dipahami, seperti ketika Anda mengerjakan soal pilihan ganda, meskipun tidak tahu jawabannya, Anda tetap bisa mengisi secara acak, setidaknya ada peluang untuk benar) Laporan ini mengambil tes SimpleQA sebagai contoh, membandingkan model lama o4-mini dengan versi baru gpt-5-thinking-mini: yang pertama memiliki akurasi sedikit lebih tinggi, tetapi "rasio ilusi" mencapai 75%; yang terakhir meskipun sering memilih untuk menyerah, tingkat kesalahannya turun secara signifikan. OpenAI lebih lanjut menunjukkan bahwa sebagian besar pengembang fokus meningkatkan tingkat akurasi keseluruhan, tetapi mengabaikan bahwa "kesalahan percaya diri" memiliki dampak jauh lebih besar pada pengguna dibandingkan dengan mengakui ketidakpastian. Tim penelitian merangkum akar masalah dengan satu kalimat: "Prosedur pelatihan dan evaluasi standar memberi penghargaan kepada model untuk menebak, alih-alih mengakui batasan saat tidak yakin." Dengan kata lain, ilusi bukanlah hasil dari ketidakcukupan perangkat keras model atau ukuran parameter, tetapi aturan penilaian yang mendorong model untuk mengambil strategi berisiko tinggi. Peningkatan akurasi tidak dapat menyelesaikan ilusi Laporan ini membongkar lima kesalahpahaman umum di industri, dua poin terpenting adalah: pertama, hanya dengan membuat model lebih besar atau memberikan lebih banyak data, ilusi dapat dihilangkan; kedua, ilusi adalah efek samping yang tidak dapat dihindari. OpenAI menyatakan: Dunia nyata penuh dengan celah informasi, model dengan ukuran berapa pun dapat menghadapi soal "kekurangan data". Kunci sebenarnya adalah apakah model memiliki hak untuk memilih "menyerah". Laporan ini juga menekankan bahwa model kecil kadang-kadang lebih mudah menyadari kekosongan pengetahuan mereka; dan selama standar evaluasi disesuaikan, memberi skor sebagian untuk "jawaban yang rendah hati", dan mengurangi poin lebih berat untuk "kesalahan percaya diri", model berukuran penuh juga dapat mengurangi ilusi. OpenAI menyarankan industri untuk beralih dari "tingkat jawaban benar" ke "indikator keandalan", seperti memasukkan tingkat kepercayaan kesalahan sebagai KPI utama, untuk mendorong model tetap konservatif dalam situasi ketidakpastian. Skenario fintech: celah kepercayaan memperbesar risiko Bagi Wall Street dan Silicon Valley, ilusi bukanlah isu akademis yang abstrak, tetapi variabel yang secara langsung mempengaruhi keputusan pasar. Dana kuantitatif, bank investasi, dan platform perdagangan cryptocurrency semakin bergantung pada LLM untuk analisis teks, penilaian sentimen, bahkan laporan otomatis. Jika model mengalami ilusi dalam detail laporan perusahaan atau ketentuan kontrak, konten yang salah dapat dengan cepat diperbesar melalui algoritma perdagangan, menyebabkan kerugian besar. Oleh karena itu, regulator dan departemen manajemen risiko perusahaan mulai memperhatikan indikator "kejujuran model". Beberapa pialang telah memasukkan "tingkat ketidakpastian jawaban" ke dalam penerimaan internal, membuat model di bidang yang tidak diketahui secara default melaporkan "memerlukan lebih banyak data". Perubahan ini berarti bahwa meskipun solusi AI yang paling efisien dikembangkan, jika tidak dapat memberikan label keandalan, akan sulit untuk diterima di pasar keuangan. Langkah selanjutnya: beralih dari kompetisi skor tinggi ke rekayasa kejujuran Terakhir, jalur yang disarankan oleh OpenAI adalah menulis ulang spesifikasi evaluasi: Pertama, menetapkan hukuman tinggi untuk kesalahan percaya diri Kedua, memberi poin sebagian untuk ekspresi ketidakpastian yang moderat Ketiga, meminta model untuk mengembalikan sumber referensi yang dapat diverifikasi. Tim penelitian menyatakan bahwa langkah ini dapat memaksa model untuk belajar "manajemen risiko" selama tahap pelatihan, mirip dengan teori portofolio investasi yang "melindungi modal pertama". Bagi pengembang, ini berarti peserta tidak hanya bersaing dalam ukuran model, tetapi siapa yang bisa secara akurat menilai kapan harus berhenti dalam anggaran komputasi yang terbatas; bagi investor dan regulator, indikator baru juga memberikan titik jangkar manajemen risiko yang lebih intuitif. Dengan "kerendahan hati" menjadi ilmu baru, ekosistem AI sedang beralih dari orientasi skor menuju orientasi kepercayaan. Laporan terkait ETH melampaui 3600 USD! BlackRock mengajukan aplikasi staking untuk ETF Ethereum, LDO melonjak 20% ETF Bitcoin BlackRock "IBIT" menghasilkan lebih banyak daripada semua dana yang dimilikinya, bahkan lebih menguntungkan daripada ETF S&P 500 yang sepuluh kali lebih besar! XRP melewati USDT menjadi cryptocurrency dengan kapitalisasi pasar terbesar ketiga! Namun 95% pasokan beredar berada di zona profit, $3 menjadi garis hidup dan mati. Solana hanya tersisa kemewahan permukaan? Kenaikan koin kontemporer hanya bergantung pada manipulasi di belakang layar, siklus on-chain mungkin sudah menuju akhir 〈OpenAI menjelaskan mengapa ada ilusi AI? Tiga solusi untuk mengubah pemikiran evaluasi〉 artikel ini pertama kali diterbitkan oleh BlockTempo "Dunia Dinamis - Media Berita Blockchain Paling Berpengaruh."