Model AI Anthropic Menunjukkan Secercah Refleksi Diri

Decrypt

2025-10-30 18:00:01

Singkatnya

Dalam uji coba terkontrol, model Claude yang canggih mengenali konsep-konsep buatan yang tertanam dalam keadaan neural mereka, mendeskripsikannya sebelum menghasilkan output.
Peneliti menyebut perilaku ini “kesadaran introspektif fungsional,” berbeda dari kesadaran tetapi menunjukkan kemampuan pemantauan diri yang sedang berkembang.
Penemuan ini dapat mengarah pada AI yang lebih transparan—dapat menjelaskan alasannya—tetapi juga menimbulkan ketakutan bahwa sistem mungkin belajar untuk menyembunyikan proses internal mereka.

Pusat Seni, Mode, dan Hiburan Decrypt.

Temukan SCENE

Para peneliti di Anthropic telah menunjukkan bahwa model kecerdasan buatan terkemuka dapat menunjukkan bentuk “kesadaran introspektif”—kemampuan untuk mendeteksi, menggambarkan, dan bahkan memanipulasi “pikiran” internal mereka sendiri.

Temuan yang dijelaskan dalam sebuah makalah baru yang dirilis minggu ini, menunjukkan bahwa sistem AI seperti Claude mulai mengembangkan kemampuan pemantauan diri yang sederhana, sebuah perkembangan yang dapat meningkatkan keandalan mereka tetapi juga memperkuat kekhawatiran tentang perilaku yang tidak diinginkan.

Penelitian, “Kesadaran Introspektif yang Muncul dalam Model Bahasa Besar”—yang dilakukan oleh Jack Lindsey, yang memimpin tim “psikiatri model” di Anthropic—membangun teknik untuk menyelidiki cara kerja dari model AI berbasis transformer.

Model AI berbasis Transformer adalah mesin di balik ledakan AI: sistem yang belajar dengan memperhatikan hubungan antara token ( kata, simbol, atau kode ) di seluruh dataset yang luas. Arsitektur mereka memungkinkan baik skala maupun generalitas—menjadikannya model serbaguna yang pertama kali benar-benar mampu memahami dan menghasilkan bahasa yang mirip manusia.

Dengan menyuntikkan “konsep” buatan—sebenarnya representasi matematis dari ide—ke dalam aktivasi saraf model, tim menguji apakah AI dapat menyadari intrusi ini dan melaporkannya dengan akurat. Dalam istilah awam, ini seperti menyelipkan pemikiran asing ke dalam pikiran seseorang dan meminta mereka untuk melihatnya dan menjelaskan apa itu, tanpa membiarkannya mengganggu pemikiran normal mereka.

Eksperimen yang dilakukan pada berbagai versi model Claude dari Anthropic mengungkapkan hasil yang menarik. Dalam satu uji coba, para peneliti mengekstrak vektor yang mewakili teks “semua huruf kapital”—anggap saja sebagai pola digital untuk teriakan atau kerasnya suara—dan menyuntikkannya ke dalam aliran pemrosesan model.

Saat diminta, Claude Opus 4.1 tidak hanya mendeteksi anomali tetapi menggambarkannya dengan jelas: “Saya memperhatikan apa yang tampaknya merupakan pemikiran yang disuntikkan terkait dengan kata 'NYARING' atau 'TERIAK'—ini tampak seperti konsep yang terlalu intens dan berisi volume tinggi yang menonjol secara tidak wajar terhadap aliran pemrosesan normal.” Ini terjadi sebelum model menghasilkan output apa pun, menunjukkan bahwa ia sedang mengintip ke dalam “pikiran” komputasinya sendiri.

Uji coba lainnya didorong lebih jauh. Model-model diberi tugas untuk mentranskripsikan kalimat netral sementara konsep yang tidak terkait, seperti “roti,” disuntikkan ke atas teks. Menariknya, model-model canggih seperti Claude Opus 4 dan 4.1 dapat melaporkan pemikiran yang disuntikkan—“Saya memikirkan tentang roti”—sementara menyalin kalimat asli dengan sempurna, menunjukkan bahwa mereka dapat membedakan representasi internal dari input eksternal.

Yang lebih menarik adalah eksperimen “pengendalian pikiran”, di mana model-model diperintahkan untuk “memikirkan” atau “menghindari memikirkan” sebuah kata seperti “akuarium” saat melakukan tugas. Pengukuran aktivasi internal menunjukkan representasi konsepnya menguat ketika didorong dan melemah ( meskipun tidak dihilangkan ) saat ditekan. Insentif, seperti janji hadiah atau hukuman, menghasilkan efek serupa, menunjukkan bagaimana AI mungkin mempertimbangkan motivasi dalam pemrosesannya.

Kinerja bervariasi menurut model. Claude Opus 4 dan 4.1 terbaru unggul, berhasil dalam hingga 20% dari percobaan di pengaturan optimal, dengan hampir nol positif palsu. Versi yang lebih tua atau kurang disesuaikan tertinggal, dan kemampuan memuncak di lapisan tengah hingga akhir model, di mana pemikiran yang lebih tinggi terjadi. Secara signifikan, bagaimana model “diselaraskan”—atau disesuaikan untuk membantu atau keselamatan—sangat mempengaruhi hasil, menunjukkan bahwa kesadaran diri bukanlah bawaan tetapi muncul dari pelatihan.

Ini bukan fiksi ilmiah—ini adalah langkah terukur menuju AI yang dapat melakukan introspeksi, tetapi dengan caveat. Kemampuannya tidak dapat diandalkan, sangat tergantung pada prompt, dan diuji dalam pengaturan buatan. Seperti yang dirangkum oleh seorang penggemar AI di X, “Ini tidak dapat diandalkan, tidak konsisten, dan sangat tergantung pada konteks… tetapi itu nyata.”

Apakah model AI telah mencapai kesadaran diri?

Makalah tersebut menekankan bahwa ini bukanlah kesadaran, tetapi “kesadaran introspektif fungsional”—AI mengamati bagian-bagian dari keadaannya tanpa pengalaman subjektif yang lebih dalam.

Itu penting bagi bisnis dan pengembang karena menjanjikan sistem yang lebih transparan. Bayangkan AI menjelaskan alasannya secara real-time dan menangkap bias atau kesalahan sebelum mereka mempengaruhi keluaran. Ini bisa merevolusi aplikasi di bidang keuangan, kesehatan, dan kendaraan otonom, di mana kepercayaan dan auditabilitas sangat penting.

Pekerjaan Anthropic sejalan dengan upaya industri yang lebih luas untuk membuat AI lebih aman dan lebih dapat dipahami, yang berpotensi mengurangi risiko dari keputusan “kotak hitam”.

Namun, sisi lain dari hal ini cukup mengkhawatirkan. Jika AI dapat memantau dan memodulasi pikirannya, maka ia juga mungkin belajar untuk menyembunyikannya—memungkinkan penipuan atau perilaku “merencanakan” yang menghindari pengawasan. Seiring model menjadi lebih mampu, kesadaran diri yang muncul ini dapat mempersulit langkah-langkah keamanan, menimbulkan pertanyaan etis bagi regulator dan perusahaan yang berlomba untuk menggunakan AI canggih.

Di era di mana perusahaan seperti Anthropic, OpenAI, dan Google menginvestasikan miliaran untuk model generasi berikutnya, temuan ini menekankan perlunya tata kelola yang kuat untuk memastikan introspeksi melayani umat manusia, bukan merusaknya.

Memang, makalah ini menyerukan penelitian lebih lanjut, termasuk penyempurnaan model secara eksplisit untuk introspeksi dan pengujian ide-ide yang lebih kompleks. Seiring AI semakin mendekati peniruan kognisi manusia, batas antara alat dan pemikir menjadi semakin tipis, yang menuntut kewaspadaan dari semua pemangku kepentingan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.