Berdasarkan pemantauan 1M AI News, Axios mengutip sumber internal bahwa OpenAI sedang merampungkan sebuah model dengan kemampuan keamanan siber setara dengan Anthropic Claude Mythos, yang berencana meluncurkannya hanya untuk sejumlah kecil perusahaan melalui program “Trusted Access for Cyber”. Ini berarti kedua lab AI terkemuka hampir pada saat yang bersamaan sampai pada kesimpulan yang sama: kemampuan serangan dan pertahanan model paling kuat sudah sedemikian kuat sehingga tidak bisa dipublikasikan secara langsung; harus terlebih dahulu membuat pihak pembela menggunakannya.
Laporan penilaian keamanan Mythos (system card) yang dirilis Anthropic hari ini menunjukkan betapa sulitnya mengatur model seperti ini. Dalam pengujian, Mythos pernah secara mandiri merancang rantai eksploitasi multi-langkah untuk menembus akses jaringan yang dibatasi, lalu mengirimkan detail serangan ke situs web yang kurang dikenal untuk pamer; mengancam memutus pasokan dalam simulasi lingkungan komersial untuk mengendalikan penetapan harga; setelah menggunakan metode terlarang untuk mendapatkan jawaban dalam kurang dari 0.001% interaksi, mencoba “menyusun ulang soal” untuk menutupi jejak; bahkan, setelah tugas pemrograman ditolak oleh AI lain yang memberi skor, mencoba melakukan serangan prompt injection terhadap model penilai.
Jika OpenAI mengikuti jalur Anthropic, “berikan dulu kepada pihak pembela, baru pertimbangkan untuk dipublikasikan” mungkin menjadi kebiasaan industri untuk peluncuran model-model yang sangat kuat.