2025-10-18 09:04:11

Di dunia kompetisi algoritme, aturannya jelas, batasannya ketat, dan penilaiannya tanpa ampun.

LiveCodeBench Pro yang diterbitkan oleh @SentientAGI telah sepenuhnya membawa lingkungan pemrograman yang nyata ke dalam sistem evaluasi model, dan secara resmi diterima oleh @NeurIPSConf.

Sistem ini mendefinisikan ulang hal "model akan menulis kode".
Proses evaluasi mencakup seluruh jalur penalaran algoritme: membaca soal, merancang solusi, menghasilkan kode, mengompilasi dan mengeksekusi, melewati pengujian tersembunyi.
Setiap tahap berjalan di lingkungan Docker yang seragam, dengan batas waktu dan memori yang ketat mengikuti standar kompetisi asli.

Pengujian tradisional sering kali menggunakan kondisi yang longgar dan bank soal yang berulang, sehingga skor model terlihat mencolok, namun sulit untuk direproduksi.
LiveCodeBench Pro mengambil soal terbaru langsung dari kompetisi nyata, mengunci batasan saat itu, menambahkan fase hack gaya Codeforces dan pengujian fuzz internal.
Hasil evaluasi telah melalui cukup banyak perlawanan dan pengujian, dapat mencerminkan kemampuan algoritme nyata dari model serta kinerja eksekusi kode.

Seluruh proses dimulai dari akhir pertandingan: sistem secara otomatis mengambil soal, generator input, dan logika penilaian, kemudian membekukan kondisi batas asli.
Model harus menyelesaikan masalah secara lengkap dalam sumber daya yang terbatas, menghasilkan program C++ yang dapat dikompilasi, dan menerima pengujian tersembunyi dalam lingkungan yang seragam.
Setiap kali dijalankan, akan menghasilkan log lengkap, waktu yang dihabiskan, penggunaan memori, informasi kompilasi, dan hasil evaluasi, memberikan dasar lengkap untuk analisis selanjutnya.

Sumber tugas mencakup beberapa platform kompetisi otoritatif:

- Codeforces terus menghasilkan berbagai variasi soal terbaru;
- ICPC mencerminkan desain dan implementasi algoritme cepat dalam kerja sama tim;
- IOI membawa tantangan tingkat olimpiade yang berfokus pada kontrol struktur dan kompleksitas.

Tingkat kesulitan soal menggunakan sistem penilaian dinamis yang mirip dengan Elo:
≤2000 adalah Easy, 2000–3000 adalah Medium, >3000 adalah Hard.
Tingkat kesulitan akan diperbarui secara real-time seiring dengan catatan penyelesaian masalah manusia dan model, memastikan bahwa hasil penilaian memiliki perbandingan dan keandalan pada waktu yang berbeda.

LiveCodeBench Pro mendukung reproduksi lokal dan perbandingan publik.
Cukup kloning repositori, instal Python 3.12 dan Docker, dan konfigurasikan adaptor model, Anda dapat menjalankan evaluasi secara lengkap di lokal.
Hasil lokal menggunakan lingkungan penilaian dan dataset yang sama dengan daftar publik, memastikan skor dapat dibandingkan secara langsung.

Setiap kali dijalankan, akan menghasilkan file JSON terstruktur yang mencatat penilaian setiap soal, waktu eksekusi, penggunaan memori, dan label kegagalan, untuk memudahkan tim penelitian dalam mengidentifikasi sumber masalah.
Data ini mengungkapkan kelemahan spesifik model dalam logika jangka panjang, strategi pencarian, kontrol kompleksitas, atau desain struktur data, memberikan arah yang jelas untuk perbaikan.

Pada tahap di mana model generatif sering mengejar skor tinggi dan teknik petunjuk, LiveCodeBench Pro menawarkan referensi yang bersih.
Ini mengembalikan kemampuan algoritme ke konteks nyata, memungkinkan model menghadapi aturan dan tekanan yang sama dengan programmer manusia.
Ini adalah ujian tentang logika dan eksekusi, serta cermin yang jelas, yang menunjukkan batasan nyata dari model dalam pemahaman pemrograman.

LiveCodeBench Pro mengembalikan kode ke dunia yang teratur, dan mengembalikan penilaian ke realitas yang dapat diverifikasi.

#KAITO #cookiedotfun #SentientAGI #Sentient

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik TrendingLihat Lebih Banyak
#GateSeptemberTransparencyReportComing
18.4K Popularitas
#CryptoMarketPullback
130.6K Popularitas
#OctoberRateCutForecast
15.6K Popularitas
#RipplePlans$1BXRPReserve
4.2K Popularitas
#ShowMyAlphaPoints
198.6K Popularitas

Hot Gate FunLihat Lebih Banyak
1GDOGGdog
MC:$1.4MHolder:4825
2GCATGCAT
MC:$1.2MHolder:5153
3MIMAMiMa
MC:$136.3KHolder:380
4GMGMEME
MC:$93KHolder:2204
5芝麻人生芝麻人生
MC:$76.6KHolder:7303

Sematkan

peta situs