2025-10-18 09:04:11

En el mundo de las competiciones de algoritmos, las reglas son claras, las restricciones son estrictas y la evaluación es implacable.

El LiveCodeBench Pro lanzado por @SentientAGI ha trasladado este entorno de programación real por completo al sistema de evaluación de modelos y ha sido oficialmente aceptado por @NeurIPSConf.

Este sistema redefine la idea de que "el modelo puede escribir código".
El proceso de evaluación cubre el camino completo de razonamiento del algoritmo: leer el problema, diseñar una solución, generar código, compilar y ejecutar, y pasar las pruebas ocultas.
Cada etapa se ejecuta en un entorno Docker unificado, y las limitaciones de tiempo y memoria se adhieren estrictamente a los estándares de la competencia original.

Las evaluaciones tradicionales suelen utilizar condiciones laxas y un banco de preguntas repetido; aunque las puntuaciones del modelo parecen impresionantes, son difíciles de reproducir.
LiveCodeBench Pro extrae los últimos problemas directamente de competiciones reales, bloquea las restricciones en ese momento, añade la fase de hackeo al estilo de Codeforces y pruebas internas de fuzz.
Los resultados de la evaluación han sido completamente contrastados y verificados, lo que puede reflejar la verdadera capacidad del algoritmo del modelo y el rendimiento de la ejecución del código.

Todo el proceso comienza al finalizar la competición: el sistema captura automáticamente el enunciado del problema, el generador de entradas y la lógica de evaluación, y luego congela las condiciones de restricción originales.
El modelo debe completar la solución del problema dentro de los recursos limitados, generar un programa C++ que se pueda compilar y aceptar pruebas ocultas en un entorno unificado.
Cada vez que se ejecuta, se genera un registro completo, el tiempo consumido, el uso de memoria, la información de compilación y los resultados de la evaluación, proporcionando una base completa para el análisis posterior.

La fuente de la tarea cubre múltiples plataformas de competencia autorizadas:

- Codeforces continúa ofreciendo una variedad de problemas recientes;
- ICPC refleja el diseño e implementación rápida de algoritmos bajo la cooperación en equipo;
- IOI trae desafíos de nivel olímpico orientados al control de estructuras y complejidad.

La dificultad del tema utiliza un sistema de calificación dinámica similar al Elo:
≤2000 es Easy, 2000–3000 es Medium, >3000 es Hard.
El nivel de dificultad se actualizará en tiempo real según los registros de resolución de problemas de los humanos y los modelos, asegurando que los resultados de la evaluación sean comparables y confiables en diferentes momentos.

LiveCodeBench Pro admite la reproducción local y la comparación pública.
Solo necesitas clonar el repositorio, instalar Python 3.12 y Docker, y configurar el adaptador de modelo para ejecutar completamente la evaluación localmente.
Los resultados locales utilizan el mismo entorno de juicio y conjunto de datos que la lista pública, garantizando que las puntuaciones se puedan comparar directamente.

Cada ejecución genera un archivo JSON estructurado que registra el juicio de cada pregunta, el tiempo de ejecución, el uso de memoria y las etiquetas de falla, lo que facilita al equipo de investigación localizar en profundidad el origen del problema.
Estos datos revelan las debilidades específicas del modelo en lógica a largo plazo, estrategias de búsqueda, control de complejidad o diseño de estructuras de datos, proporcionando una dirección clara para la mejora.

En la etapa en que los modelos generativos buscan frecuentemente altas puntuaciones y técnicas de indicación, LiveCodeBench Pro ofrece una referencia limpia.
Devuelve la capacidad del algoritmo al contexto real, haciendo que el modelo enfrente las mismas reglas y presiones que un programador humano.
Esta es una prueba sobre lógica y ejecución, y también un espejo claro que muestra los límites reales del modelo en la comprensión de la programación.

LiveCodeBench Pro lleva el código de vuelta al mundo de las reglas, llevando la evaluación de vuelta a la realidad verificable.

#KAITO #cookiedotfun #SentientAGI #Sentient

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

0/400

Sin comentarios

Temas de actualidadVer más
#GateSeptemberTransparencyReportComing
18.4K Popularidad
#CryptoMarketPullback
130.5K Popularidad
#OctoberRateCutForecast
15.4K Popularidad
#RipplePlans$1BXRPReserve
4.2K Popularidad
#ShowMyAlphaPoints
198.6K Popularidad

Gate Fun en tendenciaVer más
1GDOGGdog
Cap.M.:$1.4MHolders:4824
2GCATGCAT
Cap.M.:$1.2MHolders:5152
3芝麻开门芝麻开门
Cap.M.:$614KHolders:118
4MIMAMiMa
Cap.M.:$139KHolders:380
5GMGMEME
Cap.M.:$99.1KHolders:2204

Anclado