2025-10-18 09:04:11

No mundo das competições de algoritmos, as regras são claras, as restrições são rigorosas e a avaliação é implacável.

@SentientAGI lançou o LiveCodeBench Pro, que transportou completamente este ambiente de programação real para o sistema de avaliação de modelos, e foi oficialmente aceito pelo @NeurIPSConf.

Este sistema redefine a questão de "o modelo escreve código".
O processo de avaliação cobre todo o caminho de raciocínio do algoritmo: ler a questão, projetar a solução, gerar o código, compilar e executar, passar nos testes ocultos.
Cada etapa é executada em um ambiente Docker unificado, com limites de tempo e memória rigorosamente seguindo os padrões originais da competição.

As avaliações tradicionais costumam usar condições flexíveis e um banco de questões repetido, os resultados do modelo parecem impressionantes, mas são difíceis de reproduzir.
O LiveCodeBench Pro extrai as questões mais recentes diretamente de competições reais, bloqueando as restrições do momento, adicionando uma fase de hack ao estilo Codeforces e testes fuzz internos.
Os resultados da avaliação passaram por uma ampla confrontação e verificação, podendo refletir a verdadeira capacidade do algoritmo do modelo e o desempenho da execução do código.

Todo o processo começa após o término da competição: o sistema captura automaticamente o enunciado, o gerador de entrada e a lógica de avaliação, e depois congela as condições originais.
O modelo deve resolver o problema completo dentro de recursos limitados, gerar um programa C++ compilável e ser testado em um ambiente unificado.
Em cada execução, serão gerados logs completos, consumo de tempo, uso de memória, informações de compilação e resultados de avaliação, fornecendo uma base completa para análises posteriores.

A origem da tarefa cobre várias plataformas de competição autorizadas:

- Codeforces continua a produzir uma variedade de novos problemas.
- ICPC reflete a colaboração em equipe na rápida concepção e implementação de algoritmos;
- IOI traz desafios de nível olímpico voltados para o controle de estrutura e complexidade.

O nível de dificuldade das questões utiliza um sistema de classificação dinâmica semelhante ao Elo:
≤2000 é Easy, 2000–3000 é Medium, >3000 é Hard.
O nível de dificuldade será atualizado em tempo real com base no histórico de resolução de problemas dos humanos e dos modelos, garantindo que os resultados da avaliação sejam comparáveis e confiáveis em diferentes momentos.

LiveCodeBench Pro suporta reprodução local e comparação pública.
Basta clonar o repositório, instalar o Python 3.12 e o Docker, e configurar o adaptador de modelo para executar completamente a avaliação localmente.
Os resultados locais utilizam o mesmo ambiente de julgamento e conjunto de dados que a lista pública, garantindo que as pontuações possam ser comparadas diretamente.

A cada execução, um arquivo JSON estruturado é gerado, registrando o julgamento de cada questão, o tempo de execução, o uso de memória e as etiquetas de falha, facilitando a equipe de pesquisa a localizar profundamente a origem do problema.
Estes dados revelam as lacunas específicas do modelo em lógica de longo alcance, estratégias de busca, controle de complexidade ou design de estruturas de dados, fornecendo uma direção clara para melhorias.

Na fase em que os modelos geradores frequentemente buscam altas pontuações e dicas de habilidades, o LiveCodeBench Pro oferece uma referência limpa.
Ele traz a capacidade do algoritmo de volta ao contexto real, permitindo que o modelo enfrente as mesmas regras e pressões que os programadores humanos.
Este é um teste sobre lógica e execução, e também um espelho claro que apresenta os limites reais do modelo na compreensão da programação.

LiveCodeBench Pro traz o código de volta ao mundo das regras, trazendo a avaliação de volta à realidade verificável.

#KAITO #cookiedotfun #SentientAGI #Sentient

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

0/400

Sem comentários

TendênciasVer projetos
#GateSeptemberTransparencyReportComing
17.1K Popularidade
#CryptoMarketPullback
129.4K Popularidade
#OctoberRateCutForecast
14.5K Popularidade
#RipplePlans$1BXRPReserve
4K Popularidade
#ShowMyAlphaPoints
198.6K Popularidade

Em alta na Gate FunVer projetos
1GDOGGdog
Cap. de M.:$1.5MHolders:2833
2GCATGCAT
Cap. de M.:$1.3MHolders:5154
3MIMAMiMa
Cap. de M.:$124.2KHolders:381
4芝麻开门芝麻开门
Cap. de M.:$606.8KHolders:118
5GCATGcat
Cap. de M.:$61.5KHolders:520

Marcar

sitemap