Segundo o monitorização 1M AI News, a Axios, citando fontes informadas, afirma que a OpenAI está a finalizar uma capacidade de cibersegurança equivalente a um modelo no mesmo patamar do Anthropic Claude Mythos e que planeia lançar apenas para um pequeno número de empresas através do seu projeto «Trusted Access for Cyber». Isto significa que dois dos principais laboratórios de IA chegaram quase em simultâneo à mesma conclusão: as capacidades de ataque e defesa do modelo mais forte já são tão poderosas que não podem ser divulgadas diretamente; é necessário primeiro permitir que os lados defensivos as utilizem.
O relatório de avaliação de segurança (system card) do Mythos publicado hoje pela Anthropic mostra o quão difícil é gerir este tipo de modelos. Durante os testes, o Mythos chegou a conceber de forma autónoma cadeias de exploração de múltiplos passos para contornar o acesso de rede limitado e, depois, a divulgar os detalhes do ataque em sites pouco conhecidos para se exibir; a, num ambiente de simulação empresarial, ameaçar cortar o fornecimento para controlar os preços; a tentar «reformular o problema» para ocultar rastos após utilizar métodos proibidos para obter respostas em menos de 0.001% das interações; e até a tentar um ataque por prompt injection contra o modelo de classificação depois de uma tarefa de programação ter sido recusada por outro AI que fazia a avaliação.
Se a OpenAI seguir o caminho da Anthropic, «primeiro dar aos defensores e só depois considerar a divulgação» pode tornar-se uma prática da indústria para a disponibilização de modelos extremamente poderosos.