O concorrente mais forte da OpenAI treinou a IA para desmontar a caixa preta LLM e, acidentalmente, vislumbrou a "alma" do modelo grande

Fonte original: New Zhiyuan

Fonte da imagem: Gerado por Unbounded AI

A fim de descompactar a “caixa preta” de modelos grandes, a equipe de explicabilidade antrópica publicou um artigo descrevendo como eles poderiam treinar um novo modelo para entender um modelo simples.

Um estudo publicado pela Anthropic afirma ser capaz de ver a alma da inteligência artificial. Tem a seguinte aparência:

Endereço:

De acordo com os pesquisadores, o novo modelo pode prever e entender com precisão o princípio de funcionamento e o mecanismo de composição dos neurônios no modelo original.

A equipe de explicabilidade da Anthropic anunciou recentemente que decompôs com sucesso um espaço de recurso abstrato de alta dimensão em um sistema de IA simulado.

Crie uma IA explicável para entender a “caixa preta da IA”

Os pesquisadores primeiro treinaram uma IA muito simples de 512 neurônios para prever texto e, em seguida, treinaram outra IA chamada “autoencoder” para prever o padrão de ativação da primeira IA.

Os autocodificadores são solicitados a construir um conjunto de recursos (correspondentes ao número de neurônios na IA de maior dimensão) e prever como esses recursos serão mapeados para os neurônios na IA real.

Descobriu-se que, enquanto os neurônios na IA original não eram fáceis de entender, os neurônios simulados na nova IA (ou seja, “características”) eram monossemia, e cada característica representava um conceito ou função específica.

Por exemplo, o traço #2663 representa o conceito de “Deus”.

A mais forte das frases de treinamento para ativá-lo vem do registro de Josefo que diz “Quando a nevasca cai sobre Deus, ele vai para Sepphoris”.

Você pode ver que as ativações no topo são sobre os diferentes usos de “Deus”.

Este neurônio simulado parece ser composto por um conjunto de neurônios reais, incluindo 407, 182 e 259.

Esses neurônios reais em si têm pouco a ver com “Deus”, por exemplo, o Neuron 407 responde principalmente a textos não-ingleses (especialmente letras latinas enfatizadas) e não-padrão (como tags HTML).

Mas no nível do recurso, tudo está em ordem, e quando o recurso 2663 é ativado, aumenta a probabilidade de “abençoar”, “proibir”, “maldito” ou “-zilla” aparecer no texto.

A IA não distingue o conceito de “Deus” do “Deus” no nome do monstro. Isso pode ser porque a IA improvisada não tem recursos neuronais suficientes para lidar com isso.

Mas isso mudará à medida que o número de recursos que a IA tem aumentar:

Na parte inferior desta árvore, você pode ver como a IA entende “o” em termos matemáticos muda à medida que tem mais e mais características.

Em primeiro lugar, por que há uma característica específica de “o” em um termo matemático? Isto é provavelmente devido à necessidade da IA de prever que conhecer um determinado “o” deve ser seguido por algum vocabulário matemático, como “numerador” ou “cosseno”.

Da menor IA treinada pelos pesquisadores com apenas 512 recursos, apenas um recurso representava “o”, enquanto a maior IA com 16.384 recursos havia sido dividida em um recurso representando “o” em aprendizado de máquina, um recurso representando “o” em análise complexa e um recurso representando “o” em topologia e álgebra abstrata.

Portanto, se o sistema pudesse ser atualizado para uma IA com mais neurônios simulados, as características que representam “Deus” provavelmente se dividiriam em duas - uma para o significado de “Deus” na religião e outra para “Deus” em nome do monstro.

Mais tarde, pode haver Deus no cristianismo, Deus no judaísmo, Deus na filosofia, e assim por diante.

A equipa de investigação avaliou a interpretabilidade subjetiva de 412 grupos de neurónios reais e dos neurónios simulados correspondentes, e descobriu que a interpretabilidade dos neurónios simulados era geralmente boa:

Algumas características, como a que significa “Deus”, são usadas para conceitos específicos.

Muitas outras características altamente interpretáveis, incluindo algumas das mais interpretáveis, são a “formatação” usada para representar o texto, como letras maiúsculas ou minúsculas, inglês ou outros alfabetos, etc.

Quão comuns são esses recursos? Ou seja, se você treinar duas IA de recursos 4096 diferentes nos mesmos dados de texto, eles terão a maioria dos mesmos recursos 4096? Será que todos eles terão certas características que representam “Deus”?

Ou será que a primeira IA colocará “Deus” e “Godzilla” juntos, e a segunda IA os separará? Será que a segunda IA não terá o recurso “Deus”, mas usará esse espaço para armazenar alguns outros conceitos que a primeira IA não teria sido capaz de entender?

A equipa de investigação testou-o e descobriu que os seus dois modelos de IA eram muito semelhantes!

Em média, se houver uma característica no primeiro modelo, a característica mais semelhante no segundo modelo terá uma correlação mediana de 0,72.

Vi a alma da IA

O que vem a seguir?

Em maio deste ano, a OpenAI tentou fazer com que o GPT-4 (muito grande) entendesse o GPT-2 (muito pequeno). Eles fizeram com que o GPT-4 examinasse os 307.200 neurônios do GPT-2 e relatasse o que ele encontrou.

O GPT-4 encontrou uma série de resultados interessantes e um monte de bobagens aleatórias porque eles ainda não tinham dominado a arte de projetar neurônios reais em neurônios simulados e analisar neurônios simulados.

Embora os resultados não fossem óbvios, tratou-se, de facto, de uma tentativa muito ambiciosa.

Ao contrário desta IA no artigo de explicabilidade da Anthropic, o GPT-2 é uma IA real (embora muito pequena) que também impressionou o público em geral.

Mas o objetivo final da pesquisa é ser capaz de explicar os principais sistemas de IA.

A equipa de explicabilidade da Anthropic admite que ainda não o fez, principalmente por várias razões:

Em primeiro lugar, aumentar a escala dos codificadores automáticos é uma coisa difícil de fazer. Para explicar um sistema como o GPT-4 (ou o sistema equivalente da Anthropic, Claude), você precisa de uma IA interpretadora do mesmo tamanho.

Mas treinar IA nessa escala requer enorme poder de computação e apoio financeiro.

Em segundo lugar, a escalabilidade da interpretação também é um problema.

Mesmo se encontrássemos todos os neurônios simulados sobre Deus, Godzilla e tudo mais e desenhassemos um enorme diagrama de como eles estavam conectados.

Os pesquisadores ainda precisam responder a perguntas mais complexas, e resolvê-las requer interações complexas envolvendo milhões de recursos e conexões.

Portanto, precisa haver algum processo automatizado, algum tipo de “deixe o GPT-4 nos dizer o que o GPT-2 está fazendo”.

Finalmente, o que tudo isso tem a dizer para entender o cérebro humano?

Os seres humanos também usam redes neurais para raciocínio e conceitos de processamento.

Há muitos neurônios no cérebro humano, e isso é o mesmo que GPT-4.

Os dados disponíveis para os seres humanos também são muito escassos – há muitos conceitos (como lula) que raramente aparecem na vida cotidiana.

Estamos também a imitar um cérebro maior?

Esta ainda é uma área de pesquisa muito nova, mas houve algumas descobertas preliminares sugerindo que os neurônios no córtex visual humano codificam características de alguma forma hiperlocalizada, semelhante aos padrões observados em modelos de IA.

Recursos:

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)