Le concurrent le plus puissant d’OpenAI a entraîné l’IA à démonter la boîte noire LLM et a accidentellement aperçu « l’âme » du grand modèle

Source d’origine : New Zhiyuan

Source de l’image : Généré par Unbounded AI

Afin de décortiquer la « boîte noire » des grands modèles, l’équipe d’Anthropic exlicability a publié un article décrivant comment elle pourrait entraîner un nouveau modèle à comprendre un modèle simple.

Une étude publiée par Anthropic prétend pouvoir voir l’âme de l’intelligence artificielle. Il ressemble à ceci :

Adresse:

Selon les chercheurs, le nouveau modèle peut prédire et comprendre avec précision le principe de fonctionnement et le mécanisme de composition des neurones dans le modèle original.

L’équipe d’explicabilité d’Anthropic a récemment annoncé qu’elle avait réussi à décomposer un espace de caractéristiques abstrait de grande dimension dans un système d’IA simulé.

Créer une IA explicable pour comprendre la « boîte noire de l’IA"

Les chercheurs ont d’abord entraîné une IA très simple de 512 neurones pour prédire du texte, puis ont entraîné une autre IA appelée « auto-encodeur » pour prédire le modèle d’activation de la première IA.

Les auto-encodeurs sont invités à construire un ensemble de caractéristiques (correspondant au nombre de neurones dans l’IA de dimension supérieure) et à prédire comment ces caractéristiques seront mappées aux neurones de l’IA réelle.

Il a été constaté que si les neurones de l’IA originale n’étaient pas faciles à comprendre, les neurones simulés dans la nouvelle IA (c’est-à-dire les « caractéristiques ») étaient monosémiques et chaque caractéristique représentait un concept ou une fonction spécifique.

Par exemple, le trait #2663 représente le concept de « Dieu ».

La plus forte des phrases d’entraînement pour l’activer vient du récit de Flavius Josèphe qui dit « Quand le blizzard s’abat sur Dieu, il va à Sepphoris ».

Vous pouvez voir que les activations en haut concernent toutes les différentes utilisations de « Dieu ».

Ce neurone simulé semble être composé d’un ensemble de neurones réels, dont 407, 182 et 259.

Ces neurones réels eux-mêmes n’ont pas grand-chose à voir avec « Dieu », par exemple, Neuron 407 répond principalement aux textes non anglais (en particulier les lettres latines accentuées) et non standard (tels que les balises HTML).

Mais au niveau de la fonctionnalité, tout est en ordre, et lorsque la fonctionnalité 2663 est activée, cela augmente la probabilité que « bless », « forbid », « damn » ou « -zilla » apparaissent dans le texte.

L’IA ne fait pas la distinction entre le concept de « Dieu » et le « Dieu » dans le nom du monstre. C’est peut-être parce que l’IA improvisée n’a pas assez de ressources neuronales pour y faire face.

Mais cela changera à mesure que le nombre de fonctionnalités de l’IA augmentera :

Au bas de cet arbre, vous pouvez voir comment l’IA comprend « le » en termes mathématiques change car il a de plus en plus de caractéristiques.

Tout d’abord, pourquoi y a-t-il une spécificité de « le » dans un terme mathématique ? Cela est probablement dû au besoin de l’IA de prédire que la connaissance d’un « le » particulier devrait être suivie d’un vocabulaire mathématique, tel que « numérateur » ou « cosinus ».

Sur la plus petite IA entraînée par les chercheurs avec seulement 512 caractéristiques, une seule caractéristique représentait « la », tandis que la plus grande IA avec 16 384 caractéristiques avait été divisée en une caractéristique représentant « la » dans l’apprentissage automatique, une caractéristique représentant « la » dans l’analyse complexe et une caractéristique représentant « la » en topologie et en algèbre abstraite.

Par conséquent, si le système pouvait être mis à niveau vers une IA avec plus de neurones simulés, les caractéristiques qui représentent « Dieu » se diviseraient probablement en deux - l’une pour la signification de « Dieu » dans la religion et l’autre pour « Dieu » dans le nom du monstre.

Plus tard, il peut y avoir Dieu dans le christianisme, Dieu dans le judaïsme, Dieu dans la philosophie, et ainsi de suite.

L’équipe de recherche a évalué l’interprétabilité subjective de 412 groupes de neurones réels et des neurones simulés correspondants, et a constaté que l’interprétabilité des neurones simulés était généralement bonne :

Certaines caractéristiques, comme celle qui signifie « Dieu », sont utilisées pour des concepts spécifiques.

De nombreuses autres caractéristiques hautement interprétables, y compris certaines des plus interprétables, sont la « mise en forme » utilisée pour représenter le texte, comme les lettres majuscules ou minuscules, l’anglais ou d’autres alphabets, etc.

À quel point ces caractéristiques sont-elles courantes ? En d’autres termes, si vous entraînez deux IA différentes à 4096 entités sur les mêmes données textuelles, auront-elles la plupart des mêmes caractéristiques 4096 ? Auront-ils tous certaines caractéristiques qui représentent « Dieu » ?

Ou est-ce que la première IA mettra « Dieu » et « Godzilla » ensemble, et que la seconde IA les séparera ? La deuxième IA n’aura-t-elle pas du tout la fonction « Dieu », mais utilisera-t-elle cet espace pour stocker d’autres concepts que la première IA n’aurait pas été en mesure de comprendre ?

L’équipe de recherche l’a testé et a constaté que leurs deux modèles d’IA étaient très similaires !

En moyenne, s’il existe une caractéristique dans le premier modèle, la caractéristique la plus similaire dans le deuxième modèle aura une corrélation médiane de 0,72.

J’ai vu l’âme de l’IA

Quelle est la prochaine étape ?

En mai de cette année, OpenAI a essayé de faire comprendre GPT-4 (très grand) à GPT-2 (très petit). Ils ont demandé à GPT-4 d’examiner les 307 200 neurones de GPT-2 et de rapporter ce qu’il a trouvé.

GPT-4 a trouvé une série de résultats intéressants et un tas d’absurdités aléatoires parce qu’ils n’avaient pas encore maîtrisé l’art de projeter de vrais neurones sur des neurones simulés et d’analyser des neurones simulés.

Bien que les résultats n’aient pas été évidents, il s’agissait en effet d’une tentative très ambitieuse.

Contrairement à cette IA dans l’article explicable d’Anthropic, GPT-2 est une IA réelle (bien que très petite) qui a également impressionné le grand public.

Mais le but ultime de la recherche est d’être en mesure d’expliquer les systèmes d’IA courants.

L’équipe d’explicabilité d’Anthropic admet qu’elle ne l’a pas encore fait, principalement pour plusieurs raisons :

Tout d’abord, la mise à l’échelle des auto-encodeurs est une chose difficile à faire. Afin d’expliquer un système comme GPT-4 (ou le système équivalent d’Anthropic, Claude), vous avez besoin d’une IA interpréteur de la même taille.

Mais la formation de l’IA à cette échelle nécessite une énorme puissance de calcul et un soutien financier.

Deuxièmement, l’évolutivité de l’interprétation est également un problème.

Même si nous trouvions tous les neurones simulés sur Dieu, Godzilla et tout le reste et que nous dessinions un énorme diagramme de la façon dont ils étaient connectés.

Les chercheurs doivent encore répondre à des questions plus complexes, et leur résolution nécessite des interactions complexes impliquant des millions de caractéristiques et de connexions.

Il doit donc y avoir un processus automatisé, une sorte de « laisser GPT-4 nous dire ce que GPT-2 fait ».

Enfin, qu’est-ce que tout cela a à dire pour comprendre le cerveau humain ?

Les humains utilisent également des réseaux neuronaux pour raisonner et traiter des concepts.

Il y a beaucoup de neurones dans le cerveau humain, et c’est la même chose que GPT-4.

Les données disponibles pour les humains sont également très rares – il existe de nombreux concepts (comme le calmar) qui apparaissent rarement dans la vie quotidienne.

Sommes-nous également en train d’imiter un cerveau plus gros ?

Il s’agit encore d’un domaine de recherche très nouveau, mais il y a eu des résultats préliminaires suggérant que les neurones du cortex visuel humain codent des caractéristiques d’une manière hyperlocalisée, similaire aux modèles observés dans les modèles d’IA.

Ressources:

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • بالعربية
  • Português (Brasil)
  • 简体中文
  • English
  • Español
  • Français (Afrique)
  • Bahasa Indonesia
  • 日本語
  • Português (Portugal)
  • Русский
  • 繁體中文
  • Українська
  • Tiếng Việt