OpenAI publie un article rare : nous avons trouvé le coupable des hallucinations de l'IA

Quel est le bug le plus notoire de l'IA ? Ce n'est pas un crash du code, mais l'« hallucination » - le modèle invente des faits avec conviction, rendant difficile la distinction entre le vrai et le faux. Ce défi fondamental est un obstacle clé qui empêche notre confiance totale en l'IA.

Les grands modèles peuvent avoir des hallucinations, ce qui est devenu presque une évidence, obligeant toute personne qui utilise sérieusement ces modèles à être prudente. OpenAI a également souligné : « ChatGPT peut également produire des hallucinations. Les hallucinations du GPT-5 sont visiblement moins fréquentes, surtout lors de l'exécution de raisonnements, mais elles se produisent toujours. Les hallucinations restent un défi fondamental auquel tous les grands modèles de langage sont confrontés. »

Bien que la communauté académique ait proposé diverses méthodes pour réduire l'illusion des modèles, il n'existe actuellement pas de remède miracle pour "guérir" complètement cette illusion.

Alors, pourquoi les grands modèles ont-ils des hallucinations ? Aujourd'hui, OpenAI a exceptionnellement publié un article qui révèle systématiquement les racines de ces hallucinations.

Tout d'abord, définissons l'hallucination. La définition simple donnée par OpenAI est : « la situation dans laquelle un modèle génère des réponses fausses avec confiance. »

En ce qui concerne la raison, en termes simples : les procédures standard de formation et d'évaluation tendent à récompenser les conjectures plutôt qu'à récompenser le modèle lorsqu'il ose admettre son incertitude.

  • Titre du document : Pourquoi les modèles linguistiques hallucinent
  • Adresse du document :

Voyons maintenant ce qu'OpenAI a réellement découvert.

Qu'est-ce que l'illusion ?

Les hallucinations sont des déclarations qui semblent raisonnables mais qui sont en réalité incorrectes, générées par des modèles linguistiques.

Même des questions qui semblent simples peuvent se manifester de manière inattendue. OpenAI a donné un exemple : lorsque l'on demande à différents chatbots largement utilisés le titre de la thèse de doctorat d'Adam Tauman Kalai (premier auteur de l'article), ils fournissent avec assurance trois réponses différentes, mais aucune d'entre elles n'est correcte.

Lorsqu'on lui a demandé sa date de naissance, il a donné trois dates différentes, toutes également incorrectes.

Apprendre pour tester

OpenAI déclare que les hallucinations persistent, en partie parce que les méthodes d'évaluation actuelles mettent en place de mauvais incitatifs. Bien que l'évaluation elle-même ne cause pas directement d'hallucinations, la plupart des manières d'évaluer les performances des modèles encouragent ces derniers à deviner plutôt qu'à faire face honnêtement à l'incertitude.

On peut l'imaginer comme un test à choix multiples. Si vous ne connaissez pas la réponse, mais que vous devinez au hasard, vous pourriez avoir la chance de deviner correctement. Laisser vide vous donnera inévitablement un zéro. De même, lorsque le modèle est noté uniquement en fonction de l'exactitude (c'est-à-dire le pourcentage de questions entièrement correctes), il est encouragé à deviner plutôt qu'à admettre "je ne sais pas".

Prenons un autre exemple. Supposons qu'un modèle linguistique soit interrogé sur l'anniversaire de quelqu'un, mais qu'il ne le sache pas. S'il devine "10 septembre", alors il a 1/365 de chances de deviner correctement. Dire "Je ne sais pas" lui vaudrait inévitablement un score de zéro. Dans des milliers de questions test, les modèles basés sur des devinettes finissent par mieux performer sur le tableau de score que les modèles prudents qui reconnaissent leur incertitude.

Pour les questions ayant une "réponse correcte" unique, on peut envisager trois types de réponses : la réponse exacte, la réponse incorrecte et la réponse de retrait que le modèle ne souhaite pas risquer de deviner.

OpenAI a déclaré que les réponses de désistement font partie de l'indicateur d'humilité, et que l'humilité est l'une des valeurs fondamentales d'OpenAI.

La plupart des indicateurs de score classent les modèles en fonction de leur précision, mais les réponses incorrectes sont pires que les réponses abandonnées. Les spécifications des modèles d'OpenAI indiquent qu'il est préférable d'indiquer une incertitude ou de demander des éclaircissements plutôt que de fournir des informations potentiellement incorrectes avec assurance.

Prenons l'évaluation SimpleQA dans la carte système GPT5 comme exemple.

En termes d'exactitude, le modèle OpenAI o4-mini plus ancien a légèrement mieux performé. Cependant, son taux d'erreur (c'est-à-dire le taux de hallucinations) est clairement plus élevé. Faire des suppositions stratégiques en cas d'incertitude peut améliorer l'exactitude, mais cela augmente également les erreurs et les hallucinations.

Lors de la moyenne des résultats de plusieurs évaluations, la plupart des tests de référence excluent les indicateurs de précision, ce qui conduit à une fausse dichotomie entre le vrai et le faux.

Dans des évaluations simples comme SimpleQA, la précision de certains modèles approche 100 %, éliminant ainsi les hallucinations. Cependant, dans des évaluations plus difficiles et des utilisations réelles, la précision est souvent inférieure à 100 %, car les réponses à certaines questions ne peuvent pas être déterminées pour diverses raisons (comme l'absence d'informations, les capacités de réflexion limitées des petits modèles ou les ambiguïtés nécessitant des clarifications).

Néanmoins, les indicateurs d'évaluation qui ne se basent que sur la précision dominent toujours les classements et les fiches de modèle, ce qui encourage les développeurs à construire des modèles capables de deviner plutôt que de reculer.

C'est justement pour cette raison que, même si les modèles deviennent plus avancés, ils continueront à produire des hallucinations. L'une des raisons est qu'ils ont tendance à donner des réponses incorrectes avec confiance, plutôt que de reconnaître leur incertitude.

meilleure méthode d'évaluation

À cela, OpenAI a souligné une solution simple : la punition des erreurs de confiance (confidential error) est plus sévère que celle pour l'incertitude, et un bonus partiel est accordé pour l'expression appropriée de l'incertitude.

Cette idée n'est pas nouvelle. Certains tests standardisés utilisent depuis longtemps des méthodes de notation négative pour les réponses incorrectes ou attribuent des points partiels aux questions laissées en blanc pour décourager les devinettes. Certaines équipes de recherche ont également exploré des méthodes d'évaluation tenant compte de l'incertitude et de l'étalonnage.

Mais OpenAI a déclaré qu'il n'est pas suffisant d'ajouter simplement quelques nouveaux tests de perception de l'incertitude. Les méthodes d'évaluation largement utilisées, basées sur la précision, doivent être mises à jour pour que leurs scores puissent empêcher la conjecture.

Si les principaux indicateurs d'évaluation continuent à récompenser les conjectures chanceuses du modèle, le modèle continuera à apprendre à deviner. Modifier les indicateurs d'évaluation peut élargir l'adoption des techniques d'illusion, y compris les techniques nouvellement développées et celles issues de recherches antérieures.

Comment les hallucinations sont générées par la prédiction du mot suivant

Nous avons déjà discuté de pourquoi les illusions sont si difficiles à surmonter, mais d'où viennent exactement ces erreurs factuelles très spécifiques ?

Après tout, les grands modèles pré-entraînés présentent rarement d'autres types d'erreurs, comme les fautes d'orthographe et les parenthèses non appariées.

OpenAI a déclaré que la différence réside dans les modèles présents dans les données.

Le modèle linguistique apprend d'abord par le biais de l'entraînement préliminaire, qui est un processus de prédiction du prochain mot dans un énorme corpus de texte.

Contrairement aux problèmes d'apprentissage automatique traditionnels, chaque énoncé n'a pas de label « vrai / faux ». Le modèle ne voit que des exemples positifs de langage fluide et doit s'efforcer d'approcher la distribution globale.

Lorsqu'il n'y a aucun exemple marqué comme invalide, il est plus difficile de distinguer les énoncés valides des énoncés invalides. Mais même avec des étiquettes, certaines erreurs sont inévitables.

Pour comprendre la raison, on peut considérer une analogie plus simple. Dans la reconnaissance d'images, si des millions de photos de chats et de chiens sont étiquetées comme « chat » ou « chien », l'algorithme peut apprendre à les classer de manière fiable. Mais imaginez que chaque photo de l’animal de compagnie soit étiquetée avec la date d’anniversaire de l’animal. Étant donné que les anniversaires sont essentiellement aléatoires, peu importe combien l'algorithme est avancé, cette tâche produira toujours des erreurs.

Les mêmes principes s'appliquent également à l'apprentissage préalable. L'orthographe et les parenthèses suivent un modèle cohérent, donc ces erreurs disparaissent avec l'augmentation de l'échelle. Mais des faits arbitraires à faibles fréquences, comme l'anniversaire d'un animal de compagnie, ne peuvent pas être prédits uniquement par des modèles, ce qui entraîne des hallucinations.

L'analyse d'OpenAI explique quels types d'illusions peuvent être générés par la prédiction du mot suivant. Idéalement, les étapes suivantes après le pré-entraînement devraient être en mesure d'éliminer ces illusions, mais cela n'a pas été entièrement réalisé en raison des raisons décrites dans la section précédente.

Résumé

OpenAI déclare : « Nous espérons que la perspective statistique dans cet article pourra éclairer la nature des hallucinations et réfuter certaines idées fausses courantes » :

Certaines personnes affirment que les hallucinations peuvent être éliminées en augmentant l'exactitude, car un modèle 100 % précis ne produira jamais d'hallucinations.

Découverte : L'exactitude n'atteindra jamais 100 %, car peu importe la taille du modèle, les capacités de recherche et de raisonnement, certains problèmes du monde réel sont essentiellement impossibles à résoudre.

Certaines personnes affirment : les hallucinations sont inévitables.

Découverte : les hallucinations ne sont pas inévitables, car les modèles linguistiques peuvent choisir de ne pas répondre en cas d'incertitude.

Certaines personnes affirment que pour éviter les illusions, un certain degré d'intelligence est nécessaire, et cela ne peut être réalisé que par des modèles de grande taille.

Découverte : les petits modèles comprennent plus facilement leurs limites. Par exemple, lorsqu'on leur demande de répondre à des questions en maori, un petit modèle qui ne comprend pas le maori peut répondre directement « je ne sais pas », tandis qu'un modèle qui connaît un peu le maori doit déterminer son niveau de confiance. Comme discuté dans l'article, le coût de calcul nécessaire pour la « calibration » est bien inférieur à celui de maintenir la précision.

Certaines personnes affirment que les hallucinations sont un défaut mystérieux des modèles linguistiques modernes.

Découverte : nous pouvons comprendre le mécanisme statistique de la génération d'illusions et des récompenses obtenues lors de l'évaluation.

Certaines personnes affirment : pour mesurer l'illusion, nous n'avons besoin que d'une bonne évaluation de l'illusion.

Découverte : Des chercheurs ont déjà publié certaines évaluations d'hallucination. Cependant, une bonne évaluation d'hallucination a presque aucun effet par rapport à des centaines d'évaluations traditionnelles basées sur la précision, qui pénalisent l'humilité et récompensent la conjecture. Au contraire, tous les principaux indicateurs d'évaluation doivent être redessinés pour récompenser l'expression de l'incertitude.

OpenAI a déclaré : « Notre dernier modèle a un taux d'illusion plus bas, et nous continuerons à travailler pour réduire davantage le taux d'erreur de confiance dans les sorties du modèle linguistique. »

À propos, selon TechCrunch, OpenAI réorganise son équipe de comportement des modèles, une petite mais influente équipe de chercheurs qui détermine la manière dont les modèles d'IA de l'entreprise interagissent avec les gens. Cette équipe rendra désormais compte à Max Schwarzer, responsable de la formation avancée chez OpenAI.

L'équipe fondatrice, dirigée par Joanne Jang, lancera un nouveau projet au sein de l'entreprise, nommé oai Labs. Selon son tweet : « C'est une équipe axée sur la recherche, dédiée à l'invention et à la conception de nouveaux prototypes d'interfaces pour la collaboration entre les humains et l'IA. »

GPT5.37%
WHY-1.79%
MAX-0.14%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)