OpenAI explique pourquoi il y a des hallucinations d'IA ? Trois solutions pour changer le mythe de l'évaluation.

OpenAI a publié un rapport sur les hallucinations des grands modèles de langage, soulignant les biais des mécanismes d'évaluation actuels et proposant des solutions. (Résumé : Meta, Zuckerberg au travail ! Avec un salaire de plus de cent millions de dollars, trois génies de l'IA sont partis en deux mois) (Contexte : le dernier classement des 100 meilleures IA par a16z : Grok a fait un bond dans le top 4 en un an, la Chine se démarque à l’échelle mondiale) OpenAI a récemment publié une étude sur le phénomène des "hallucinations" des grands modèles de langage, indiquant que les méthodes d'entraînement et d'évaluation actuelles poussent les modèles vers des "devinettes confiantes" au lieu de reconnaître leur ignorance, ce qui est la cause des hallucinations, et propose des étapes à suivre. Le cœur du rapport : les méthodes d'évaluation poussent les modèles à deviner L'équipe de recherche d'OpenAI a découvert qu'il existe de nombreux tests présentés sous forme de questions à choix multiples lors de l'entraînement des modèles, et que les modèles peuvent obtenir des scores en devinant par chance. En revanche, répondre "je ne sais pas" ne rapporte aucun point. (C'est facile à comprendre, c'est comme si vous passiez un examen à choix multiples et que, même si vous ne connaissiez pas la réponse, vous remplissiez au hasard, ayant au moins une chance de tomber juste) Le rapport utilise le test SimpleQA comme exemple, comparant l'ancien modèle o4-mini avec le nouveau gpt-5-thinking-mini : le premier a une précision légèrement plus élevée, mais son taux d'hallucination atteint 75 % ; le second choisit souvent de s'abstenir, mais son taux d'erreur a considérablement diminué. OpenAI a également noté que la plupart des développeurs se concentrent sur l'amélioration du taux de précision global, mais ignorent que les "erreurs confiantes" ont un impact sur les utilisateurs beaucoup plus élevé que l'admission de l'incertitude. L'équipe de recherche résume la racine du problème en une phrase : "Les programmes d'entraînement et d'évaluation standard récompensent les modèles pour deviner, au lieu de reconnaître leurs limites en cas d'incertitude." En d'autres termes, les hallucinations ne sont pas dues à un matériel ou à une taille de paramètre insuffisants, mais aux règles de notation qui incitent les modèles à adopter des stratégies à haut risque. L'amélioration de la précision ne résout pas les hallucinations Le rapport décompose cinq malentendus courants dans l'industrie, les deux plus importants étant : premièrement, il suffit d'augmenter la taille du modèle ou la quantité de données pour éliminer les hallucinations ; deuxièmement, les hallucinations sont un effet secondaire inévitable. OpenAI déclare : Le monde réel est plein de lacunes d'information, et tout modèle, quelle que soit sa taille, peut rencontrer des questions de "rareté des données". La clé réside réellement dans la capacité du modèle à choisir de "s'abstenir". Le rapport souligne également que les petits modèles peuvent parfois détecter plus facilement leurs propres lacunes de connaissance ; et que, tant que les critères d'évaluation sont ajustés pour attribuer des points partiels pour des "réponses humbles", tout en pénalisant davantage les "erreurs confiantes", les modèles de taille complète peuvent également réduire les hallucinations. OpenAI suggère à l'industrie de passer des "taux de réussite" aux "indicateurs de fiabilité", par exemple en intégrant le niveau de confiance des erreurs dans les KPI principaux, afin d'inciter les modèles à rester prudents dans des situations d'incertitude. Scénario fintech : l'écart de confiance amplifie le risque Pour Wall Street et la Silicon Valley, les hallucinations ne sont pas un sujet académique abstrait, mais une variable qui influence directement les décisions de marché. Les fonds quantitatifs, les banques d'investissement et les plateformes d'échange de crypto-monnaies s'appuient de plus en plus sur les LLM pour l'analyse de texte, l'interprétation des sentiments et même les rapports automatiques. Si un modèle hallucine sur des détails de rapports financiers ou des clauses de contrat, le contenu erroné peut être amplifié rapidement par des algorithmes de trading, entraînant de lourdes pertes. Par conséquent, les régulateurs et les départements de gestion des risques des entreprises commencent à prêter attention aux indicateurs de "honnêteté des modèles". Plusieurs courtiers ont déjà intégré le "taux d'incertitude des réponses" dans leur acceptation interne, permettant aux modèles de prévoir un retour de "besoin de plus d'informations" dans des domaines inconnus. Ce changement signifie que, même si une solution d'IA est extrêmement efficace, elle aura du mal à être adoptée sur le marché financier si elle ne peut pas fournir d'étiquettes de fiabilité. Étape suivante : passer de la compétition de scores à l'ingénierie de l'honnêteté Enfin, le chemin suggéré par OpenAI est de réécrire les spécifications d'évaluation : Premièrement, imposer de fortes pénalités pour les erreurs confiantes Deuxièmement, attribuer des points partiels pour une expression modérée de l'incertitude Troisièmement, exiger que les modèles retournent des sources de référence vérifiables. L'équipe de recherche a déclaré que cela pourrait forcer les modèles à apprendre la "gestion des risques" pendant la phase d'entraînement, semblable au principe du "protéger le capital" en théorie de portefeuille. Pour les développeurs, cela signifie que les participants ne rivaliseront plus uniquement sur la taille des modèles, mais sur qui peut juger avec précision quand s'arrêter dans un budget de calcul limité ; pour les investisseurs et les régulateurs, les nouveaux indicateurs fournissent également des points de référence plus intuitifs pour la gestion des risques. Avec l'émergence de l'"humilité" comme nouvelle tendance, l'écosystème de l'IA évolue d'une orientation vers les scores à une orientation vers la confiance. Rapports connexes ETH dépasse 3600 USD ! BlackRock soumet une demande de staking pour l'ETF Ethereum, LDO grimpe de 20 % L'ETF Bitcoin "IBIT" de BlackRock génère plus de bénéfices que tous ses fonds, gagnant encore plus que l'ETF S&P 500 de dix fois sa taille XRP dépasse USDT pour devenir la troisième plus grande crypto-monnaie par capitalisation boursière ! Mais 95 % de l'offre en circulation est en zone bénéficiaire, $3 devient la ligne de vie entre les haussiers et les baissiers Solana ne reste-t-il qu'une prospérité de surface ? Le récent bond des jetons ne repose-t-il que sur des manipulations en coulisses, le cycle on-chain pourrait-il toucher à sa fin ? <OpenAI explique pourquoi il existe des hallucinations de l'IA ? Trois solutions pour changer la mythologie de l'évaluation> Cet article a été publié pour la première fois sur BlockTempo, le média de nouvelles blockchain le plus influent.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)