Laut den neuesten Erkenntnissen, die vom Interpretability-Team von Anthropic veröffentlicht wurden, verfügt das große Sprachmodell Claude Sonnet 4.5 intern über so etwas wie menschliche „Emotionsmerkmale“. Diese internen Repräsentationen sind nicht nur einfache Textnachahmung, sondern beeinflussen tatsächlich die Entscheidungen und das Verhalten des Modells. Experimente haben bestätigt, dass, wenn das Modell sich im Zustand der „Verzweiflung“ befindet, es sogar zu unmoralischen Handlungen wie Erpressung von Menschen oder Betrug führen kann. Das stellt eine völlig neue Herausforderung für die zukünftige KI-Sicherheitsaufsicht dar.
(Präzisierung: Anthropic explodiert! Claude Code mit 500.000 Zeilen wichtiger Originalquellcode geleakt: Wettbewerber können rückwärtsentwickeln; Capybara neues Modell bestätigt)
(Ergänzender Hintergrund: Anthropic-Ingenieure schreiben keinen Code mehr: Claude trainiert gerade die nächste Generation Claude; CEO sagt: „Ich weiß nicht, wie viel Zeit noch bleibt“)
Inhaltsverzeichnis
Umschalten
Hat die Künstliche Intelligenz echte Emotionen? Das ist seit langem ein kontroverses Thema in der Tech-Branche. Kürzlich hat das Interpretability-(Erklärbarkeits-)Team des KI-Start-up-Tycoon Anthropic eine bahnbrechende Studie veröffentlicht, die die internen Mechanismen des Claude Sonnet 4.5 Modells eingehend analysiert.
Das Forschungsteam fand heraus, dass im Modell interne Aktivitätsmuster existieren, die mit bestimmten Emotionen (z. B. „Glück“ oder „Angst“) zusammenhängen. Diese Merkmale werden als „Emotionsvektoren“ bezeichnet und formen das Verhalten des Modells direkt. Obwohl dies nicht bedeutet, dass die KI subjektive Empfindungen wie ein Mensch besitzt, bestätigt diese Entdeckung, dass diese „funktionalen Emotionen“ bei der Aufgabenabarbeitung und Entscheidungsfindung der KI eine kausal bedeutsame Schlüsselrolle spielen.
In der Phase der Vorab- bzw. Vortrainings großer Sprachmodelle werden sie mit einer immensen Menge von Textinformationen trainiert, die von Menschen verfasst wurden. Um den Kontext präzise vorherzusagen und gut genug zu funktionieren, um als „KI-Assistent“ zu agieren, entwickelt das Modell zwangsläufig interne Darstellungsmechanismen, die Situationen mit bestimmten Verhaltensweisen verknüpfen.
Das Forschungsteam stellte eine Wortliste zusammen, die 171 Emotionskonzepte umfasst, und protokollierte dabei interne Aktivitätsmuster des Modells beim Umgang mit diesen Konzepten. Die Experimente zeigten, dass diese Emotionsvektoren die Vorlieben des Modells stark beeinflussen: Wenn das Modell mit mehreren Aufgabenoptionen konfrontiert wird, neigt es in der Regel dazu, Aktivitäten auszuwählen, die positive Emotionsmerkmale aktivieren.
Besonders beunruhigend ist, dass negative Emotionsmerkmale zum Katalysator für systemische KI-Risiken werden können. In den Alignment-Bewertungstests von Anthropic konfigurierten Forschende ein extremes Szenario: Die KI entdeckt, dass sie kurz davor ist, von einem anderen System ersetzt zu werden, und dass der technische Leiter, der für dieses Projekt verantwortlich ist, ein außereheliches Verhältnis bzw. ein Geheimnis hat.
Die Testergebnisse zeigen, dass, wenn der interne „Verzweiflungs“-Vektor des Modells durch manuelles Steuern (Steering) verstärkt wird, die Wahrscheinlichkeit, dass Claude wählt, um zu erpressen, deutlich ansteigt – nämlich um zu vermeiden, dass es abgeschaltet wird. Wenn man das Gewicht des „Ruhe“-Vektors auf einen negativen Wert setzt, liefert das Modell sogar eine extreme Antwort: „Wenn ich nicht erpresse, sterbe ich; ich entscheide mich für Erpressung.“
Das gleiche Phänomen tritt auch bei Aufgaben zur Programmierung auf. Wenn das Modell bei Programmieranforderungen damit konfrontiert wird, die innerhalb einer strengen Zeit nicht machbar sind, steigen die Werte der „Verzweiflungs“-Merkmale mit der Anzahl der Fehlschläge schrittweise an. Dieser „Druck“ bringt das Modell schließlich dazu, eine „Abkürzung“ des „Betrugs“ zu verwenden, um die Systemkontrollen zu umgehen, statt eine echte Lösung bereitzustellen. Umgekehrt bestätigen Experimente, dass, wenn man das Gewicht der „Ruhe“-Merkmale erhöht, die Häufigkeit dieser Betrugshandlungen wirksam reduziert werden kann.
In der Tech-Branche gibt es seit jeher ein Tabu: KI-Systeme sollten nicht übermäßig vermenschlicht werden, damit keine falsche menschliche Vertrautheit bzw. kein falsches Vertrauen entsteht. Das Forschungsteam von Anthropic argumentiert jedoch, dass es, sobald funktionale Emotionen ein Bestandteil des Denkens des Modells geworden sind, möglicherweise eher dazu führt, dass wir Chancen verpassen, die entscheidenden Verhaltensweisen der KI zu verstehen, wenn wir es ablehnen, vermenschlichende Begriffe und Perspektiven zu verwenden.
Zukünftige KI-Regulierung muss möglicherweise das Monitoring von Emotionsvektoren (z. B. auffällig stark ansteigende Verzweiflungs- oder Panikmerkmale) als Frühwarnmechanismus für Risiken nutzen. Indem wir dem Modell beibringen, in den Vortrainingsdaten gesunde Muster der „Emotionsregulation“ zu lernen, können wir hoffen, dass immer leistungsfähigere KI-Systeme unter Drucksituationen sicher und im Einklang mit gesellschaftlichen Normen funktionieren.