LLM-Genauigkeit steigt um 27 %! Google DeepMind schlägt eine neue "Step Back"-Prompting-Technologie vor

巴比特_

2023-12-01 05:28:12

Originalquelle: New Zhiyuan

Bildquelle: Generiert von Unbounded AI

Vor einiger Zeit schlug Google DeepMind eine neue “Step-Backing”-Methode vor, die die Technologie direkt zum Gehirn machte.

Um es einfach auszudrücken, geht es darum, das große Sprachmodell das Problem selbst abstrahieren zu lassen, ein höherdimensionales Konzept oder Prinzip zu erhalten und dann das abstrakte Wissen als Werkzeug zu verwenden, um zu argumentieren und die Antwort auf das Problem abzuleiten.

Adresse:

Die Ergebnisse waren ebenfalls sehr gut, da sie mit dem PaLM-2L-Modell experimentierten und bewiesen, dass diese neue Technik bei der Bewältigung bestimmter Aufgaben und Probleme sehr gut funktioniert.

Zum Beispiel hat MMLU eine Verbesserung der physikalischen und chemischen Leistung um 7 %, eine Verbesserung der TimeQA um 27 % und eine Verbesserung von 7 % bei MuSiQue.

Unter ihnen ist MMLU ein groß angelegter Multitasking-Sprachverständnis-Testdatensatz, TimeOA ist ein zeitkritischer Fragentestdatensatz und MusiQue ist ein Multi-Hop-Q&A-Datensatz mit 25.000 2- bis 4-Hop-Fragen.

Unter ihnen bezieht sich ein Multi-Hop-Problem auf eine Frage, die nur durch die Verwendung eines Multi-Hop-Inferenzpfads beantwortet werden kann, der aus mehreren Tripeln gebildet wird.

Im Folgenden werfen wir einen Blick darauf, wie diese Technologie implementiert wird.

Ziehen Sie sich zurück!

Nach der Lektüre der Einleitung am Anfang verstehen die Leser sie vielleicht nicht allzu sehr. Was bedeutet es für LLMs, das Problem selbst zu abstrahieren und ein höherdimensionales Konzept oder Prinzip zu erhalten?

Nehmen wir ein konkretes Beispiel.

Wenn der Benutzer beispielsweise eine Frage stellen möchte, die sich auf “Kraft” in der Physik bezieht, kann der LLM bei der Beantwortung einer solchen Frage auf die Ebene der grundlegenden Definition und des Prinzips der Kraft zurückgehen, was als Grundlage für weitere Überlegungen zur Antwort verwendet werden kann.

Basierend auf dieser Idee sieht es beim ersten Betreten des Benutzers ungefähr so aus:

Sie sind jetzt ein Experte für Weltwissen, geschickt darin, sorgfältig zu denken und Fragen Schritt für Schritt mit einer rückwärtsgerichteten Fragestrategie zu beantworten.

Einen Schritt zurückzutreten ist eine Denkstrategie, um ein bestimmtes Problem oder eine bestimmte Situation aus einer eher makroökonomischen, fundamentalen Perspektive zu verstehen und zu analysieren. So kann die ursprüngliche Frage besser beantwortet werden.

Natürlich veranschaulicht das oben genannte physikalische Beispiel nur einen Fall. In einigen Fällen kann die Back-Down-Strategie es dem LLM ermöglichen, zu versuchen, den Umfang und den Kontext des Problems zu identifizieren. Manche Probleme ziehen sich etwas mehr zurück, andere weniger.

Dissertation

Erstens weisen die Forscher darauf hin, dass der Bereich der Verarbeitung natürlicher Sprache (NLP) mit Transformer-basierten LLMs eine bahnbrechende Revolution eingeleitet hat.

Die Erweiterung der Modellgröße und die Zunahme des vortrainierten Korpus haben zu erheblichen Verbesserungen der Modellfähigkeiten und der Sampling-Effizienz sowie zu neuen Funktionen wie mehrstufiger Inferenz und Instruktionsbefolgung geführt.

Die obige Abbildung zeigt die Leistungsfähigkeit des Rückwärtsdenkens, und die in diesem Artikel vorgeschlagene Methode des “abstrakten Denkens” hat bei einer Vielzahl schwieriger Aufgaben, die komplexes Denken erfordern, wie z. B. Wissenschaft, Technologie, Ingenieurwesen und Mathematik sowie Multi-Hop-Argumentation, erhebliche Verbesserungen erzielt.

Einige Aufgaben waren sehr anspruchsvoll, und anfangs waren PaLM-2L und GPT-4 auf TimeQA und MuSiQue nur zu 40 % genau. Nach Anwendung des Rückwärtsschlussfolgerns hat sich die Leistung von PaLM-2L auf breiter Front verbessert. Es verbesserte sich um 7 % und 11 % in MMLU-Physik und -Chemie, 27 % in TimeQA und 7 % in MuSiQue.

Darüber hinaus führten die Forscher auch eine Fehleranalyse durch und stellten fest, dass die meisten Fehler, die bei der Anwendung von Rückwärtsschlüssen auftreten, auf die inhärenten Einschränkungen der Inferenzfähigkeit von LLMs zurückzuführen sind und nicht mit neuen Technologien zusammenhängen.

Abstraktion ist für LLMs leichter zu erlernen und weist daher den Weg zur Weiterentwicklung des Rückwärtsdenkens.

Es wurden zwar Fortschritte erzielt, aber komplexe, mehrstufige Schlussfolgerungen können eine Herausforderung darstellen. Dies gilt selbst für die fortschrittlichsten LLMs.

Diese Arbeit zeigt, dass die Prozessüberwachung mit Schritt-für-Schritt-Verifikationsfunktion ein wirksames Mittel ist, um die Korrektheit von Zwischenschritten zu verbessern.

Sie führten Techniken wie Denkketten-Eingabeaufforderungen ein, um eine kohärente Reihe von Zwischeninferenzschritten zu generieren und so die Erfolgsquote bei der Verfolgung des korrekten Dekodierungspfads zu erhöhen.

Als sie über den Ursprung dieser PROMP-Technologie sprachen, wiesen die Forscher darauf hin, dass Menschen bei herausfordernden Aufgaben dazu neigen, einen Schritt zurückzutreten und zu abstrahieren, um übergeordnete Konzepte und Prinzipien abzuleiten, die den Denkprozess leiten.

Im oberen Teil der obigen Abbildung erhält LLM am Beispiel der Physik der MMLU durch Rückwärtsabstraktion das erste Prinzip des idealen Gasgesetzes.

In der zweiten Hälfte gibt es ein Beispiel von TimeQA, bei dem das übergeordnete Konzept der Bildungsgeschichte das Ergebnis einer LLM-Abstraktion ist, die auf dieser Strategie basiert.

Auf der linken Seite des gesamten Diagramms können wir sehen, dass PaLM-2L bei der Beantwortung der ursprünglichen Frage nicht erfolgreich war. Die Gedankenkette zeigt an, dass der LLM in der Mitte des Argumentationsschritts einen Fehler gemacht hat (rot hervorgehoben).

Und auf der rechten Seite hat der PaLM-2L mit der Anwendung der Rückwärtstechnologie die Frage erfolgreich beantwortet.

Unter den vielen kognitiven Fähigkeiten ist abstraktes Denken allgegenwärtig für die menschliche Fähigkeit, große Mengen an Informationen zu verarbeiten und allgemeine Regeln und Prinzipien abzuleiten.

Um nur einige zu nennen, destillierte Kepler Tausende von Messungen zu Keplers Drei Gesetzen der Planetenbewegung, die die Umlaufbahnen von Planeten um die Sonne genau beschreiben.

Oder, bei kritischen Entscheidungen, findet der Mensch die Abstraktion auch hilfreich, weil sie eine breitere Sicht auf die Umwelt bietet.

Der Schwerpunkt dieser Arbeit liegt auf der Frage, wie LLMs komplexe Aufgaben mit vielen Details auf niedriger Ebene durch einen zweistufigen Ansatz aus Abstraktion und Argumentation bewältigen können.

Der erste Schritt besteht darin, LLMs beizubringen, einen Schritt zurückzutreten und allgemeine, abstrakte Konzepte aus konkreten Beispielen abzuleiten, wie z. B. grundlegende Konzepte und erste Prinzipien innerhalb eines Bereichs.

Der zweite Schritt besteht darin, die Lösung mithilfe von Argumentationsfähigkeiten auf übergeordnete Konzepte und erste Prinzipien zu stützen.

Die Forscher verwendeten eine kleine Anzahl von Beispielen für LLMs, um eine Rückwärtsinferenz durchzuführen. Sie experimentierten mit einer Reihe von Aufgaben, bei denen es um domänenspezifisches Denken, wissensintensives Problemlösen und mehrfaches Argumentieren mit gesundem Menschenverstand ging, das Faktenwissen erforderte.

Die Ergebnisse zeigen, dass die Leistung von PaLM-2L signifikant verbessert wird (bis zu 27%), was beweist, dass die Rückwärtsinferenz bei der Bewältigung komplexer Aufgaben sehr effektiv ist.

Während der Experimente experimentierten die Forscher mit den folgenden verschiedenen Arten von Aufgaben:

(1)STAMM

(2) Wissens-Qualitätssicherung

(3) Multi-Hop-Argumentation

Die Forscher evaluierten die Anwendung in MINT-Aufgaben, um die Wirksamkeit des neuen Ansatzes beim logischen Denken in hochspezialisierten Bereichen zu messen. (In diesem Artikel werden nur solche Fragen behandelt)

Offensichtlich erfordert das Problem im MMLU-Benchmark tiefergehende Überlegungen seitens des LLM. Darüber hinaus erfordern sie das Verständnis und die Anwendung von Formeln, bei denen es sich oft um physikalische und chemische Prinzipien und Konzepte handelt.

In diesem Fall lehrt der Forscher zunächst, das Modell in Form von Konzepten und ersten Prinzipien zu abstrahieren, wie z. B. Newtons erstes Bewegungsgesetz, den Doppler-Effekt und die freie Gibbs-Energie. Die implizite Frage lautet: “Was sind die physikalischen oder chemischen Prinzipien und Konzepte, die bei der Lösung dieser Aufgabe eine Rolle spielen?”

Das Team führte Demonstrationen durch, die dem Modell beibrachten, sich die Prinzipien der Aufgabenlösung aus seinem eigenen Wissen zu merken.

Die obige Tabelle zeigt die Leistung des Modells mit der Rückwärtsinferenztechnik, und der LLM mit der neuen Technologie schnitt bei STEM-Aufgaben gut ab und erreichte das am weitesten fortgeschrittene Niveau jenseits von GPT-4.

Die obige Tabelle ist ein Beispiel für eine kleine Anzahl von Stichproben und zeigt eine robuste Leistung bei unterschiedlichen Stichprobengrößen.

Erstens, wie wir aus der obigen Grafik ersehen können, ist die Rückwärtsinferenz sehr robust gegenüber einer kleinen Anzahl von Beispielen, die als Demonstrationen verwendet werden.

Zusätzlich zu einem Beispiel gilt das Gleiche für das Hinzufügen weiterer Beispiele.

Dies deutet darauf hin, dass die Aufgabe, relevante Prinzipien und Konzepte abzurufen, relativ einfach zu erlernen ist und ein Demonstrationsbeispiel ausreicht.

Natürlich wird es im Laufe des Experiments noch einige Probleme geben.

Die fünf Arten von Fehlern, die in allen Arbeiten auftreten, mit Ausnahme von Hauptfehlern, treten in der Argumentationsphase des LLM auf, während Hauptfehler das Scheitern des Abstraktionsschritts anzeigen.

Wie Sie auf der rechten Seite der Abbildung unten sehen können, machen Prinzipfehler tatsächlich nur einen kleinen Bruchteil der Modellfehler aus, wobei mehr als 90 % der Fehler im Inferenzschritt auftreten. Von den vier Arten von Fehlern im Denkprozess sind Denkfehler und mathematische Fehler die Hauptorte, an denen Fehler lokalisiert werden.

Dies steht im Einklang mit den Ergebnissen in Ablationsstudien, dass nur wenige Beispiele benötigt werden, um LLMs das Abstraktion beizubringen. Der Inferenzschritt ist immer noch ein Engpass für die Rückwärtsrückschlüsse, um Aufgaben abzuschließen, die komplexe Rückschlüsse erfordern, z. B. MMLU.

Dies gilt insbesondere für MMLU Physics, wo logisches Denken und mathematische Fähigkeiten der Schlüssel zur erfolgreichen Problemlösung sind. Das bedeutet, dass der LLM, selbst wenn er die ersten Prinzipien korrekt abruft, immer noch einen typischen mehrstufigen Argumentationsprozess durchlaufen muss, um zur richtigen endgültigen Antwort zu gelangen, was ein tiefes logisches Denken und mathematische Fähigkeiten erfordert.

Anschließend bewerteten die Forscher das Modell auf dem Testsatz von TimeQA.

Wie in der folgenden Abbildung zu sehen ist, erreichten die Basismodelle von GPT-4 und PaLM-2L 45,6 % bzw. 41,5 %, was die Schwierigkeit der Aufgabe unterstreicht.

CoT oder TDB wurde nullmal (und einmal) auf das Basismodell angewendet, ohne dass es zu einer Verbesserung kam.

Im Gegensatz dazu stieg die Genauigkeit des Baseline-Modells, das durch Regular Retrieval Augmentation (RAG) verbessert wurde, auf 57,4 %, was den faktenintensiven Charakter der Aufgabe unterstreicht.

Die Ergebnisse von Step-Back + RAG zeigen, dass der LLM-Schritt zurück zu den fortgeschrittenen Konzepten bei der Rückwärtsinferenz sehr effektiv ist, was den LLM-Abruflink zuverlässiger macht, und wir können sehen, dass TimeQA eine erstaunliche Genauigkeit von 68,7 % hat.

Als nächstes teilten die Forscher TimeQA in zwei Schwierigkeitsstufen ein: leicht und schwierig, die im ursprünglichen Datensatz bereitgestellt wurden.

Es überrascht nicht, dass LLMs alle auf dem schwierigen Niveau schlecht abschneiden. Während RAG die Genauigkeit auf der einfachen Stufe von 42,6 % auf 67,8 % steigern konnte, war die Verbesserung auf der schweren Stufe viel geringer, wobei die Daten nur einen Anstieg von 40,4 % auf 46,8 % zeigten.

Und hier kommt die Technik des rückwärts Denkens ins Spiel, da sie Fakten über übergeordnete Konzepte abruft und die Grundlage für die endgültige Argumentation legt.

Rückwärtslogisches Denken plus RAG verbesserte die Genauigkeit weiter auf 62,3 % und übertraf damit die 42,6 % von GPT-4.

Natürlich gibt es noch einige Probleme mit dieser Technologie, wenn es um TimeQA geht.

Die folgende Abbildung zeigt die Genauigkeit des LLM in diesem Teil des Experiments und die Fehlerwahrscheinlichkeit auf der rechten Seite.

Betriebsmittel:

Original anzeigen

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Keine Kommentare