Gespräch mit a16z: LLM ist verlustbehaftete Kompression, das Weltmodell ist die wahre Richtung.

金色财经_

2025-06-05 13:42:38

A-0,85%

World Labs ist ein Startup, das 2024 von dem renommierten KI-Experten und Professor an der Stanford University, Feifei Li, gegründet wurde, um KI-Systeme der nächsten Generation mit “räumlicher Intelligenz” zu entwickeln.

Seit seiner Gründung hat World Labs zwei Finanzierungsrunden abgeschlossen und insgesamt etwa 230 Millionen US-Dollar eingesammelt. Zu den Hauptinvestoren gehören a16z, Radical Ventures, NEA, Nvidia NVentures, AMD Ventures und Intel Capital. Die Unternehmensbewertung hat innerhalb von nur drei Monaten die 1-Milliarde-US-Dollar-Marke überschritten und ist zu einem neuen Einhorn im Bereich KI geworden.

Kürzlich führte Fei-Fei Li einen Dialog mit den beiden Partnern von a16z, Martin Casado und Eric Torenberg. Sie sprach erstmals öffentlich über die Ideenkonstruktion, Forschungsrichtungen und große Visionen hinter der Gründung von World Labs. Die strategische Entwicklung der a16z-Plattform: von “VCs wollen nicht aufräumen” zu “Full-Stack-Service”.

Li Feifei hat zu Beginn den Kernpunkt des Gesprächs hervorgehoben: “Ich brauche kein großes Sprachmodell, um mich zu überzeugen; das Weltmodell ist die wirklich wichtige Richtung.”

Sie betonte, dass räumliche Intelligenz - egal ob es sich um die dreidimensionale physische Welt handelt, in der wir leben, oder um das imaginäre digitale Universum - ein unverzichtbarer Bestandteil von Intelligenz ist. Und heute sind wir endlich in der Lage, diese Universen zu generieren und wiederherzustellen.

▍Intelligenz, die älter ist als Sprache: Raumwahrnehmung und 3D-Rekonstruktion

Li Feifei wies darauf hin, dass die räumliche Wahrnehmung im Vergleich zur Sprache eine ältere und instinktivere Fähigkeit im Prozess der menschlichen Evolution ist. Sie erzählte von einer persönlichen Erfahrung: Vor einigen Jahren hatte sie aufgrund einer Hornhautverletzung, die zu einem kurzzeitigen Verlust des stereoskopischen Sehvermögens führte, Angst, alleine zu fahren, selbst auf einer vertrauten Straße, und es war schwierig, den Abstand zum Auto neben ihr einzuschätzen.

Dieses experimentelle Erlebnis ließ sie die grundlegende Rolle des dreidimensionalen Wahrnehmungssystems im menschlichen Handeln tief erkennen. Für KI gilt: Wenn kein dreidimensionales Weltmodell aufgebaut werden kann, ist es unmöglich, die reale Welt wirklich zu verstehen, zu manipulieren oder nachzubauen.

Martin Casado fügt hinzu, dass dieser Mangel an dreidimensionaler Intelligenz ein Hauptgrund dafür ist, dass Roboter und Systeme der verkörperten Intelligenz nur langsam landen. Er verwendet das Beispiel eines Laien, um zu erklären, dass es fast unmöglich ist, wenn man eine Person in einen fremden Raum führt, ihr die Augen verbindet, den Raum nur mit Worten beschreibt und sie dann die Aufgabe erledigen lässt. Sobald die Augen geöffnet sind, rekonstruiert das Gehirn automatisch das räumliche Modell und schließt die Handlung ab. Diese Art der Rekonstruktionsfähigkeit fehlt in den aktuellen Mainstream-Sprachmodellen völlig.

▍Von NeRF zu den technischen kritischen Punkten des Weltmodells

Auf die Frage, warum er sich entschieden hat, World Labs zu diesem Zeitpunkt zu gründen, glaubt Li Feifei, dass dies das Ergebnis langfristiger akademischer Forschung und der Anhäufung einer industriellen Basis ist.

Sie blickte zurück und stellte fest, dass vor vier Jahren ein Durchbruch in der Forschung mit dem Namen NeRF (Neural Radiance Fields) einen neuen Weg für die 3D-Visualisierungsmodellierung eröffnet hatte. Der Erfinder von NeRF ist einer der Mitbegründer von World Labs, Ben Mildenhall.

Der andere Mitbegründer Christopher hat bahnbrechende Forschungen im Bereich der effizienten dreidimensionalen Darstellung durchgeführt und die Rückkehr des volumetrischen 3D-Modelings in die Industrie vorangetrieben.

Zusätzlich zu Justin Johnson, der frühzeitig die GAN-Technologie für die Bildstilübertragung anwendete, können diese verstreuten Forschungsergebnisse nun in demselben Team zusammengeführt werden, um ein “Nordstern-Ziel” zu verfolgen: die Fähigkeit von KI, Weltmodelle zu erstellen.

Martin führt dieses Ziel auf die tiefe Integration von zwei Systemen zurück: dem KI-Modell, den Daten und der Architektur selbst sowie dem Engineering-System für Grafik-Rendering und räumliche Rekonstruktion. Die effiziente Zusammenarbeit von Experten aus diesen beiden Welten auf einer einzigen Plattform ist an sich schon eine wichtige organisatorische Innovation in der Technologiebranche.

▍Das Sprachmodell ist nicht das Ende, sondern der Prolog

Li Feifei betont, dass ihr Glauben an das Weltmodell nicht aus einer Enttäuschung über LLM resultiert, sondern aus einem vertieften Verständnis der Natur der Intelligenz.

Sie wies darauf hin, dass Sprache eine “verlustbehaftete” Kompressionsform der Wahrnehmung ist, die die Welt abstrahiert, aber auch die reichhaltigen physischen und wahrnehmungsbezogenen Informationen verliert. In der realen Welt gibt es keine Wörter, Grammatik und Texte, nur Physik, Bewegung und dreidimensionale Strukturen.

Diese Wahrnehmung hat auch ihre Vorstellung davon, wie ein KI-Unternehmen aussehen sollte, verändert. Sie wurde von einer Stanford-Professorin zur Unternehmerin, weil sie erkannte, dass akademische Forschung allein nicht ausreichte, um räumliche Intelligenz zu modellieren – sie erforderte Investitionen in industrielles Computing, Architekturplanung auf Systemebene und die Fähigkeit zur Zusammenarbeit von Top-Talenten aus dem Ausland.

Und all dies kann nur in einem Unternehmen mit einem sehr hohen Organisationsgrad und herausragenden Fähigkeiten zur Zusammenarbeit im gesamten Stack tatsächlich umgesetzt werden.

▍Intelligente Anwendungen im Raum übertreffen Robotik

Für die meisten Menschen ist “Weltmodell” immer noch ein abstrakter wissenschaftlicher Begriff. Doch Li Fei-Fei und Martin weisen gemeinsam darauf hin, dass seine Anwendungen weit über autonomes Fahren und Robotik hinausgehen.

Kreativität ist von Natur aus visuell. Industriedesign, Filmemachen, architektonische Komposition und sogar Spieleentwicklung beruhen alle auf 3D-Konstruktion und -Steuerung. Und wenn KI die Fähigkeit hat, die Welt zu modellieren, kann sie nicht nur die 3D-Welt “verstehen”, sondern auch den virtuellen Raum “generieren” und “manipulieren”.

Martin beschreibt, dass das Modell mit nur einem Foto eines Tisches die Form und das Material dahinter ableiten kann, um eine vollständige räumliche Szene zu konstruieren. Darüber hinaus können Benutzer den Raum sogar vermessen, hinzufügen, entfernen oder neu gestalten. Dies ist eine intuitivere und freiere Art der Mensch-Computer-Interaktion als Textbefehle und eröffnet auch eine ganz neue Dimension des Entwerfens, der Erstellung und des Simulationsexperimentierens.

Li Feifei weiter sagte, der digitale Raum bringt eine nie dagewesene Chance zur Veränderung mit sich: “Die Menschheit hat bis jetzt nur in einer dreidimensionalen physischen Welt gelebt. Aber die digitale Welt wird uns zum ersten Mal in ein ‘Multiversum’ eintreten lassen.”

Sie nennt einige Beispiele: Universen, die für Roboter gebaut wurden, Universen für menschliche Kreativität, Erzählungen, Kommunikation und Erlebnisreisen. Diese Räume, die früher nur in der Vorstellung existierten, werden nun wirklich von Maschinen generiert, verstanden, genutzt und transformiert.

▍Basis Modell nächste Schlacht, 3D-Panorama-Modellierung

Zurück zur Technik selbst betonte Fei-Fei Li, dass World Labs nicht nur eine “sichtende” KI entwickeln möchte, sondern dass die KI die dreidimensionale Struktur, Dynamik und kombinatorische Logik der Welt verstehen soll. Das ist nicht nur ein schwierigeres Ingenieurproblem, sondern auch eine völlig neue Darstellungsphilosophie.

Sie glaubt, dass wissenschaftliche Entdeckungen wie die Doppelhelix-Struktur der DNA und die Bucky-Kugel das Ergebnis räumlicher Intelligenz sind. Es ist unmöglich, solche Geometrien rein sprachlich abzuleiten. Deshalb kann das Weltmodell nicht nur das Verständnisvermögen von Maschinen verbessern, sondern auch neue kreative Wege für die menschliche Wissenschaft und Kunst eröffnen.

Martin fasste zusammen, dass die Revolution, die durch LLM ausgelöst wurde, einen Fakt beweist: Wenn wir die richtigen Datenstrukturen und Modellrepräsentationsmethoden finden, wird die Leistungsfähigkeit von KI exponentiell steigen. Jetzt glauben sie, dass das “Weltmodell” an einem ähnlichen kritischen Punkt steht.

▍Der Schlüssel zum Verständnis und Aufbau der Welt

„Wir bewegen uns eigentlich rückwärts auf dem Weg der Evolution.“ Als Martin diesen Punkt anbrachte, erreichte das gesamte Gespräch auch eine philosophische Ebene.

Sprache ist eines der neuesten Module in der Evolution des menschlichen Gehirns, während räumliche Wahrnehmungssysteme seit der Zeit der Gliederfüßer und seit 500 Millionen Jahren existieren. Die heutige KI, wenn sie nur “die Sprache lernt”, kann nicht wirklich als “die Welt verstehen” bezeichnet werden. Nur durch die Konstruktion eines menschenähnlichen Weltraummodells kann KI wirklich die Tür der “verkörperten Intelligenz” betreten.

Li Feifei fasste in einem typischen entschlossenen Ton zusammen: “Ich habe immer auf diesen Tag gewartet. Nicht, weil ich den Sprachmodellen nicht vertraue, sondern weil ich genau weiß: Die wahre Welt besteht nicht aus Text.”

Das Weltmodell ist der Schlüssel, um KI die Welt wirklich verstehen und aufbauen zu lassen. I/O zu iO, Jony Ive wird eine neue Designbewegung vorantreiben – KI schreibt die Paradigmen der Berechnung und die Definition von Hardware neu und ist das neue Schlachtfeld nach den großen Modellen.

Original anzeigen

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Keine Kommentare

Gespräch mit a16z: LLM ist verlustbehaftete Kompression, das Weltmodell ist die wahre Richtung.

▍****Intelligenz, die älter ist als Sprache: Raumwahrnehmung und 3D-Rekonstruktion

▍****Von NeRF zu den technischen kritischen Punkten des Weltmodells

▍****Das Sprachmodell ist nicht das Ende, sondern der Prolog

▍****Intelligente Anwendungen im Raum übertreffen Robotik

▍****Basis Modell nächste Schlacht, 3D-Panorama-Modellierung

▍****Der Schlüssel zum Verständnis und Aufbau der Welt