OpenAI kündigt die Einführung eines neuen KI-„Supercomputer“-Netzwerkprotokolls MRC (Multipath Reliable Connection) an und hat es bereits über das Open Compute Project (OCP) als Open-Source veröffentlicht. Diese Technologie wurde gemeinsam von OpenAI und Anbietern wie AMD, Microsoft, NVIDIA, Intel, Broadcom sowie weiteren entwickelt. Ziel ist es, den Datenübertragungs-Engpass zwischen GPUs in riesigen KI-Trainings-Clusters zu beheben.
Der eigentliche Engpass beim KI-Training ist, wie GPUs miteinander kommunizieren
OpenAI erklärt, dass sich mit den wöchentlichen Nutzern von ChatGPT inzwischen mehr als 900 Millionen Menschen die KI-Systeme zunehmend zu einem Service auf Infrastrukturniveau entwickeln. Um die Anforderungen an das Training und die Inferenz der nächsten Modellgeneration zu unterstützen, ist OpenAI der Ansicht, dass sich nicht nur das Modell selbst weiterentwickeln muss, sondern auch das Netzwerkdesign neu gedacht werden muss.
In einem technischen Artikel führt OpenAI aus, dass bei großen KI-Modellen in einem einzelnen Trainingsschritt möglicherweise Millionen Datenaustauschvorgänge zwischen GPUs stattfinden. Schon eine einzige Übertragungsverzögerung könne dazu führen, dass das gesamte Trainingssynchronisieren zum Stillstand kommt und somit viele GPUs untätig werden.
Und wenn die Supercomputer-Größe für KI immer weiter steigt, würden sich Probleme wie Netzwerkstau, Ausfälle von Switches und Verzögerungs-Jitter (jitter) laut OpenAI rasch um ein Vielfaches verstärken. OpenAI betrachtet dies als eine der wichtigsten technischen Herausforderungen im Stargate-Supercomputerprojekt.
Das Netzwerkdesign früherer Rechenzentren setzte meist auf eine Single-Path-Datenübertragung. Aber die größte Änderung von MRC besteht darin, dass dieselben Daten gleichzeitig über Hunderte von Pfaden verteilt übertragen werden.
Was ist MRC? OpenAI: Damit das KI-Netzwerk automatisch Hindernisse umgeht
Laut OpenAI und AMD besteht das Kernkonzept von MRC darin, dass:
Daten aufteilen und gleichzeitig über mehrere Pfade laufen lassen
Fehler automatisch auf Mikrosekunden-Ebene umfahren
Die durch Netzwerkstau verursachte Latenz reduzieren
Sicherstellen, dass GPUs synchron weiterarbeiten
AMD beschreibt, dass traditionelle KI-Netzwerke wie Autobahnen seien, die nur eine einzige Route nutzen: Sobald es Stau oder Unfälle gibt, wirkt sich das auf den gesamten Fortschritt aus. MRC hingegen sei wie ein intelligentes Verkehrssystem mit der Fähigkeit zu sofortigen Umleitungen. AMD sagt sogar unverblümt: „Der wahre Engpass bei der Skalierung von KI ist nicht mehr GPU und CPU, sondern das Netzwerk.“
Warum OpenAI ein eigenes Netzwerkprotokoll entwerfen will
Das Signal, das OpenAI diesmal aussendet, ist sehr eindeutig: Der KI-Wettbewerb ist nicht mehr nur ein Wettbewerb um Modelle, sondern ein Wettbewerb um die gesamte „Supercomputer-Infrastruktur“. In dem Artikel erwähnt OpenAI, dass sie vor dem Auftreten von Stargate gemeinsam mit Partnern bereits drei Generationen KI-Supercomputer gewartet haben. Aus diesen Erfahrungen kommt OpenAI zu dem Schluss, dass, um Rechenleistung im Stargate-Umfang effektiv zu nutzen, der gesamte Stack die Komplexität deutlich senken muss. Dazu gehört auch die Netzwerkschicht.
Das bedeutet: Beim Wettbewerb um zukünftige Frontier Models geht es nicht mehr nur darum, wer das stärkere Modell hat, sondern wer es schafft, mit maximaler Effizienz Dutzende- bis Hunderttausende, ja sogar Millionen GPUs synchron zum Laufen zu bringen.
MRC steckt hinter Stargate: OpenAIs Manhattan-Projekt
Der Hintergrund von MRC ist eigentlich Stargate LLC. Stargate ist ein großes KI-Infrastrukturvorhaben, das von OpenAI, SoftBank Group, Oracle Corporation und MGX vorangetrieben wird. Ursprünglich bestand das Ziel darin, in den USA in KI-Infrastruktur Investitionen von bis zu 5.000 Milliarden US-Dollar zu tätigen. OpenAI gibt an, dass man inzwischen die Zwischenetappenziele von ursprünglich mehr als 10GW erreicht habe und in den letzten 90 Tagen zusätzlich mehr als 3GW an Kapazität für KI-Infrastruktur aufgebaut worden seien.
Der Stargate-Supercomputer in Abilene, Texas, ist eines der wichtigsten Einsatzfelder für MRC. OpenAI weist darauf hin, dass MRC in die neueste 800Gb/s-Netzwerkschnittstelle integriert wurde und im Betrieb bereits in realen großen Trainings-Clusters eingesetzt wird.
Dieser Artikel „OpenAI veröffentlicht MRC-Supercomputer-Netzwerkprotokoll!“ erschien zuerst bei 鏈新聞 ABMedia.
Verwandte Artikel
Anthropic veröffentlicht Claude Dreams: Agents sortieren ihre Erinnerungen selbst zwischen den Aufgaben, beseitigen Duplikate und Widersprüche
Anthropic holt Rechenleistung von SpaceX: übernimmt Colossus 1 komplett mit 220.000 GPUs, Claude hebt sein Limit auf
Coinbase-Ingenieur: KI-Agenten könnten das Werbemodell im Web aufmischen
Anthropic verdoppelt die Rate-Limits für Claude Code, nachdem das Unternehmen durch einen Deal mit SpaceX 300MW Kapazität aus dem Weltraum gesichert hat
Die KI-Rekrutierungsplattform Ethos schließt am 6. Mai eine Series-A-Finanzierungsrunde in Höhe von 22,75 Millionen US-Dollar ab, angeführt von a16z
OpenAI bringt das MRC-Network-Protokoll mit AMD, Intel und NVIDIA auf den Markt; unterstützt 100.000+ GPUs