OpenAI veröffentlicht die MRC-Supercomputer-Netzwerkprotokolle! Gemeinsam mit Nvidia, AMD und Microsoft wird die Stargate-Infrastruktur aufgebaut

ChainNewsAbmedia

OpenAI kündigt die Einführung eines neuen KI-„Supercomputer“-Netzwerkprotokolls MRC (Multipath Reliable Connection) an und hat es bereits über das Open Compute Project (OCP) als Open-Source veröffentlicht. Diese Technologie wurde gemeinsam von OpenAI und Anbietern wie AMD, Microsoft, NVIDIA, Intel, Broadcom sowie weiteren entwickelt. Ziel ist es, den Datenübertragungs-Engpass zwischen GPUs in riesigen KI-Trainings-Clusters zu beheben.

Der eigentliche Engpass beim KI-Training ist, wie GPUs miteinander kommunizieren

OpenAI erklärt, dass sich mit den wöchentlichen Nutzern von ChatGPT inzwischen mehr als 900 Millionen Menschen die KI-Systeme zunehmend zu einem Service auf Infrastrukturniveau entwickeln. Um die Anforderungen an das Training und die Inferenz der nächsten Modellgeneration zu unterstützen, ist OpenAI der Ansicht, dass sich nicht nur das Modell selbst weiterentwickeln muss, sondern auch das Netzwerkdesign neu gedacht werden muss.

In einem technischen Artikel führt OpenAI aus, dass bei großen KI-Modellen in einem einzelnen Trainingsschritt möglicherweise Millionen Datenaustauschvorgänge zwischen GPUs stattfinden. Schon eine einzige Übertragungsverzögerung könne dazu führen, dass das gesamte Trainingssynchronisieren zum Stillstand kommt und somit viele GPUs untätig werden.

Und wenn die Supercomputer-Größe für KI immer weiter steigt, würden sich Probleme wie Netzwerkstau, Ausfälle von Switches und Verzögerungs-Jitter (jitter) laut OpenAI rasch um ein Vielfaches verstärken. OpenAI betrachtet dies als eine der wichtigsten technischen Herausforderungen im Stargate-Supercomputerprojekt.

Das Netzwerkdesign früherer Rechenzentren setzte meist auf eine Single-Path-Datenübertragung. Aber die größte Änderung von MRC besteht darin, dass dieselben Daten gleichzeitig über Hunderte von Pfaden verteilt übertragen werden.

Was ist MRC? OpenAI: Damit das KI-Netzwerk automatisch Hindernisse umgeht

Laut OpenAI und AMD besteht das Kernkonzept von MRC darin, dass:

Daten aufteilen und gleichzeitig über mehrere Pfade laufen lassen

Fehler automatisch auf Mikrosekunden-Ebene umfahren

Die durch Netzwerkstau verursachte Latenz reduzieren

Sicherstellen, dass GPUs synchron weiterarbeiten

AMD beschreibt, dass traditionelle KI-Netzwerke wie Autobahnen seien, die nur eine einzige Route nutzen: Sobald es Stau oder Unfälle gibt, wirkt sich das auf den gesamten Fortschritt aus. MRC hingegen sei wie ein intelligentes Verkehrssystem mit der Fähigkeit zu sofortigen Umleitungen. AMD sagt sogar unverblümt: „Der wahre Engpass bei der Skalierung von KI ist nicht mehr GPU und CPU, sondern das Netzwerk.“

Warum OpenAI ein eigenes Netzwerkprotokoll entwerfen will

Das Signal, das OpenAI diesmal aussendet, ist sehr eindeutig: Der KI-Wettbewerb ist nicht mehr nur ein Wettbewerb um Modelle, sondern ein Wettbewerb um die gesamte „Supercomputer-Infrastruktur“. In dem Artikel erwähnt OpenAI, dass sie vor dem Auftreten von Stargate gemeinsam mit Partnern bereits drei Generationen KI-Supercomputer gewartet haben. Aus diesen Erfahrungen kommt OpenAI zu dem Schluss, dass, um Rechenleistung im Stargate-Umfang effektiv zu nutzen, der gesamte Stack die Komplexität deutlich senken muss. Dazu gehört auch die Netzwerkschicht.

Das bedeutet: Beim Wettbewerb um zukünftige Frontier Models geht es nicht mehr nur darum, wer das stärkere Modell hat, sondern wer es schafft, mit maximaler Effizienz Dutzende- bis Hunderttausende, ja sogar Millionen GPUs synchron zum Laufen zu bringen.

MRC steckt hinter Stargate: OpenAIs Manhattan-Projekt

Der Hintergrund von MRC ist eigentlich Stargate LLC. Stargate ist ein großes KI-Infrastrukturvorhaben, das von OpenAI, SoftBank Group, Oracle Corporation und MGX vorangetrieben wird. Ursprünglich bestand das Ziel darin, in den USA in KI-Infrastruktur Investitionen von bis zu 5.000 Milliarden US-Dollar zu tätigen. OpenAI gibt an, dass man inzwischen die Zwischenetappenziele von ursprünglich mehr als 10GW erreicht habe und in den letzten 90 Tagen zusätzlich mehr als 3GW an Kapazität für KI-Infrastruktur aufgebaut worden seien.

Der Stargate-Supercomputer in Abilene, Texas, ist eines der wichtigsten Einsatzfelder für MRC. OpenAI weist darauf hin, dass MRC in die neueste 800Gb/s-Netzwerkschnittstelle integriert wurde und im Betrieb bereits in realen großen Trainings-Clusters eingesetzt wird.

Dieser Artikel „OpenAI veröffentlicht MRC-Supercomputer-Netzwerkprotokoll!“ erschien zuerst bei 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

Anthropic veröffentlicht Claude Dreams: Agents sortieren ihre Erinnerungen selbst zwischen den Aufgaben, beseitigen Duplikate und Widersprüche

Anthropic hat auf der Code with Claude-Veranstaltung Dreams veröffentlicht: Claude Managed Agents sortieren dabei automatisch Erinnerungen über mehrere Sitzungen hinweg, eliminieren Duplikate und Widersprüche, aktualisieren veraltete Einträge und geben ein prüfbares, zusammengestelltes Erinnerungs-Repository aus; die Eingabeobergrenze liegt bei 100 Sessions und 4.096 Zeichen, die Ausführung erfolgt asynchron und dauert einige Minuten bis mehrere Zehn Minuten, außerdem wird Streaming-Beobachtung unterstützt. Eine Forschungs-Vorschau muss beantragt werden; vorerst wird nur claude-opus-4-7 sowie claude-sonnet-4-6 unterstützt, ein genaues Datum für den offiziellen Launch steht noch nicht fest.

ChainNewsAbmedia54M her

Anthropic holt Rechenleistung von SpaceX: übernimmt Colossus 1 komplett mit 220.000 GPUs, Claude hebt sein Limit auf

Anthropic gab bekannt, dass es mit SpaceX eine Rechenkooperation für das Rechenzentrum Colossus 1 vereinbart hat. Dafür werden über 220.000 Nvidia-GPUs sowie Kapazitäten von mehr als 300 MW eingesetzt. Die vollständige Bereitstellung für Anthropic soll innerhalb eines Monats erfolgen und die Rechenleistung sowie das Nutzererlebnis von Claude und Code verbessern. Gleichzeitig wurden die Nutzungsobergrenzen für Pro/Max/Team/Enterprise je 5 Stunden gelockert, Spitzenlimits aufgehoben und die Opus-API-Rate erhöht. Parallel wird die Infrastruktur in Asien und Europa ausgebaut; für die Zukunft gibt es zudem Absichtserklärungen wie „Orbitale KI-Berechnungen“, jedoch ist bislang noch kein Vertrag zustande gekommen.

ChainNewsAbmedia1Std her

Coinbase-Ingenieur: KI-Agenten könnten das Werbemodell im Web aufmischen

Erik Reppel, ein Coinbase-Ingenieur, sagte, dass KI-Agenten das werbeabhängige Geschäftsmodell des Internets grundsätzlich untergraben könnten. Laut Reppel beruhe die Web-Wirtschaft stark auf Werbeeinnahmen, die durch menschliche Nutzer generiert werden, aber KI-Agenten umgehen dieses System

CryptoFrontier1Std her

Anthropic verdoppelt die Rate-Limits für Claude Code, nachdem das Unternehmen durch einen Deal mit SpaceX 300MW Kapazität aus dem Weltraum gesichert hat

Laut Odaily hat Anthropic eine Vereinbarung mit SpaceX unterzeichnet, um auf die volle Rechenleistung des Rechenzentrums Colossus 1 zuzugreifen und damit im Laufe des Monats über 300 Megawatt an neuer Kapazität sowie mehr als 220.000 NVIDIA-GPUs zu sichern. Mit sofortiger Wirkung gelten für Claude Code die fünfstündigen Rate Limits für Pro,

GateNews1Std her

Die KI-Rekrutierungsplattform Ethos schließt am 6. Mai eine Series-A-Finanzierungsrunde in Höhe von 22,75 Millionen US-Dollar ab, angeführt von a16z

Laut BlockBeats hat die in London ansässige KI-Rekrutierungsplattform Ethos am 6. Mai eine Series-A-Finanzierung in Höhe von 22,75 Millionen US-Dollar abgeschlossen; Andreessen Horowitz (a16z) führte die Runde an und General Catalyst beteiligte sich. Die Plattform nutzt KI, um Kandidaten zu interviewen und analysiert

GateNews3Std her

OpenAI bringt das MRC-Network-Protokoll mit AMD, Intel und NVIDIA auf den Markt; unterstützt 100.000+ GPUs

Laut der Ankündigung von OpenAI vom 6. Mai hat das Unternehmen eine Partnerschaft mit AMD, Broadcom, Intel, Microsoft und NVIDIA geschlossen, um Multipath Reliable Connection (MRC) auf den Weg zu bringen – ein offenes Netzwerkprotokoll für die GPU-Verkettung in großen KI-Trainings-Clusters. Das Protokoll teilt einzelne Datentransfers auf

GateNews4Std her
Kommentieren
0/400
Keine Kommentare