NVIDIA Redéfinit l'IA en supercalculing : Grace Blackwell DGX SuperPOD atteint la frontière du trillion de paramètres

2025-12-31 09:39:00

Une nouvelle ère pour l’infrastructure d’IA générative

NVIDIA a introduit un changement fondamental dans l’infrastructure d’IA avec le lancement de son DGX SuperPOD alimenté par Grace Blackwell Superchips. Cette plateforme de nouvelle génération répond au défi le plus exigeant auquel l’IA est confrontée aujourd’hui : comment traiter et déployer efficacement des modèles de trillion de paramètres à l’échelle de la production avec un minimum d’interruption.

L’échelle est stupéfiante. Une seule configuration DGX SuperPOD peut intégrer 576 GPU Blackwell dans un environnement informatique unifié, offrant 11,5 exaflops de performance en IA à la précision FP4 tout en maintenant 240 téraoctets de mémoire rapide. Cela représente un saut décisif en capacité—jusqu’à 30x plus rapide en inférence pour les grands modèles de langage par rapport à la génération H100 précédente de NVIDIA.

L’architecture qui alimente l’IA de demain

Ce qui distingue cette innovation NVIDIA, ce n’est pas seulement la performance brute, mais aussi l’élégance architecturale. Chaque système DGX GB200 combine 36 GPU Blackwell avec 36 CPU Grace, connectés via la technologie NVLink de cinquième génération. Le résultat est une conception à l’échelle d’un rack qui résout le goulet d’étranglement de bande passante qui affectait les supercalculateurs de génération précédente.

Le nouveau DGX SuperPOD atteint 1 800 gigaoctets par seconde de bande passante par GPU—réalisé grâce à un tissu de calcul unifié intégrant les DPU NVIDIA BlueField-3 et le futur réseau InfiniBand Quantum-X800. La capacité d’In-Network Computing fournit 14,4 téraflops de puissance de traitement distribuée, soit une amélioration de 4x par rapport à la génération précédente de DGX SuperPOD.

Il s’agit d’une ingénierie refroidie par liquide, construite en usine, optimisée pour le déploiement en centre de données. Chaque DGX SuperPOD est livré entièrement assemblé, câblé et testé—transformant la construction d’infrastructure IA, qui prenait des mois, en quelques semaines.

Disponibilité et avantage concurrentiel

NVIDIA a intégré une intelligence dans ce DGX SuperPOD que les supercalculateurs conventionnels ne possèdent pas. La plateforme surveille en continu des milliers de paramètres matériels et logiciels simultanément, utilisant des algorithmes prédictifs pour identifier et prévenir les défaillances avant qu’elles ne surviennent.

Si le système détecte des composants dégradés, il active automatiquement une capacité de réserve pour maintenir les charges de travail en fonctionnement. La maintenance de routine peut être planifiée autour des fenêtres de calcul, et les tâches interrompues reprennent automatiquement—le tout sans intervention humaine. Pour les équipes entraînant des modèles de trillion de paramètres, cette capacité de gestion prédictive se traduit directement par des économies de coûts et un délai de mise sur le marché accéléré.

Une scalabilité au-delà d’un seul rack

L’architecture modulaire NVIDIA DGX SuperPOD s’étend horizontalement. Huit systèmes connectés via Quantum InfiniBand créent des espaces mémoire partagés à travers des centaines de GPU. Cette approche permet aux entreprises et aux institutions de recherche de construire des centres d’excellence en IA qui servent de grandes équipes de développeurs exécutant des charges de travail parallèles simultanément.

NVIDIA a également présenté le système DGX B200 pour les organisations nécessitant une configuration refroidie par air, montée en rack traditionnelle. Chacun contient huit GPU Blackwell associés à des processeurs Intel Xeon de cinquième génération, offrant 144 petaflops de performance en IA et 1,4 To de mémoire GPU—permettant une inférence en temps réel 15x plus rapide pour des applications de trillion de paramètres.

Logiciels et expertise pour clôturer la boucle

Le matériel seul ne garantit pas le succès en production d’IA. NVIDIA associe chaque DGX SuperPOD à sa pile logicielle AI Enterprise, qui comprend des modèles de fondation pré-entraînés, des frameworks de développement et la nouvelle architecture microservices NIM pour un déploiement simplifié.

Des experts certifiés NVIDIA et des partenaires agréés accompagnent les clients depuis le déploiement initial jusqu’aux phases d’optimisation, garantissant que les capacités se traduisent en valeur commerciale réelle. Cette approche de bout en bout répond à l’écart d’expertise que rencontrent de nombreuses organisations lors du déploiement d’une infrastructure de supercalcul à grande échelle.

Ce que cela signifie pour le développement de l’IA

Jensen Huang, fondateur et PDG de NVIDIA, a résumé l’importance simplement : « Les supercalculateurs NVIDIA DGX IA sont les usines de la révolution industrielle de l’IA. » Le DGX SuperPOD alimenté par Grace Blackwell prolonge cette vision—démocratisant l’accès à la formation et à l’inférence de modèles de trillion de paramètres au niveau de l’infrastructure.

La disponibilité du DGX SuperPOD avec systèmes DGX GB200 et de la plateforme DGX B200 est prévue tout au long de 2024 via le réseau mondial de partenaires NVIDIA, positionnant cette génération de supercalcul IA comme la fondation de la prochaine vague d’avancées en IA générative dans tous les secteurs.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.