NVIDIA Định nghĩa lại Si tính AI: Grace Blackwell DGX SuperPOD Đạt Mốc Trillion-Parameter

2025-12-31 09:39:00

Một Kỷ Nguyên Mới của Hạ Tầng AI Sinh Tạo

NVIDIA đã giới thiệu một bước chuyển đổi căn bản trong hạ tầng AI với việc ra mắt DGX SuperPOD được trang bị Grace Blackwell Superchips. Nền tảng thế hệ tiếp theo này giải quyết thách thức lớn nhất mà phát triển AI đang đối mặt ngày nay: làm thế nào để xử lý và triển khai các mô hình hàng nghìn tỷ tham số một cách hiệu quả ở quy mô sản xuất với ít gián đoạn nhất.

Quy mô thật đáng kinh ngạc. Một cấu hình DGX SuperPOD duy nhất có thể tích hợp 576 GPU Blackwell vào một môi trường tính toán thống nhất, mang lại hiệu suất AI 11.5 exaflops ở độ chính xác FP4 trong khi duy trì 240 terabyte bộ nhớ nhanh. Điều này thể hiện bước nhảy vọt về khả năng—tăng đến 30 lần hiệu suất suy luận cho các mô hình ngôn ngữ lớn so với thế hệ H100 trước đây của NVIDIA.

Kiến Trúc Điều Khiển AI Tương Lai

Điều làm nên sự khác biệt của đổi mới NVIDIA này không chỉ là hiệu suất thô, mà còn là sự tinh tế trong kiến trúc. Mỗi hệ thống DGX GB200 kết hợp 36 GPU Blackwell với 36 CPU Grace, kết nối qua công nghệ NVLink thế hệ thứ năm. Kết quả là một thiết kế theo dạng rack-scale giải quyết nút thắt băng thông đang làm trì trệ các siêu máy tính thế hệ trước.

DGX SuperPOD mới đạt được băng thông 1.800 gigabyte mỗi giây trên mỗi GPU—được thực hiện thông qua một mạng lưới tính toán thống nhất tích hợp NVIDIA BlueField-3 DPU và mạng InfiniBand Quantum-X800 sắp tới. Khả năng Tính Toán Trong Mạng (In-Network Computing) cung cấp 14.4 teraflops xử lý phân tán, gấp 4 lần so với thế hệ DGX SuperPOD trước đó.

Hệ thống này được làm mát bằng dung dịch, được chế tạo tại nhà máy và tối ưu hóa cho triển khai trung tâm dữ liệu. Mỗi DGX SuperPOD được vận chuyển đã lắp ráp hoàn chỉnh, có cáp kết nối và đã qua kiểm tra—biến việc xây dựng hạ tầng AI từ hàng tháng thành vài tuần.

Thời Gian Hoạt Động Như Một Lợi Thế Cạnh Tranh

NVIDIA tích hợp trí tuệ nhân tạo vào DGX SuperPOD mà các siêu máy tính truyền thống không có. Nền tảng này liên tục giám sát hàng nghìn tham số phần cứng và phần mềm cùng lúc, sử dụng các thuật toán dự đoán để phát hiện và ngăn chặn các sự cố trước khi chúng xảy ra.

Nếu hệ thống phát hiện các thành phần suy giảm, nó tự động kích hoạt dung lượng dự phòng để duy trì hoạt động của các tác vụ. Bảo trì định kỳ có thể được lên lịch quanh các khung thời gian tính toán, và các công việc bị gián đoạn sẽ tự động tiếp tục—tất cả mà không cần sự can thiệp của con người. Đối với các nhóm đào tạo mô hình hàng nghìn tỷ tham số, khả năng quản lý dự đoán này trực tiếp mang lại tiết kiệm chi phí và rút ngắn thời gian ra thị trường.

Mở Rộng Vượt Ra Ngoài Các Kệ Đơn

Kiến trúc mô-đun của NVIDIA DGX SuperPOD mở rộng theo chiều ngang. Tám hệ thống kết nối qua Quantum InfiniBand tạo ra các không gian bộ nhớ chia sẻ trên hàng trăm GPU. Cách tiếp cận này cho phép các doanh nghiệp và tổ chức nghiên cứu xây dựng các trung tâm AI xuất sắc phục vụ các nhóm nhà phát triển lớn chạy các tác vụ song song cùng lúc.

NVIDIA cũng giới thiệu hệ thống DGX B200 dành cho các tổ chức cần cấu hình làm mát bằng không khí, lắp đặt theo dạng rack truyền thống. Mỗi hệ thống chứa tám GPU Blackwell kết hợp với các bộ xử lý Intel Xeon thế hệ thứ năm, mang lại 144 petaflops hiệu suất AI và 1.4TB bộ nhớ GPU—cho phép suy luận thời gian thực nhanh hơn 15 lần cho các ứng dụng hàng nghìn tỷ tham số.

Phần Mềm và Chuyên Môn Gắn Kết

Chỉ phần cứng không thôi chưa đảm bảo thành công trong sản xuất AI. NVIDIA kết hợp mỗi DGX SuperPOD với bộ phần mềm AI Enterprise, bao gồm các mô hình nền tảng đã được huấn luyện sẵn, các khung phát triển, và kiến trúc microservices NIM mới để triển khai dễ dàng hơn.

Các chuyên gia NVIDIA được chứng nhận và các đối tác ủy quyền hỗ trợ khách hàng từ giai đoạn triển khai ban đầu đến tối ưu hóa, đảm bảo khả năng chuyển đổi thành giá trị kinh doanh thực tế. Phương pháp toàn diện này giải quyết khoảng cách về chuyên môn mà nhiều tổ chức gặp phải khi triển khai hạ tầng siêu máy tính quy mô lớn.

Ý Nghĩa Của Điều Này Đối Với Phát Triển AI

Jensen Huang, sáng lập viên kiêm CEO của NVIDIA, đã diễn đạt rõ ràng tầm quan trọng: “Siêu máy tính AI NVIDIA DGX là các nhà máy của cuộc cách mạng công nghiệp AI.” DGX SuperPOD được trang bị Grace Blackwell mở rộng tầm nhìn đó—dân chủ hóa khả năng đào tạo và suy luận mô hình hàng nghìn tỷ tham số ở cấp độ hạ tầng.

Việc có sẵn cả DGX SuperPOD với hệ thống DGX GB200 và nền tảng DGX B200 dự kiến sẽ diễn ra trong năm 2024 qua mạng lưới đối tác toàn cầu của NVIDIA, định vị thế hệ siêu máy tính AI này như nền tảng cho làn sóng tiếp theo của tiến bộ AI sinh tạo trong các ngành công nghiệp.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.