Cuối năm 2025, tin tức về kế hoạch chi số tiền khổng lồ của ByteDance để mua hàng chục nghìn chip AI hàng đầu của Nvidia đã trở thành tâm điểm thảo luận sôi nổi trong cộng đồng công nghệ. Quan điểm truyền thông tập trung vào câu chuyện về trò chơi tư bản và địa chính trị, nhưng đằng sau đơn đặt hàng 100 tỷ nhân dân tệ này, một thách thức kỹ thuật lớn hơn và phức tạp hơn bị lặng lẽ bỏ qua: việc chuyển đổi những con chip này thành sức mạnh tính toán có thể sử dụng được, hiệu quả và ổn định khó hơn nhiều so với việc có được chúng. Khi số lượng chip tăng từ hàng trăm chip trong phòng thí nghiệm lên hàng chục nghìn chip ở cấp độ công nghiệp, độ phức tạp của thiết kế hệ thống không tăng tuyến tính mà thay đổi về chất. Làm thế nào để đạt được giao tiếp tốc độ cực cao giữa các chip, làm thế nào để đạt được nguồn cung cấp dữ liệu đào tạo khổng lồ ở cấp độ mili giây, làm thế nào để phân phối hiệu quả và làm mát một lượng điện năng khổng lồ và cách lên lịch hàng nghìn tác vụ tính toán một cách thông minh. Bài viết này sẽ phá vỡ sương mù của câu chuyện về vốn và đi sâu trực tiếp vào vùng nội địa kỹ thuật của việc xây dựng cụm GPU Wanka. Điều chúng tôi quan tâm không phải là những con chip nào được mua, mà là cách những con chip này được tổ chức, kết nối và quản lý để tạo thành một tổng thể hữu cơ. Từ kết nối phần cứng xác định giới hạn trên của hiệu suất trong tủ máy chủ, đến bộ não phần mềm điều phối mọi thứ ở quy mô của trung tâm dữ liệu, đến kiến trúc phục hồi được thiết kế sẵn để đối phó với sự không chắc chắn của chuỗi cung ứng, điều này cho thấy cốt lõi của cuộc đua AI đã lặng lẽ chuyển từ đổi mới thuật toán sang kiểm soát tuyệt đối cơ sở hạ tầng cơ bản.

Mạng và lưu trữ: Trần vô hình của hiệu suất

Trong một cụm 10.000 thẻ, sức mạnh tính toán tối đa của một GPU duy nhất chỉ là lý thuyết và đầu ra thực tế của nó hoàn toàn phụ thuộc vào tốc độ mà nó thu được hướng dẫn và dữ liệu. Do đó, hệ thống lưu trữ và kết nối mạng tạo thành trần vô hình quan trọng nhất của toàn bộ hệ thống. Ở cấp độ mạng, Ethernet đơn giản không còn đủ để đáp ứng nhu cầu và phải sử dụng mạng InfiniBand hoặc NVLink chuyên dụng băng thông cao, độ trễ thấp. Quyết định quan trọng đầu tiên mà các kỹ sư phải đối mặt là lựa chọn cấu trúc liên kết mạng: cấu trúc liên kết cây béo truyền thống để đảm bảo sự bình đẳng băng thông giữa hai điểm bất kỳ hoặc cấu trúc liên kết Dragonfly+ tiết kiệm chi phí hơn nhưng có thể bị chặn trên một số mẫu giao tiếp nhất định? Sự lựa chọn này sẽ ảnh hưởng trực tiếp đến hiệu quả của đồng bộ hóa gradient trong đào tạo phân tán quy mô lớn, do đó xác định tốc độ lặp lại mô hình.

Song song với mạng là thách thức lưu trữ. Đào tạo một mô hình ngôn ngữ lớn có thể yêu cầu đọc hàng trăm terabyte hoặc thậm chí petabyte tập dữ liệu. Nếu tốc độ I/O lưu trữ không thể theo kịp mức tiêu thụ GPU, hầu hết các chip đắt tiền sẽ phải chờ đợi. Do đó, hệ thống lưu trữ phải được thiết kế như một hệ thống tệp song song phân tán được hỗ trợ bởi các mảng all-flash và công nghệ RDMA cho phép GPU giao tiếp trực tiếp với các nút lưu trữ, bỏ qua chi phí CPU và hệ điều hành, đồng thời đạt được quyền truy cập bộ nhớ trực tiếp vào dữ liệu. Hơn nữa, cần phải định cấu hình bộ nhớ đệm cục bộ tốc độ cao quy mô lớn trên nút tính toán và tải trước dữ liệu được sử dụng từ bộ nhớ trung tâm sang đĩa cứng NVMe cục bộ thông qua thuật toán tìm nạp trước thông minh, tạo thành một đường ống cung cấp dữ liệu ba cấp gồm “bộ nhớ lưu trữ trung tâm-bộ nhớ đệm cục bộ-bộ nhớ video GPU” để đảm bảo rằng đơn vị tính toán tiếp tục bão hòa. Việc đồng thiết kế mạng và lưu trữ nhằm mục đích giữ cho dữ liệu lưu thông như máu, với đủ áp lực và tốc độ để liên tục nuôi dưỡng mọi đơn vị tính toán.

Lập lịch và điều phối: bộ não phần mềm của cụm

Phần cứng tạo thành cơ thể của cụm, và hệ thống lập lịch trình và điều phối là bộ não phần mềm mang lại cho nó linh hồn và trí thông minh của nó. Khi hàng chục nghìn GPU và tài nguyên CPU và bộ nhớ liên quan của chúng được gộp lại, làm thế nào để phân bổ hiệu quả, công bằng và đáng tin cậy hàng nghìn nhiệm vụ đào tạo và suy luận AI với các kích thước và mức độ ưu tiên khác nhau là một vấn đề tối ưu hóa tổ hợp cực kỳ phức tạp. Kubernetes mã nguồn mở dựa trên khả năng điều phối vùng chứa mạnh mẽ của nó, nhưng để quản lý tinh tế sức mạnh tính toán không đồng nhất như GPU, các tiện ích mở rộng như NVIDIA DGX Cloud Stack hoặc KubeFlow cần được chồng lên nhau. Thuật toán cốt lõi của bộ lập lịch phải xem xét các ràng buộc đa chiều: không chỉ số lượng GPU mà còn cả kích thước bộ nhớ GPU, số lõi CPU, dung lượng bộ nhớ hệ thống và thậm chí cả các yêu cầu của tác vụ đối với băng thông mạng cụ thể hoặc ái lực cấu trúc liên kết.

Những thách thức phức tạp hơn nằm ở khả năng chịu lỗi và mở rộng quy mô đàn hồi. Trong một hệ thống gồm hàng chục nghìn thành phần, lỗi phần cứng là tiêu chuẩn chứ không phải là bất thường. Hệ thống lập lịch phải có khả năng theo dõi tình trạng sức khỏe của các nút trong thời gian thực và khi phát hiện lỗi GPU hoặc thời gian ngừng hoạt động của nút, nó có thể tự động loại bỏ các tác vụ bị ảnh hưởng khỏi các nút bị lỗi, lên lịch lại chúng trên các nút khỏe mạnh và tiếp tục đào tạo từ điểm ngắt, minh bạch cho người dùng. Đồng thời, trước đỉnh cao đột ngột của lưu lượng suy luận, hệ thống sẽ có thể tự động “giật” một số tài nguyên GPU từ nhóm tác vụ đào tạo theo chiến lược, nhanh chóng và linh hoạt, mở rộng dịch vụ suy luận và giải phóng lại cho nhóm sau khi lưu lượng truy cập giảm trở lại. Mức độ thông minh của bộ não phần mềm này quyết định trực tiếp tỷ lệ sử dụng tổng thể của cụm, đây là tỷ lệ chuyển đổi quan trọng để chuyển đổi chi phí vốn khổng lồ thành đầu ra AI hiệu quả, có giá trị không kém hiệu suất của chính con chip.

Khả năng phục hồi và bền vững: kiến trúc cho sự không chắc chắn

Trong bối cảnh điều tiết công nghệ và biến động địa chính trị, kiến trúc của cụm Wanka cũng phải được tiêm gen “đàn hồi”. Điều này có nghĩa là cơ sở hạ tầng không thể được thiết kế để trở thành một gã khổng lồ mong manh dựa vào một nhà cung cấp duy nhất, một khu vực duy nhất hoặc một ngăn xếp công nghệ duy nhất, mà là khả năng liên tục phát triển và chống lại rủi ro dưới các ràng buộc. Đầu tiên là tìm kiếm sự đa dạng hóa ở cấp độ phần cứng. Mặc dù theo đuổi hiệu suất tối đa, kiến trúc cần xem xét các card sức mạnh tính toán tương thích từ các nhà sản xuất khác nhau và đóng gói sự khác biệt thông qua các lớp trừu tượng, để các ứng dụng lớp trên không cần phải nhận thức những thay đổi trong phần cứng cơ bản. Điều này đòi hỏi sự trừu tượng hóa phần cứng tốt và tính di động của khung cốt lõi và thời gian chạy.

Thứ hai, nó là một phần mở rộng hợp lý của kiến trúc đa đám mây và đám mây lai. Sức mạnh tính toán chiến lược cốt lõi nhất có thể được triển khai trong các trung tâm dữ liệu tự xây dựng, nhưng kiến trúc nên được thiết kế để cho phép khối lượng công việc không cốt lõi hoặc có thể tăng vọt chạy liền mạch trên đám mây công cộng. Thông qua hình ảnh bộ chứa thống nhất và lập lịch dựa trên chính sách, có thể xây dựng một “lưới điện tính toán” thống nhất và phi tập trung về mặt vật lý. Hơn nữa, có thiết kế bất khả tri của ngăn xếp phần mềm. Từ khuôn khổ đến định dạng mô hình, các tiêu chuẩn nguồn mở nên được tuân thủ càng nhiều càng tốt để tránh ràng buộc sâu vào một hệ sinh thái khép kín. Điều này có nghĩa là nắm bắt các framework mở như PyTorch và các định dạng mô hình mở như ONNX, đảm bảo rằng các tài sản mô hình được đào tạo có thể được di chuyển và thực thi tự do trên các môi trường phần cứng và phần mềm khác nhau. Cuối cùng, chỉ số đánh giá cốt lõi của một nền tảng sức mạnh điện toán linh hoạt về mặt chiến lược không chỉ là sức mạnh tính toán đỉnh cao mà còn là khả năng duy trì tính liên tục của R&D và dịch vụ AI khi môi trường bên ngoài thay đổi. Khả năng phục hồi này là một tài sản có giá trị lâu dài hơn so với hiệu suất của một thế hệ chip duy nhất.

Từ tài sản sức mạnh tính toán đến cơ sở thông minh

Hành trình xây dựng cụm GPU 10.000 card là một dấu hiệu rõ ràng cho thấy khía cạnh cạnh tranh của AI hiện đại đã đi sâu hơn. Nó không còn chỉ là một cuộc cạnh tranh về đổi mới thuật toán hoặc quy mô dữ liệu, mà còn là một cuộc cạnh tranh về khả năng chuyển đổi các tài nguyên phần cứng không đồng nhất khổng lồ thành các dịch vụ thông minh ổn định, hiệu quả và đàn hồi thông qua kỹ thuật hệ thống cực kỳ phức tạp. Quá trình này đẩy kỹ thuật phần cứng, khoa học mạng, hệ thống phân tán và kỹ thuật phần mềm lên hàng đầu của hội tụ.

Do đó, giá trị của một cụm Wanka lớn hơn nhiều so với các tài sản tài chính được thể hiện bởi chi phí mua sắm đáng kinh ngạc của nó. Nó là cơ sở hạ tầng thông minh cốt lõi và sống động của một quốc gia hoặc doanh nghiệp trong thời đại kỹ thuật số. Kiến trúc của nó xác định tốc độ lặp đi lặp lại của AI R&D, quy mô ra mắt dịch vụ và sự tự tin để đi trước công nghệ trong một môi trường đầy biến động. Khi chúng ta nhìn vào cuộc đua sức mạnh tính toán qua lăng kính kỹ thuật hệ thống, chúng ta hiểu rằng lợi thế chiến lược thực sự không đến từ các chip được tích trữ trong kho, mà từ các quyết định kỹ thuật được cân nhắc kỹ lưỡng về kết nối, lập lịch trình và khả năng phục hồi trong bản thiết kế. Những quyết định này cuối cùng sẽ dệt tinh thể silicon lạnh lẽo thành một nền tảng vững chắc để hỗ trợ tương lai thông minh.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.