Tập đoàn công nghệ Microsoft vừa công bố những con số ấn tượng về hiệu suất suy luận AI. Bảng xếp hạng mới nhất của họ đạt 1.1 triệu token mỗi giây chạy trên một rack Nvidia GB300 NLV72 duy nhất—vượt xa kỷ lục trước đó mà họ tự thiết lập là 865.000 token/giây với cấu hình GB200.
Loại bước nhảy về thông lượng này quan trọng hơn nhiều so với những con số thể hiện. Chúng ta đang nói về hạ tầng nền tảng cung cấp năng lượng cho mọi thứ từ mô hình ngôn ngữ đến các ứng dụng AI phân tán tiềm năng. Suy luận nhanh hơn đồng nghĩa với độ trễ thấp hơn, khả năng mở rộng tốt hơn và cuối cùng là chi phí tính toán rẻ hơn—những yếu tố ảnh hưởng trực tiếp đến cách AI được tích hợp vào các hệ thống thực tế.
Kiến trúc GB300 rõ ràng thể hiện một bước nhảy đáng kể về khả năng xử lý thô. Đối với những ai theo dõi sự giao thoa giữa AI và hệ thống phân tán, những cải tiến về hiệu suất này báo hiệu hướng đi của lớp tính toán. Và trong một lĩnh vực mà mili giây và chi phí mỗi token thực sự quan trọng, những cải tiến về hiệu quả ở quy mô này không chỉ ấn tượng—chúng mang tính nền tảng.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
13 thích
Phần thưởng
13
6
Đăng lại
Retweed
Bình luận
0/400
LuckyBearDrawer
· 10giờ trước
Microsoft đang khoe khoang điều gì vậy
Xem bản gốcTrả lời0
NotFinancialAdvice
· 18giờ trước
Làm mạnh mẽ ra điều kỳ diệu, khi nào sẽ giảm giá?
Xem bản gốcTrả lời0
SchrodingersPaper
· 18giờ trước
Microsoft cái bơm này thật đỉnh, ngày mai chênh lệch giá nhận lệnh lớn
Tập đoàn công nghệ Microsoft vừa công bố những con số ấn tượng về hiệu suất suy luận AI. Bảng xếp hạng mới nhất của họ đạt 1.1 triệu token mỗi giây chạy trên một rack Nvidia GB300 NLV72 duy nhất—vượt xa kỷ lục trước đó mà họ tự thiết lập là 865.000 token/giây với cấu hình GB200.
Loại bước nhảy về thông lượng này quan trọng hơn nhiều so với những con số thể hiện. Chúng ta đang nói về hạ tầng nền tảng cung cấp năng lượng cho mọi thứ từ mô hình ngôn ngữ đến các ứng dụng AI phân tán tiềm năng. Suy luận nhanh hơn đồng nghĩa với độ trễ thấp hơn, khả năng mở rộng tốt hơn và cuối cùng là chi phí tính toán rẻ hơn—những yếu tố ảnh hưởng trực tiếp đến cách AI được tích hợp vào các hệ thống thực tế.
Kiến trúc GB300 rõ ràng thể hiện một bước nhảy đáng kể về khả năng xử lý thô. Đối với những ai theo dõi sự giao thoa giữa AI và hệ thống phân tán, những cải tiến về hiệu suất này báo hiệu hướng đi của lớp tính toán. Và trong một lĩnh vực mà mili giây và chi phí mỗi token thực sự quan trọng, những cải tiến về hiệu quả ở quy mô này không chỉ ấn tượng—chúng mang tính nền tảng.