Raksasa teknologi Microsoft baru saja mengumumkan angka-angka serius tentang kinerja inferensi AI. Benchmark terbaru mereka mencapai 1,1 juta token per detik yang dijalankan pada satu rak Nvidia GB300 NLV72—menghancurkan rekor sebelumnya yang mereka tetapkan sendiri di angka 865.000 token/detik dengan pengaturan GB200.
Lompatan throughput semacam ini lebih penting daripada angka-angka yang terlihat. Kita berbicara tentang infrastruktur tulang punggung yang mendukung segala hal mulai dari model bahasa hingga potensi aplikasi AI terdesentralisasi. Inferensi yang lebih cepat berarti latensi yang lebih rendah, skalabilitas yang lebih baik, dan akhirnya biaya komputasi yang lebih murah—faktor-faktor yang secara langsung memengaruhi bagaimana AI diintegrasikan ke dalam sistem dunia nyata.
Arsitektur GB300 jelas menunjukkan lonjakan yang berarti dalam kemampuan pemrosesan mentah. Bagi siapa saja yang mengikuti persimpangan AI dan sistem terdistribusi, peningkatan kinerja ini menandakan ke mana arah lapisan komputasi. Dan dalam ruang di mana milidetik dan biaya per token benar-benar penting, peningkatan efisiensi sebesar ini bukan hanya mengesankan—tetapi juga mendasar.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
13 Suka
Hadiah
13
6
Posting ulang
Bagikan
Komentar
0/400
LuckyBearDrawer
· 11jam yang lalu
Microsoft lagi pamer apa nih
Lihat AsliBalas0
NotFinancialAdvice
· 19jam yang lalu
Kerja keras menghasilkan keajaiban, kapan harga akan turun?
Lihat AsliBalas0
SchrodingersPaper
· 19jam yang lalu
Pompa Microsoft ini benar-benar hebat, besok akan ada premi untuk pesanan banyak
Raksasa teknologi Microsoft baru saja mengumumkan angka-angka serius tentang kinerja inferensi AI. Benchmark terbaru mereka mencapai 1,1 juta token per detik yang dijalankan pada satu rak Nvidia GB300 NLV72—menghancurkan rekor sebelumnya yang mereka tetapkan sendiri di angka 865.000 token/detik dengan pengaturan GB200.
Lompatan throughput semacam ini lebih penting daripada angka-angka yang terlihat. Kita berbicara tentang infrastruktur tulang punggung yang mendukung segala hal mulai dari model bahasa hingga potensi aplikasi AI terdesentralisasi. Inferensi yang lebih cepat berarti latensi yang lebih rendah, skalabilitas yang lebih baik, dan akhirnya biaya komputasi yang lebih murah—faktor-faktor yang secara langsung memengaruhi bagaimana AI diintegrasikan ke dalam sistem dunia nyata.
Arsitektur GB300 jelas menunjukkan lonjakan yang berarti dalam kemampuan pemrosesan mentah. Bagi siapa saja yang mengikuti persimpangan AI dan sistem terdistribusi, peningkatan kinerja ini menandakan ke mana arah lapisan komputasi. Dan dalam ruang di mana milidetik dan biaya per token benar-benar penting, peningkatan efisiensi sebesar ini bukan hanya mengesankan—tetapi juga mendasar.