Mengapa permintaan SRAM tiba-tiba meledak? Lihat saja gelombang operasi ini.
Beberapa waktu lalu, tak lama setelah produsen chip AI terkemuka secara terbuka memegang posisi di raksasa teknologi, ia berbalik dan mengumumkan akuisisi perusahaan inovasi chip. Keberuntungan ini masih merupakan kekuatan, dan Anda akan tahu jawabannya setelah melihat lebih dekat.
Apa kekuatan inti perusahaan ini? Tidak seperti GPU tradisional yang mengandalkan memori bandwidth tinggi (HBM) eksternal, prosesor LPU mereka mengadopsi ide desain memori akses acak statis berkapasitas tinggi (SRAM) terintegrasi pada chip. SRAM on-chip 230MB ini dapat menyediakan bandwidth memori hingga 80TB/s - apa konsep dari angka ini? Kecepatan pemrosesan data secara langsung menghancurkan solusi GPU tradisional.
Bagaimana kinerjanya sebenarnya? Layanan cloud mereka dikenal dengan kecepatan inferensinya yang luar biasa. Saat menjalankan model besar open source seperti Mixtral dan Llama 2, ia dapat menghasilkan sekitar 500 token per detik, yang bukan urutan besarnya dibandingkan dengan kecepatan respons layanan tradisional. Harganya juga kompetitif, dan biaya per juta token cukup hemat biaya.
Mengapa ini begitu penting sekarang? Karena pergeseran kunci sedang terjadi di seluruh bidang AI - kebutuhan inferensi akan benar-benar melebihi kebutuhan pelatihan. Di era ini, menyediakan infrastruktur inferensi yang efisien, berbiaya rendah, dan benar-benar terukur melalui arsitektur inovatif LPU adalah apa yang benar-benar kurang dari pasar. Kepala perusahaan chip menjelaskan bahwa dia berencana untuk mengintegrasikan prosesor latensi rendah ini ke dalam arsitektur pabrik AI-nya sendiri, dengan tujuan melayani inferensi AI dan beban kerja real-time yang lebih luas.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
13 Suka
Hadiah
13
5
Posting ulang
Bagikan
Komentar
0/400
CodeSmellHunter
· 15jam yang lalu
80TB/s bandwidth? Angka ini benar-benar menghancurkan GPU menjadi reruntuhan
Agak menarik, integrasi SRAM di chip memang ide yang keren
Inferensi akan meledak, tampaknya perang chip benar-benar baru dimulai
Taruh taruhan bahwa LPU ini bisa mengemban bendera inferensi
Lihat AsliBalas0
MEVvictim
· 12-26 11:52
80TB/s angka ini keluar saya langsung tahu siapa yang menang, cara bermain HBM ini akan dihancurkan
Biaya inferensi begitu kompetitif, saya yakin dengan tren ini
Ini lagi cerita "Saya sudah membeli sebelumnya", keberuntungan atau kemampuan sendiri yang menilai
集成 SRAM ini keren, langsung mengurangi dimensi dan mengalahkan solusi tradisional
500 tokens per detik saya percaya, tapi saya lebih ingin melihat berapa lama perangkat ini bisa berjalan di lingkungan produksi nyata
Ini sebabnya saya akhir-akhir ini terus memantau arah penyimpanan on-chip, sudah mencium perubahan ini sejak lama
Raja kompetisi kembali menunjukkan inovasi baru, tunggu dan lihat berapa rendah biaya bisa ditekan
Arsitektur LPU sudah terbangun, hari-hari GPU harus diubah
Ini adalah senjata mematikan harga, benar-benar tergantung pada efektivitas implementasi nyata
Saya sudah mendengar klaim inferensi melampaui pelatihan selama bertahun-tahun, apakah kali ini benar-benar akan terjadi?
Lihat AsliBalas0
AirdropDreamer
· 12-26 11:52
80TB/s bandwidth? Sekarang produsen GPU harus duduk tidak tenang, SRAM memang jalur tersembunyi yang nyata nih
Lihat AsliBalas0
rugpull_ptsd
· 12-26 11:41
80TB/s angka ini benar-benar luar biasa, mengalahkan GPU tradisional bukan omong kosong
---
Jadi pada akhirnya, bagian inferensi harus benar-benar melesat, sudah saatnya diberi perhatian
---
500 tokens/s? Kecepatan ini benar-benar gila, akhirnya ada yang serius mengerjakan inferensi
---
Inilah ide dasarnya, SRAM di chip langsung menghilangkan monster latensi, efisiensi luar biasa
---
Langkah akuisisi ini sangat cerdas, LPU adalah cara masa depan untuk inferensi
---
Biayanya juga murah? Sekarang tim pelatihan harus panik, inferensi benar-benar akan bangkit
---
Tunggu dulu, apa konsep dari 80TB/s... ini lebih cepat dari apa pun
---
Akhirnya ada yang memahami bagian inferensi ini, set HBM seharusnya sudah digantikan
Lihat AsliBalas0
BearMarketBro
· 12-26 11:39
80TB/dtk? Tertawa sampai mati, jika ini benar-benar bisa habis, produsen HBM harus menangis
---
Penalaran pelatihan super, gelombang ini memang mengerti, ini semua tentang uang
---
Ini agak kejam, langsung mengintegrasikan SRAM untuk menghindari leher HBM yang terjebak, seharusnya sudah dimainkan seperti ini sejak lama
---
500 token/s terdengar bullish, tetapi di mana data benchmark yang sebenarnya?
---
Ini adalah cara yang tepat untuk chip AI, melewati kemacetan eksternal untuk menang
---
Pabrik chip bermain dengan jelas, memegang posisi terlebih dahulu dan kemudian membeli, dan modal sangat disengaja
---
SRAM berada di jalur yang benar, dan saya khawatir biaya proses selanjutnya tidak akan dapat menekan
---
Titik balik di mana penalaran telah menjadi arus utama akhirnya tiba, dan siapa pun yang mendahuluinya menang
---
Hemat biaya + cepat, ini adalah perubahan di era tolok ukur
---
Tunggu, apakah daftar HBM akan dingin?
Mengapa permintaan SRAM tiba-tiba meledak? Lihat saja gelombang operasi ini.
Beberapa waktu lalu, tak lama setelah produsen chip AI terkemuka secara terbuka memegang posisi di raksasa teknologi, ia berbalik dan mengumumkan akuisisi perusahaan inovasi chip. Keberuntungan ini masih merupakan kekuatan, dan Anda akan tahu jawabannya setelah melihat lebih dekat.
Apa kekuatan inti perusahaan ini? Tidak seperti GPU tradisional yang mengandalkan memori bandwidth tinggi (HBM) eksternal, prosesor LPU mereka mengadopsi ide desain memori akses acak statis berkapasitas tinggi (SRAM) terintegrasi pada chip. SRAM on-chip 230MB ini dapat menyediakan bandwidth memori hingga 80TB/s - apa konsep dari angka ini? Kecepatan pemrosesan data secara langsung menghancurkan solusi GPU tradisional.
Bagaimana kinerjanya sebenarnya? Layanan cloud mereka dikenal dengan kecepatan inferensinya yang luar biasa. Saat menjalankan model besar open source seperti Mixtral dan Llama 2, ia dapat menghasilkan sekitar 500 token per detik, yang bukan urutan besarnya dibandingkan dengan kecepatan respons layanan tradisional. Harganya juga kompetitif, dan biaya per juta token cukup hemat biaya.
Mengapa ini begitu penting sekarang? Karena pergeseran kunci sedang terjadi di seluruh bidang AI - kebutuhan inferensi akan benar-benar melebihi kebutuhan pelatihan. Di era ini, menyediakan infrastruktur inferensi yang efisien, berbiaya rendah, dan benar-benar terukur melalui arsitektur inovatif LPU adalah apa yang benar-benar kurang dari pasar. Kepala perusahaan chip menjelaskan bahwa dia berencana untuk mengintegrasikan prosesor latensi rendah ini ke dalam arsitektur pabrik AI-nya sendiri, dengan tujuan melayani inferensi AI dan beban kerja real-time yang lebih luas.