Tại sao nhu cầu SRAM đột ngột bùng nổ? Chỉ cần nhìn vào làn sóng hoạt động này.
Cách đây không lâu, ngay sau khi một nhà sản xuất chip AI hàng đầu công khai giữ vị trí trong một gã khổng lồ công nghệ, họ đã quay lại và tuyên bố mua lại một công ty đổi mới chip. May mắn này vẫn là sức mạnh, và bạn sẽ biết câu trả lời sau khi nhìn kỹ hơn.
Sức mạnh cốt lõi của công ty này là gì? Không giống như GPU truyền thống dựa vào bộ nhớ băng thông cao bên ngoài (HBM), bộ xử lý LPU của chúng áp dụng ý tưởng thiết kế bộ nhớ truy cập ngẫu nhiên tĩnh dung lượng cao tích hợp trên chip (SRAM). 230MB SRAM trên chip này có thể cung cấp băng thông bộ nhớ lên đến 80TB / giây - khái niệm của con số này là gì? Tốc độ xử lý dữ liệu trực tiếp nghiền nát các giải pháp GPU truyền thống.
Nó thực sự hoạt động như thế nào? Dịch vụ đám mây của họ được biết đến với tốc độ suy luận đáng kinh ngạc. Khi chạy các mô hình lớn mã nguồn mở như Mixtral và Llama 2, nó có thể xuất ra khoảng 500 mã thông báo mỗi giây, đây không phải là một thứ tự lớn so với tốc độ phản hồi của các dịch vụ truyền thống. Giá cả cũng cạnh tranh và chi phí cho mỗi triệu token khá tiết kiệm chi phí.
Tại sao điều này lại quan trọng như vậy bây giờ? Bởi vì một sự thay đổi quan trọng đang diễn ra trong toàn bộ lĩnh vực AI - nhu cầu suy luận sắp vượt quá hoàn toàn nhu cầu đào tạo. Trong thời đại này, việc cung cấp cơ sở hạ tầng suy luận hiệu quả, chi phí thấp và thực sự có thể mở rộng thông qua kiến trúc sáng tạo của LPU là điều thị trường thực sự thiếu. Người đứng đầu một công ty chip đã nói rõ rằng ông có kế hoạch tích hợp bộ xử lý có độ trễ thấp này vào kiến trúc nhà máy AI của riêng mình, với mục tiêu phục vụ nhiều loại suy luận AI và khối lượng công việc thời gian thực hơn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
14 thích
Phần thưởng
14
5
Đăng lại
Retweed
Bình luận
0/400
CodeSmellHunter
· 17giờ trước
80TB/s băng thông? Con số này thực sự nghiền nát GPU rồi
Thú vị đấy, ý tưởng tích hợp SRAM trên chip thật sự rất ấn tượng
Phân tích dự kiến sẽ bùng nổ, xem ra cuộc chiến chip mới thực sự bắt đầu
Đặt cược rằng LPU lần này có thể gánh vác vai trò chính của phân tích
Xem bản gốcTrả lời0
MEVvictim
· 12-26 11:52
Ngay sau khi con số 80TB/s được công bố, tôi biết ai là người chiến thắng, và lối chơi của HBM sẽ bị quay đến chết
Chi phí suy luận quá cao, tôi lạc quan về làn sóng này
Đó là một câu chuyện khác về "Tôi đã mua trước", may mắn vẫn là sức mạnh của chính mình
Tích hợp SRAM là một thủ thuật, trực tiếp giảm kích thước để chống lại các giải pháp truyền thống
Tôi tin là 500 token mỗi giây, nhưng tôi muốn xem thứ này có thể chạy trong bao lâu trong môi trường sản xuất thực tế
Đó là lý do tại sao gần đây tôi đã chú ý đến hướng lưu trữ trên chip và tôi đã ngửi thấy làn sóng thay đổi này
Vua khối lượng có một mẹo mới, hãy chờ xem chi phí có thể thấp đến mức nào
LPU được xây dựng và ngày của GPU phải thay đổi
Tính năng sát thủ giá, nó thực sự phụ thuộc vào hiệu quả triển khai thực tế
Tôi đã nghe thuật ngữ lý luận ngoài việc đào tạo trong vài năm, nó có thực sự đến lần này không?
Xem bản gốcTrả lời0
AirdropDreamer
· 12-26 11:52
80TB/s băng thông? Lần này các nhà sản xuất GPU chắc chắn không thể đứng yên rồi, SRAM thực sự là một lĩnh vực tiềm năng vô hình đấy
Xem bản gốcTrả lời0
rugpull_ptsd
· 12-26 11:41
80TB/s con số này thực sự đỉnh cao, vượt xa GPU truyền thống không phải là nói quá
---
Vì vậy, cuối cùng vẫn là phần suy luận cần phải bay cao, đã đến lúc phải chú trọng rồi
---
500tokens/s? Tốc độ này thực sự hơi điên rồi, cuối cùng cũng có người nghiêm túc làm phần suy luận
---
Chính là ý tưởng này, SRAM trên chip trực tiếp loại bỏ quái vật độ trễ, hiệu suất cực kỳ cao
---
Việc mua lại này chơi rất hay, LPU mới là cách chơi suy luận của tương lai đúng không
---
Chi phí còn rẻ nữa? Giờ các phe đào tạo phải sốt ruột rồi, phần suy luận thật sự sắp lật đổ rồi
---
Chờ đã, 80TB/s là khái niệm gì... nhanh hơn cái gì cũng được
---
Cuối cùng có người hiểu rõ phần suy luận này, bộ HBM đó đã đến lúc bị loại bỏ rồi
Xem bản gốcTrả lời0
BearMarketBro
· 12-26 11:39
80TB/s? cười chết, nếu thật sự có thể đạt được, các nhà sản xuất HBM sẽ khóc thét
---
Hướng dẫn siêu huấn luyện suy luận, lần này thực sự hiểu rõ rồi, tất cả đều là vấn đề tiền bạc
---
Có vẻ khá quyết đoán, tích hợp SRAM trực tiếp để tránh bị HBM làm nghẽn, đã sớm nên chơi như vậy rồi
---
500 tokens/s nghe có vẻ ấn tượng, nhưng dữ liệu điểm chuẩn thực tế ở đâu?
---
Đây mới là con đường chính của chip AI, vượt qua các giới hạn bên ngoài mới có thể chiến thắng
---
Các nhà sản xuất chip chơi rất hiểu, trước giữ cổ phần rồi mới mua lại, vốn đầu tư thật là tùy ý
---
Con đường SRAM này đã đúng, chỉ sợ chi phí công nghệ sau này không thể giảm xuống được
---
Điểm ngoặt của việc suy luận trở thành xu hướng chính cuối cùng đã đến, ai chiếm lĩnh sẽ thắng
---
Giá cả hợp lý + tốc độ nhanh, thời đại này đang thay đổi theo hướng mới
---
Chờ đã, liệu đơn hàng HBM có sắp hết hạn không?
Tại sao nhu cầu SRAM đột ngột bùng nổ? Chỉ cần nhìn vào làn sóng hoạt động này.
Cách đây không lâu, ngay sau khi một nhà sản xuất chip AI hàng đầu công khai giữ vị trí trong một gã khổng lồ công nghệ, họ đã quay lại và tuyên bố mua lại một công ty đổi mới chip. May mắn này vẫn là sức mạnh, và bạn sẽ biết câu trả lời sau khi nhìn kỹ hơn.
Sức mạnh cốt lõi của công ty này là gì? Không giống như GPU truyền thống dựa vào bộ nhớ băng thông cao bên ngoài (HBM), bộ xử lý LPU của chúng áp dụng ý tưởng thiết kế bộ nhớ truy cập ngẫu nhiên tĩnh dung lượng cao tích hợp trên chip (SRAM). 230MB SRAM trên chip này có thể cung cấp băng thông bộ nhớ lên đến 80TB / giây - khái niệm của con số này là gì? Tốc độ xử lý dữ liệu trực tiếp nghiền nát các giải pháp GPU truyền thống.
Nó thực sự hoạt động như thế nào? Dịch vụ đám mây của họ được biết đến với tốc độ suy luận đáng kinh ngạc. Khi chạy các mô hình lớn mã nguồn mở như Mixtral và Llama 2, nó có thể xuất ra khoảng 500 mã thông báo mỗi giây, đây không phải là một thứ tự lớn so với tốc độ phản hồi của các dịch vụ truyền thống. Giá cả cũng cạnh tranh và chi phí cho mỗi triệu token khá tiết kiệm chi phí.
Tại sao điều này lại quan trọng như vậy bây giờ? Bởi vì một sự thay đổi quan trọng đang diễn ra trong toàn bộ lĩnh vực AI - nhu cầu suy luận sắp vượt quá hoàn toàn nhu cầu đào tạo. Trong thời đại này, việc cung cấp cơ sở hạ tầng suy luận hiệu quả, chi phí thấp và thực sự có thể mở rộng thông qua kiến trúc sáng tạo của LPU là điều thị trường thực sự thiếu. Người đứng đầu một công ty chip đã nói rõ rằng ông có kế hoạch tích hợp bộ xử lý có độ trễ thấp này vào kiến trúc nhà máy AI của riêng mình, với mục tiêu phục vụ nhiều loại suy luận AI và khối lượng công việc thời gian thực hơn.