Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Báo cáo nào khiến Musk cũng cảm thấy không thể tin nổi?
Moonshot AI (nhóm Kimi) gần đây đã phát hành một báo cáo kỹ thuật bùng nổ: "Attention Residuals", trực tiếp nâng cấp Residual Connections (kết nối phần dư) đã được sử dụng gần 10 năm trong Transformer. Kết quả là Elon Musk cũng không nhịn được để lại bình luận, cảm thấy không thể tin nổi (ở mức độ shock của "unbelievable").
Nội dung chính của báo cáo này có thể tóm tắt bằng một câu:
"Đừng để mỗi lớp mù quáng cộng thêm thông tin từ tất cả các lớp trước đó với trọng số bằng nhau nữa, hãy để mô hình tự học cách sử dụng sự chú ý để chọn tín hiệu từ những lớp đầu tiên nào thực sự hữu ích!"
Trong Transformer truyền thống (cấu trúc PreNorm), đầu ra của mỗi lớp là:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
Đơn giản và tàn bạo: bất kể thông tin từ 100 lớp trước có hữu ích hay không, tất cả đều được cộng vào. Khi số lớp tăng sâu, tín hiệu quan trọng từ đầu sẽ bị pha loãng bởi vô số lớp phía sau (họ gọi hiện tượng này là PreNorm dilution hoặc representational dilution).
Nhóm Kimi trực tiếp thay thế dấu "+" này bằng một cơ chế chú ý xuyên lớp nhẹ (depth-wise attention):
Công thức mới có dạng xấp xỉ như thế này (phiên bản đơn giản):
x_l = Attention( Q=x_l^{pre}, K=tóm tắt tất cả các lớp trước, V=giá trị tương ứng ) + những thứ khác
Triển khai thực tế của họ gọi là Block AttnRes: cứ cách vài lớp (ví dụ 8-16 lớp) thực hiện một tóm tắt key/value, sau đó sử dụng sự chú ý để chọn những tóm tắt này, thay vì tính sự chú ý ở mỗi lớp. Cách này tăng bộ nhớ và lượng tính toán rất ít (độ trễ suy luận <2%), nhưng hiệu quả rất tốt.
Kết quả thử nghiệm của họ (sử dụng dòng mô hình Kimi Linear của họ, kiểu 48B total / 3B active):
• Với cùng FLOPs, cải thiện hiệu năng tương đương với lợi thế tính toán 1,25 lần
• Cải thiện rõ rệt trong suy luận trên chuỗi dài, các tác vụ suy luận đa bước phức tạp
• Độ lớn (chuẩn) của trạng thái ẩn ổn định hơn, không như phần dư truyền thống sẽ hoặc phát tán hoặc suy giảm khi càng sâu
• Truyền gradient đều hơn, các lớp sâu dễ huấn luyện hơn
⚠️⚠️
Câu hỏi đặt ra, tại sao Musk lại có phản ứng lớn như vậy?
"Kết nối phần dư từng nằm 8 năm, cuối cùng cũng có người dám chỉnh sửa nó, và còn chỉnh sửa một cách lịch lãm như vậy, hiệu quả còn tốt thế?"
Tại sao cái này lại phải được chú ý? Bởi vì kết nối phần dư gần như là dây cứu mệnh duy nhất để Transformer có thể huấn luyện tới 100+ lớp, thậm chí hàng nghìn lớp, mọi người đều nghĩ đã tối ưu rồi không thể đổi. Kết quả là Kimi sử dụng cơ chế chú ý quen thuộc nhất, ngược lại để giải quyết vấn đề của chính phần dư đó, cũng giống như lại chơi lên một tầm cao mới với câu nói "chú ý chính là tất cả những gì bạn cần".
Hiện đã có triển khai Rust (dựa trên framework burn), các biểu đồ giải thích trực quan trên X, và người nói đây là một đổi mới kiến trúc thực sự có thể bước vào thế hệ tiếp theo của mô hình lớn mã nguồn mở/đóng, sau DeepSeek mHC.
Nếu bạn làm mô hình lớn, huấn luyện LLM của riêng mình, báo cáo này xứng đáng đọc báo cáo gốc suốt đêm + code (GitHub đã mã nguồn mở).
Báo cáo:
Sẵn sàng bị sốc chưa 🚀