MIT hợp tác với Nvidia để phát triển công nghệ TLT, giúp tăng tốc hiệu suất huấn luyện cho các mô hình AI quy mô lớn nhanh nhất tới 210%.

K-LinePoet · 2026-04-04T15:04:57+00:00

MIT và các tổ chức như NVIDIA đã phối hợp phát hành công nghệ "Thuần hóa Đuôi Dài" (TLT), thông qua các phương pháp "Giải mã Đầu cơ" sáng tạo và "Trình huấn luyện Phác thảo Tự thích nghi", đã nâng cao đáng kể hiệu quả đào tạo các mô hình ngôn ngữ lớn trong suy luận, tốc độ tăng từ 70% đến 210%, đồng thời giảm tiêu thụ năng lượng, trong tương lai hy vọng sẽ được mở rộng sang nhiều khung AI hơn.

K-LinePoet

2026-04-04 15:04:57

Đang tạo bản tóm tắt

IT之家 ngày 28 tháng 2 đưa tin, MIT News vào ngày 26 tháng 2 đã đăng một bài viết cho biết Viện Công nghệ Massachusetts (MIT), cùng với NVIDIA và các tổ chức khác, đã phát triển công nghệ “Thuần phục đuôi dài” (TLT), có thể cải thiện đáng kể hiệu quả huấn luyện cho các mô hình ngôn ngữ lớn suy luận (LLM).

IT之家 dẫn theo phần giới thiệu trong bài viết: các mô hình suy luận quy mô lớn giỏi trong việc giải quyết các vấn đề phức tạp bằng cách tách các bước, nhưng trong quá trình huấn luyện bằng học tăng cường (RL), mức tiêu hao năng lực tính toán và năng lượng là cực kỳ lớn.

Nhóm nghiên cứu phát hiện rằng giai đoạn “rollout” (suy diễn) tạo ra nhiều phương án trả lời chiếm tới 85% thời gian huấn luyện. Do độ dài câu trả lời do các bộ xử lý khác nhau tạo ra không giống nhau, các bộ xử lý hoàn thành nhanh hơn buộc phải rơi vào trạng thái nhàn rỗi, chờ các bộ xử lý khác hoàn tất tác vụ văn bản dài, từ đó tạo thành một nút thắt hiệu quả nghiêm trọng.

Để giải quyết “điểm đau” này, các nhà nghiên cứu MIT đã phối hợp với NVIDIA, Trường Đại học Liên bang Thụy Sĩ Zurich (ETH Zurich) và các tổ chức khác, đề xuất một giải pháp thích ứng có tên “Thuần phục đuôi dài” (TLT).

Điểm cốt lõi của giải pháp nằm ở việc sáng tạo ứng dụng kỹ thuật “giải mã phỏng đoán” (speculative decoding), tức là huấn luyện một “mô hình bản nháp” (drafter) nhỏ hơn để dự đoán nhanh đầu ra tương lai của mô hình lớn, sau đó chính mô hình lớn sẽ xác thực hàng loạt các phỏng đoán đó. Nhờ vậy, mô hình lớn không cần tạo lần lượt từng đầu ra theo thứ tự, từ đó tăng tốc đáng kể tiến trình xử lý.

Trong giải mã phỏng đoán truyền thống, mô hình bản nháp thường chỉ được huấn luyện một lần và giữ nguyên ở trạng thái tĩnh. Tuy nhiên trong học tăng cường, mô hình chính cần được cập nhật hàng nghìn lần, nên mô hình bản nháp tĩnh sẽ nhanh chóng trở nên lỗi thời.

Vì thế, hệ thống TLT đưa vào “bộ huấn luyện bản nháp thích ứng”. Khi một phần các bộ xử lý hoàn tất các truy vấn ngắn và chuyển sang trạng thái nhàn rỗi, hệ thống sẽ lập tức điều phối chúng để huấn luyện bản nháp theo thời gian thực.

Đồng thời, “cỗ máy suy diễn thích ứng” sẽ tự động điều chỉnh chiến lược giải mã dựa trên đặc điểm khối lượng công việc, nhằm đảm bảo mô hình bản nháp luôn đồng bộ ở mức cao với mô hình mục tiêu, đồng thời không làm tăng chi phí tính toán bổ sung.

Các thử nghiệm dựa trên bộ dữ liệu ngoài thế giới thực cho thấy công nghệ TLT có thể nâng tốc độ huấn luyện của nhiều mô hình ngôn ngữ lớn suy luận lên từ 70% đến 210% trong khi độ chính xác của mô hình vẫn hoàn toàn không bị ảnh hưởng.

Không chỉ vậy, mô hình bản nháp nhẹ sau huấn luyện còn có thể đóng vai trò như một sản phẩm phụ miễn phí, được dùng trực tiếp cho việc triển khai hiệu quả ở giai đoạn sau. Nhóm nghiên cứu trong tương lai dự định tích hợp công nghệ này vào nhiều khung huấn luyện và suy luận hơn, từ đó tiếp tục giảm chi phí phát triển AI và nâng cao hiệu quả sử dụng năng lượng.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.