MIT hợp tác với Nvidia để phát triển công nghệ TLT, giúp tăng tốc hiệu suất huấn luyện cho các mô hình AI quy mô lớn nhanh nhất tới 210%.

robot
Đang tạo bản tóm tắt

IT之家 ngày 28 tháng 2 đưa tin, MIT News vào ngày 26 tháng 2 đã đăng một bài viết cho biết Viện Công nghệ Massachusetts (MIT), cùng với NVIDIA và các tổ chức khác, đã phát triển công nghệ “Thuần phục đuôi dài” (TLT), có thể cải thiện đáng kể hiệu quả huấn luyện cho các mô hình ngôn ngữ lớn suy luận (LLM).

IT之家 dẫn theo phần giới thiệu trong bài viết: các mô hình suy luận quy mô lớn giỏi trong việc giải quyết các vấn đề phức tạp bằng cách tách các bước, nhưng trong quá trình huấn luyện bằng học tăng cường (RL), mức tiêu hao năng lực tính toán và năng lượng là cực kỳ lớn.

Nhóm nghiên cứu phát hiện rằng giai đoạn “rollout” (suy diễn) tạo ra nhiều phương án trả lời chiếm tới 85% thời gian huấn luyện. Do độ dài câu trả lời do các bộ xử lý khác nhau tạo ra không giống nhau, các bộ xử lý hoàn thành nhanh hơn buộc phải rơi vào trạng thái nhàn rỗi, chờ các bộ xử lý khác hoàn tất tác vụ văn bản dài, từ đó tạo thành một nút thắt hiệu quả nghiêm trọng.

Để giải quyết “điểm đau” này, các nhà nghiên cứu MIT đã phối hợp với NVIDIA, Trường Đại học Liên bang Thụy Sĩ Zurich (ETH Zurich) và các tổ chức khác, đề xuất một giải pháp thích ứng có tên “Thuần phục đuôi dài” (TLT).

Điểm cốt lõi của giải pháp nằm ở việc sáng tạo ứng dụng kỹ thuật “giải mã phỏng đoán” (speculative decoding), tức là huấn luyện một “mô hình bản nháp” (drafter) nhỏ hơn để dự đoán nhanh đầu ra tương lai của mô hình lớn, sau đó chính mô hình lớn sẽ xác thực hàng loạt các phỏng đoán đó. Nhờ vậy, mô hình lớn không cần tạo lần lượt từng đầu ra theo thứ tự, từ đó tăng tốc đáng kể tiến trình xử lý.

Trong giải mã phỏng đoán truyền thống, mô hình bản nháp thường chỉ được huấn luyện một lần và giữ nguyên ở trạng thái tĩnh. Tuy nhiên trong học tăng cường, mô hình chính cần được cập nhật hàng nghìn lần, nên mô hình bản nháp tĩnh sẽ nhanh chóng trở nên lỗi thời.

Vì thế, hệ thống TLT đưa vào “bộ huấn luyện bản nháp thích ứng”. Khi một phần các bộ xử lý hoàn tất các truy vấn ngắn và chuyển sang trạng thái nhàn rỗi, hệ thống sẽ lập tức điều phối chúng để huấn luyện bản nháp theo thời gian thực.

Đồng thời, “cỗ máy suy diễn thích ứng” sẽ tự động điều chỉnh chiến lược giải mã dựa trên đặc điểm khối lượng công việc, nhằm đảm bảo mô hình bản nháp luôn đồng bộ ở mức cao với mô hình mục tiêu, đồng thời không làm tăng chi phí tính toán bổ sung.

Các thử nghiệm dựa trên bộ dữ liệu ngoài thế giới thực cho thấy công nghệ TLT có thể nâng tốc độ huấn luyện của nhiều mô hình ngôn ngữ lớn suy luận lên từ 70% đến 210% trong khi độ chính xác của mô hình vẫn hoàn toàn không bị ảnh hưởng.

Không chỉ vậy, mô hình bản nháp nhẹ sau huấn luyện còn có thể đóng vai trò như một sản phẩm phụ miễn phí, được dùng trực tiếp cho việc triển khai hiệu quả ở giai đoạn sau. Nhóm nghiên cứu trong tương lai dự định tích hợp công nghệ này vào nhiều khung huấn luyện và suy luận hơn, từ đó tiếp tục giảm chi phí phát triển AI và nâng cao hiệu quả sử dụng năng lượng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.22KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.49KNgười nắm giữ:3
    1.98%
  • Vốn hóa:$2.21KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.26KNgười nắm giữ:2
    0.15%
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Ghim