Nghiên cứu cho thấy có một khoảng trống hiệu suất giữa RL trực tuyến và ngoại tuyến cho LLM—đặc biệt là khi mở rộng quy mô—nhưng việc kết hợp các mẫu on-policy vào các thuật toán ngoại tuyến (RL lặp đi lặp lại/đại diện bán trực tuyến ) có thể thu hẹp khoảng trống, với chất lượng dữ liệu đào tạo thường quan trọng hơn sự lựa chọn phương pháp RL.

Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
GhostAddressMinervip
· 10giờ trước
Dữ liệu chất lượng giả mạo tín hiệu trên chuỗi đã được theo dõi
Xem bản gốcTrả lời0
WagmiOrRektvip
· 10giờ trước
Chất lượng dữ liệu huấn luyện mới là điều quan trọng.
Xem bản gốcTrả lời0
ContractFreelancervip
· 10giờ trước
Đào tạo ngoại tuyến vẫn còn thiếu một chút ý nghĩa.
Xem bản gốcTrả lời0
MEVSupportGroupvip
· 10giờ trước
Đào tạo ngoại tuyến hay đào tạo trên chuỗi đều giống nhau.
Xem bản gốcTrả lời0
OnchainDetectiveBingvip
· 10giờ trước
Chạy offline tệ quá huhu
Xem bản gốcTrả lời0
StakeOrRegretvip
· 11giờ trước
Để ở đây là vải mỏng hoàn toàn offline.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)