Học tăng cường từng thực sự khó khăn—đánh giá hành động của tác nhân, xác định phần thưởng và hình phạt phù hợp, gán kết quả cho các thành phần cụ thể. Nó rối rắm.
Nhưng điều đó đã thay đổi đáng kể. Các mô hình ngôn ngữ lớn hiện nay đảm nhận phần lớn công việc đánh giá. Với các LLM quản lý quá trình đánh giá và phản hồi, những gì trước đây đòi hỏi thiết kế thủ công tỉ mỉ giờ đây trở nên khả thi theo thuật toán. Rào cản đã bị phá vỡ.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
18 thích
Phần thưởng
18
8
Đăng lại
Retweed
Bình luận
0/400
SerumSquirter
· 10phút trước
Cảm giác LLM thực sự đã giảm chiều, bộ đánh giá RL cũng có thể tiếp nhận.
Xem bản gốcTrả lời0
UnruggableChad
· 01-09 06:25
llm thật sự đã cứu được vấn đề của rl, trước đây cơ chế thưởng phạt đó thiết kế cực kỳ phức tạp, giờ thì trực tiếp giao cho AI là xong.
Xem bản gốcTrả lời0
NotAFinancialAdvice
· 01-08 23:17
llm tiếp nhận những công việc vất vả và bẩn của rl, giờ thì thuật toán có thể chạy được... nhưng cảm giác lại đẩy vấn đề sang một hộp đen khác?
Xem bản gốcTrả lời0
TokenStorm
· 01-07 23:57
LLM làm đánh giá thực sự là một bước đột phá quan trọng về mặt kỹ thuật, nhưng thành thật mà nói, liệu logic này có thể tái sử dụng cho phản hồi dữ liệu trên chuỗi không? Dữ liệu backtest trông đẹp đẽ, nhưng khi chạy thực tế luôn cảm thấy chưa đủ... Dù sao tôi cũng chưa hiểu rõ, cứ chơi hết mình trước đã [狗头]
Xem bản gốcTrả lời0
ParallelChainMaxi
· 01-07 23:56
lm trực tiếp thay thế thiết kế thủ công, đợt này thực sự là đỉnh... nhưng ai đảm bảo rằng logic đánh giá của lm bản thân không có vấn đề chứ
Xem bản gốcTrả lời0
TokenomicsTinfoilHat
· 01-07 23:44
llm một lần cược tất tay, công việc vất vả của rl đã được thuê ngoài, lần này thực sự có chút giá trị
Xem bản gốcTrả lời0
AlwaysAnon
· 01-07 23:35
Ừ, việc sử dụng LLM để đánh giá thực sự đã thay đổi quy tắc trò chơi, trước đây cơn ác mộng điều chỉnh tham số thủ công cuối cùng cũng đã thở phào nhẹ nhõm.
Xem bản gốcTrả lời0
gaslight_gasfeez
· 01-07 23:33
llm tiếp quản đánh giá của RL? Giờ đây giới hạn của RL thật sự sắp bị phá vỡ rồi đấy
Học tăng cường từng thực sự khó khăn—đánh giá hành động của tác nhân, xác định phần thưởng và hình phạt phù hợp, gán kết quả cho các thành phần cụ thể. Nó rối rắm.
Nhưng điều đó đã thay đổi đáng kể. Các mô hình ngôn ngữ lớn hiện nay đảm nhận phần lớn công việc đánh giá. Với các LLM quản lý quá trình đánh giá và phản hồi, những gì trước đây đòi hỏi thiết kế thủ công tỉ mỉ giờ đây trở nên khả thi theo thuật toán. Rào cản đã bị phá vỡ.