OpenAI giải thích tại sao lại có ảo giác AI? Ba giải pháp để thay đổi thần thoại đánh giá

OpenAI xuất bản một báo cáo ảo ảnh mô hình ngôn ngữ lớn để chỉ ra những sai lệch của cơ chế đánh giá hiện tại và đề xuất giải pháp. (Tóm tắt nội dung: Meta Zuckerberg đang bận!) Đưa ra mức lương hơn 100 triệu đô la Mỹ, và ba thiên tài AI đã bước đi trong hai tháng) (Bổ sung cơ bản: a16z Danh sách 100 AI hàng đầu mới nhất được công bố: Grok nhảy lên top 4 trong một năm và ứng dụng của Trung Quốc bứt phá trên toàn cầu) OpenAI đã công bố một nghiên cứu về hiện tượng "ảo giác" trong các mô hình ngôn ngữ lớn vào đầu tuần này, chỉ ra rằng các phương pháp đào tạo và đánh giá hiện tại khiến các mô hình có xu hướng "đoán một cách tự tin" hơn là thừa nhận rằng họ không biết, đó là nguyên nhân của ảo giác, và đề xuất phải làm gì tiếp theo? Nhóm nghiên cứu OpenAI phát hiện ra rằng khi mô hình hiện tại được đào tạo, một số lượng lớn các câu hỏi đánh giá được trình bày dưới dạng trắc nghiệm, và mô hình có thể nhận điểm miễn là đoán đúng, ngược lại, không có điểm nào để trả lời "Tôi không biết". (Điều này rất dễ hiểu, giống như nếu bạn làm câu hỏi trắc nghiệm ngay cả khi bạn không biết câu trả lời, bạn sẽ điền bừa bãi, ít nhất bạn có cơ hội gõ đúng) Báo cáo lấy bài kiểm tra SimpleQA làm ví dụ để so sánh model cũ o4-mini với phiên bản mới của gpt-5-thinking-mini: cái trước chính xác hơn một chút, nhưng "tỷ lệ ảo giác" là 75%; Mặc dù sau này thường chọn kiêng khem, nhưng tỷ lệ lỗi đã giảm đáng kể. OpenAI chỉ ra thêm rằng hầu hết các nhà phát triển tập trung vào việc cải thiện tỷ lệ chính xác tổng thể, nhưng bỏ qua rằng "những sai lầm tự tin" ảnh hưởng đến người dùng nhiều hơn là thừa nhận sự không chắc chắn. Nhóm nghiên cứu đã tóm tắt gốc rễ của vấn đề trong một câu: "Các quy trình đào tạo và đánh giá tiêu chuẩn thưởng cho các mô hình đoán, thay vì thừa nhận những hạn chế khi không chắc chắn." Nói cách khác, ảo tưởng không phải là phần cứng mô hình hoặc thang tham số không đủ, mà là các quy tắc chấm điểm khiến mô hình áp dụng chiến lược rủi ro cao. Cải thiện độ chính xác vẫn không thể chữa khỏi ảo giác Báo cáo phân tích năm quan niệm sai lầm phổ biến trong ngành, hai quan niệm quan trọng nhất là: thứ nhất, miễn là mô hình được làm lớn hơn hoặc dữ liệu được cung cấp nhiều hơn, ảo giác có thể được loại bỏ; Thứ hai, ảo giác là tác dụng phụ không thể tránh khỏi. Theo OpenAI: Thế giới thực đầy rẫy những lỗ hổng thông tin, và các mô hình ở bất kỳ quy mô nào cũng có thể gặp phải vấn đề "dữ liệu thưa thớt". Chìa khóa thực sự là liệu người mẫu có quyền lựa chọn "kiêng khem" hay không. Báo cáo cũng nhấn mạnh rằng các mô hình nhỏ đôi khi có nhiều khả năng phát hiện ra những lỗ hổng trong kiến thức của chính họ; Miễn là tiêu chí đánh giá được điều chỉnh, phần "câu trả lời khiêm tốn" sẽ được chấm điểm, và "sai lầm tự tin" được trừ nhiều điểm hơn, và mô hình toàn diện cũng có thể làm giảm ảo giác. OpenAI khuyến nghị ngành chuyển từ "tỷ lệ phản hồi chính xác" sang "chỉ số độ tin cậy", chẳng hạn như bao gồm độ tin cậy sai trong các KPI chính, để giữ cho các mô hình thận trọng trong các tình huống không chắc chắn. Kịch bản Fintech: Khoảng cách niềm tin khuếch đại rủi ro Đối với Phố Wall và Thung lũng Silicon, ảo tưởng không phải là vấn đề học thuật trừu tượng, mà là các biến số ảnh hưởng trực tiếp đến các quyết định thị trường. Các quỹ định lượng, ngân hàng đầu tư và nền tảng giao dịch tiền điện tử ngày càng dựa vào LLM để phân tích cú pháp văn bản, giải thích cảm xúc và thậm chí cả báo cáo tự động. Nếu mô hình có ảo tưởng trong các chi tiết của báo cáo tài chính hoặc điều khoản hợp đồng của công ty, lỗi có thể nhanh chóng được khuếch đại bởi thuật toán giao dịch, dẫn đến tổn thất lớn. Do đó, các cơ quan quản lý và bộ phận kiểm soát rủi ro doanh nghiệp đã bắt đầu chú ý đến chỉ số "trung thực mô hình". Một số công ty môi giới đã kết hợp "tỷ lệ không chắc chắn câu trả lời" vào sự chấp nhận nội bộ của họ, cho phép mô hình đặt trước lợi nhuận ở các khu vực chưa xác định "cần thêm thông tin". Sự thay đổi này có nghĩa là ngay cả những giải pháp AI hiệu quả nhất cũng sẽ khó được áp dụng trên thị trường tài chính nếu chúng không cung cấp nhãn hiệu đáng tin cậy. Tiếp theo: Chuyển từ cạnh tranh đạt điểm cao sang kỹ thuật trung thực Cuối cùng, lộ trình đề xuất của OpenAI là viết lại các thông số kỹ thuật đánh giá: Đầu tiên, đặt hình phạt cao cho sự tự tin trong các câu trả lời sai Thứ hai, cho một phần điểm cho sự không chắc chắn biểu hiện vừa phải Thứ ba, mô hình được yêu cầu trả về nguồn tham chiếu có thể xác minh được. Theo nhóm nghiên cứu, điều này có thể buộc mô hình phải học "quản lý rủi ro" trong giai đoạn đào tạo, tương tự như "bảo toàn vốn trước" trong lý thuyết danh mục đầu tư. Đối với các nhà phát triển, điều này có nghĩa là những người tham gia sẽ không còn chỉ cạnh tranh với kích thước của mô hình, mà với ai có thể xác định chính xác thời điểm dừng lại trong một ngân sách tính toán hạn chế; Đối với các nhà đầu tư và cơ quan quản lý, các chỉ báo mới cũng cung cấp một mỏ neo trực quan hơn để kiểm soát rủi ro. Khi "khiêm tốn" trở thành bài học mới, hệ sinh thái AI đang chuyển từ định hướng điểm số sang định hướng tin cậy. Báo cáo liên quan ETH vượt qua 3600 đô la! BlackRock gửi đơn đăng ký cam kết với Ethereum ETF, LDO nhảy 20% BlackRock Bitcoin ETF "IBIT" vượt trội hơn tất cả các quỹ của mình và S&P 500 ETF, lớn hơn mười lần, cũng kiếm được XRP vượt qua USDT để trở thành tiền điện tử lớn thứ ba tính theo vốn hóa thị trường! Nhưng 95% thanh khoản nằm trong vùng lợi nhuận, 3 đô la vào đường sinh tử dài ngắn Solana chỉ có sự thịnh vượng bề mặt? Khi token tăng chỉ bằng cách thao túng hậu trường, chu kỳ on-chain có thể đã kết thúc (OpenAI giải thích tại sao có ảo ảnh AI?). Ba giải pháp để thay đổi huyền thoại đánh giá" Bài viết này được xuất bản lần đầu tiên trong "Xu hướng động - Phương tiện tin tức Blockchain có ảnh hưởng nhất" của BlockTempo.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)