تنشر OpenAI تقريرا كبيرا عن وهم نموذج اللغة للإشارة إلى تحيزات آلية التقييم الحالية واقتراح الحلول. (ملخص: ميتا زوكربيرج مشغولة!) امنح راتبا يزيد عن 100 مليون دولار أمريكي ، وسار ثلاثة عباقرة في الذكاء الاصطناعي في شهرين) (ملحق الخلفية: a16z تم إصدار أحدث قائمة لأفضل 100 الذكاء الاصطناعي: يقفز Grok إلى أفضل 4 في عام واحد ، وتطبيق الصين يخترق عالميا) أصدرت OpenAI دراسة حول ظاهرة "الهلوسة" في نماذج اللغات الكبيرة في وقت سابق من هذا الأسبوع ، مشيرة إلى أن طرق التدريب والتقييم الحالية تجعل النماذج تميل إلى "التخمين بثقة" بدلا من الاعتراف بأنهم لا يعرفون ، وهو سبب الهلوسة ، ويقترحون ما يجب فعله بعد ذلك؟ وجد فريق أبحاث OpenAI أنه عندما يتم تدريب النموذج الحالي ، يتم تقديم عدد كبير من أسئلة التقييم في شكل خيارات متعددة ، ويمكن للنموذج الحصول على نقاط طالما أنه يخمن بشكل صحيح ، بل على العكس من ذلك ، لا توجد نقاط للإجابة على "لا أعرف". (هذا أمر مفهوم للغاية ، تماما كما لو كنت تأخذ أسئلة الاختيار من متعدد حتى لو كنت لا تعرف الإجابة ، فسوف تملأ بشكل عشوائي ، على الأقل لديك فرصة للكتابة بشكل صحيح) يأخذ التقرير اختبار SimpleQA كمثال لمقارنة النموذج القديم o4-mini مع الإصدار الجديد من gpt-5-thinking-mini: الأول أكثر دقة قليلا ، لكن "معدل الهلوسة" هو 75٪. على الرغم من أن هذا الأخير غالبا ما يختار الامتناع عن التصويت ، فقد انخفض معدل الخطأ بشكل كبير. أشار OpenAI أيضا إلى أن معظم المطورين يركزون على تحسين معدل الدقة الإجمالي ، لكنهم يتجاهلون أن "الأخطاء الواثقة" تؤثر على المستخدمين أكثر بكثير من الاعتراف بعدم اليقين. لخص فريق البحث جذر المشكلة في جملة واحدة: "تكافئ إجراءات التدريب والتقييم القياسية نماذج التخمين ، بدلا من الاعتراف بالقيود عندما تكون غير مؤكدة". بمعنى آخر ، لا يكمن الوهم في أن جهاز النموذج أو مقياس المعلمة غير كاف ، ولكن قواعد التسجيل تحفز النموذج على تبني استراتيجية عالية المخاطر. لا تزال الدقة المحسنة غير قادرة على علاج الهلوسة يفصل التقرير خمسة مفاهيم خاطئة شائعة في الصناعة ، أهمها: أولا ، طالما أن النموذج أكبر أو يتم تغذية البيانات بشكل أكبر ، يمكن القضاء على الوهم. ثانيا ، الهلوسة هي آثار جانبية لا مفر منها. وفقا ل OpenAI: العالم الحقيقي مليء بفجوات المعلومات ، وقد تواجه النماذج من أي حجم مشكلة "تناثر البيانات". المفتاح الحقيقي هو ما إذا كان للنموذج الحق في اختيار "الامتناع عن التصويت". يسلط التقرير الضوء أيضا على أن النماذج الصغيرة من المرجح في بعض الأحيان اكتشاف الثغرات في معارفها. طالما تم تعديل معايير التقييم ، يتم تسجيل جزء "الإجابة المتواضعة" ، ويتم خصم المزيد من النقاط من "الخطأ الواثق" ، ويمكن للنموذج الكامل أيضا تقليل الهلوسة. توصي OpenAI بأن تنتقل الصناعة من "معدل الاستجابة الصحيح" إلى "مقاييس الموثوقية" ، مثل تضمين الثقة الزائفة في مؤشرات الأداء الرئيسية الرئيسية ، من أجل الحفاظ على النماذج متحفظة في سيناريوهات غير مؤكدة. سيناريو التكنولوجيا المالية: فجوة الثقة تضخم المخاطر بالنسبة لوول ستريت ووادي السيليكون ، والأوهام ليست قضايا أكاديمية مجردة ، ولكنها متغيرات تؤثر بشكل مباشر على قرارات السوق. تعتمد الصناديق الكمية والبنوك الاستثمارية ومنصات تداول العملات المشفرة بشكل متزايد على LLM لتحليل النص وتفسير المشاعر وحتى إعداد التقارير الآلية. إذا كان النموذج يحتوي على أوهام في تفاصيل التقارير المالية للشركة أو شروط العقد ، فقد يتم تضخيم الخطأ بسرعة بواسطة خوارزمية المعاملات ، مما يؤدي إلى خسائر فادحة. لذلك ، بدأ المنظمون وإدارات مراقبة مخاطر المؤسسات في الاهتمام بمؤشر "الصدق النموذجي". قام عدد من شركات السمسرة بدمج "معدل عدم اليقين في الإجابة" في قبولها الداخلي ، مما يسمح للنموذج بتحديد عوائد مسبقا في مناطق غير معروفة "هناك حاجة إلى مزيد من المعلومات". يعني هذا التغيير أنه حتى حلول الذكاء الاصطناعي الأكثر فعالية سيكون من الصعب الحصول عليها في الأسواق المالية إذا لم توفر تسمية مصداقية. التالى: التحول من المنافسة عالية الدرجات إلى الهندسة الصادقة أخيرا ، المسار المقترح من OpenAI هو إعادة كتابة مواصفات التقييم: أولا ، ضع عقوبة عالية للثقة بالنفس في الإجابات الخاطئة ثانيا ، أعط نقاطا جزئية لعدم اليقين المعتدل في التعبير ثالثا ، النموذج مطلوب لإرجاع مصدر مرجعي يمكن التحقق منه. وفقا لفريق البحث ، يمكن أن يجبر هذا النموذج على تعلم "إدارة المخاطر" خلال مرحلة التدريب ، على غرار "الحفاظ على رأس المال أولا" في نظرية المحفظة. بالنسبة للمطورين ، هذا يعني أن المشاركين لن يتنافسوا ببساطة مع حجم النموذج ، ولكن مع من يمكنه تحديد وقت التوقف بدقة ضمن ميزانية حوسبة محدودة. بالنسبة للمستثمرين والمنظمين ، توفر المؤشرات الجديدة أيضا مرساة أكثر سهولة للتحكم في المخاطر. نظرا لأن "التواضع" أصبح التعلم الجديد ، فإن النظام البيئي لنظام الذكاء الاصطناعي يتحول من النحو الموجه نحو الدرجات إلى الثقة. تقارير ذات صلة ETH تخترق 3600 دولار! تقدم BlackRock طلب تعهد مع Ethereum ETF ، وتقفز LDO بنسبة 20٪ BlackRock Bitcoin ETF "IBIT" تتفوق على جميع أموالها ، كما أن S&P 500 ETF ، وهو أكبر بعشر مرات ، يكسب XRP متجاوزا USDT ليصبح ثالث أكبر عملة مشفرة من حيث القيمة السوقية! لكن 95٪ من السيولة في منطقة الربح ، و 3 دولارات في خط الحياة والموت الطويل والقصير سولانا لديه ازدهار سطحي فقط؟ عندما يرتفع الرمز المميز فقط عن طريق التلاعب خلف الكواليس ، ربما تكون الدورة على السلسلة قد انتهت (يشرح OpenAI سبب وجود وهم الذكاء الاصطناعي؟). ثلاثة حلول لتغيير أسطورة التقييم" تم نشر هذه المقالة لأول مرة في BlockTempo "الاتجاه الديناميكي - وسائل الإعلام الإخبارية الأكثر نفوذا في Blockchain".
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
OpenAI يفسر لماذا تحدث الهلوسة في الذكاء الاصطناعي؟ ثلاث حلول لتغيير أسطورة التقييم
تنشر OpenAI تقريرا كبيرا عن وهم نموذج اللغة للإشارة إلى تحيزات آلية التقييم الحالية واقتراح الحلول. (ملخص: ميتا زوكربيرج مشغولة!) امنح راتبا يزيد عن 100 مليون دولار أمريكي ، وسار ثلاثة عباقرة في الذكاء الاصطناعي في شهرين) (ملحق الخلفية: a16z تم إصدار أحدث قائمة لأفضل 100 الذكاء الاصطناعي: يقفز Grok إلى أفضل 4 في عام واحد ، وتطبيق الصين يخترق عالميا) أصدرت OpenAI دراسة حول ظاهرة "الهلوسة" في نماذج اللغات الكبيرة في وقت سابق من هذا الأسبوع ، مشيرة إلى أن طرق التدريب والتقييم الحالية تجعل النماذج تميل إلى "التخمين بثقة" بدلا من الاعتراف بأنهم لا يعرفون ، وهو سبب الهلوسة ، ويقترحون ما يجب فعله بعد ذلك؟ وجد فريق أبحاث OpenAI أنه عندما يتم تدريب النموذج الحالي ، يتم تقديم عدد كبير من أسئلة التقييم في شكل خيارات متعددة ، ويمكن للنموذج الحصول على نقاط طالما أنه يخمن بشكل صحيح ، بل على العكس من ذلك ، لا توجد نقاط للإجابة على "لا أعرف". (هذا أمر مفهوم للغاية ، تماما كما لو كنت تأخذ أسئلة الاختيار من متعدد حتى لو كنت لا تعرف الإجابة ، فسوف تملأ بشكل عشوائي ، على الأقل لديك فرصة للكتابة بشكل صحيح) يأخذ التقرير اختبار SimpleQA كمثال لمقارنة النموذج القديم o4-mini مع الإصدار الجديد من gpt-5-thinking-mini: الأول أكثر دقة قليلا ، لكن "معدل الهلوسة" هو 75٪. على الرغم من أن هذا الأخير غالبا ما يختار الامتناع عن التصويت ، فقد انخفض معدل الخطأ بشكل كبير. أشار OpenAI أيضا إلى أن معظم المطورين يركزون على تحسين معدل الدقة الإجمالي ، لكنهم يتجاهلون أن "الأخطاء الواثقة" تؤثر على المستخدمين أكثر بكثير من الاعتراف بعدم اليقين. لخص فريق البحث جذر المشكلة في جملة واحدة: "تكافئ إجراءات التدريب والتقييم القياسية نماذج التخمين ، بدلا من الاعتراف بالقيود عندما تكون غير مؤكدة". بمعنى آخر ، لا يكمن الوهم في أن جهاز النموذج أو مقياس المعلمة غير كاف ، ولكن قواعد التسجيل تحفز النموذج على تبني استراتيجية عالية المخاطر. لا تزال الدقة المحسنة غير قادرة على علاج الهلوسة يفصل التقرير خمسة مفاهيم خاطئة شائعة في الصناعة ، أهمها: أولا ، طالما أن النموذج أكبر أو يتم تغذية البيانات بشكل أكبر ، يمكن القضاء على الوهم. ثانيا ، الهلوسة هي آثار جانبية لا مفر منها. وفقا ل OpenAI: العالم الحقيقي مليء بفجوات المعلومات ، وقد تواجه النماذج من أي حجم مشكلة "تناثر البيانات". المفتاح الحقيقي هو ما إذا كان للنموذج الحق في اختيار "الامتناع عن التصويت". يسلط التقرير الضوء أيضا على أن النماذج الصغيرة من المرجح في بعض الأحيان اكتشاف الثغرات في معارفها. طالما تم تعديل معايير التقييم ، يتم تسجيل جزء "الإجابة المتواضعة" ، ويتم خصم المزيد من النقاط من "الخطأ الواثق" ، ويمكن للنموذج الكامل أيضا تقليل الهلوسة. توصي OpenAI بأن تنتقل الصناعة من "معدل الاستجابة الصحيح" إلى "مقاييس الموثوقية" ، مثل تضمين الثقة الزائفة في مؤشرات الأداء الرئيسية الرئيسية ، من أجل الحفاظ على النماذج متحفظة في سيناريوهات غير مؤكدة. سيناريو التكنولوجيا المالية: فجوة الثقة تضخم المخاطر بالنسبة لوول ستريت ووادي السيليكون ، والأوهام ليست قضايا أكاديمية مجردة ، ولكنها متغيرات تؤثر بشكل مباشر على قرارات السوق. تعتمد الصناديق الكمية والبنوك الاستثمارية ومنصات تداول العملات المشفرة بشكل متزايد على LLM لتحليل النص وتفسير المشاعر وحتى إعداد التقارير الآلية. إذا كان النموذج يحتوي على أوهام في تفاصيل التقارير المالية للشركة أو شروط العقد ، فقد يتم تضخيم الخطأ بسرعة بواسطة خوارزمية المعاملات ، مما يؤدي إلى خسائر فادحة. لذلك ، بدأ المنظمون وإدارات مراقبة مخاطر المؤسسات في الاهتمام بمؤشر "الصدق النموذجي". قام عدد من شركات السمسرة بدمج "معدل عدم اليقين في الإجابة" في قبولها الداخلي ، مما يسمح للنموذج بتحديد عوائد مسبقا في مناطق غير معروفة "هناك حاجة إلى مزيد من المعلومات". يعني هذا التغيير أنه حتى حلول الذكاء الاصطناعي الأكثر فعالية سيكون من الصعب الحصول عليها في الأسواق المالية إذا لم توفر تسمية مصداقية. التالى: التحول من المنافسة عالية الدرجات إلى الهندسة الصادقة أخيرا ، المسار المقترح من OpenAI هو إعادة كتابة مواصفات التقييم: أولا ، ضع عقوبة عالية للثقة بالنفس في الإجابات الخاطئة ثانيا ، أعط نقاطا جزئية لعدم اليقين المعتدل في التعبير ثالثا ، النموذج مطلوب لإرجاع مصدر مرجعي يمكن التحقق منه. وفقا لفريق البحث ، يمكن أن يجبر هذا النموذج على تعلم "إدارة المخاطر" خلال مرحلة التدريب ، على غرار "الحفاظ على رأس المال أولا" في نظرية المحفظة. بالنسبة للمطورين ، هذا يعني أن المشاركين لن يتنافسوا ببساطة مع حجم النموذج ، ولكن مع من يمكنه تحديد وقت التوقف بدقة ضمن ميزانية حوسبة محدودة. بالنسبة للمستثمرين والمنظمين ، توفر المؤشرات الجديدة أيضا مرساة أكثر سهولة للتحكم في المخاطر. نظرا لأن "التواضع" أصبح التعلم الجديد ، فإن النظام البيئي لنظام الذكاء الاصطناعي يتحول من النحو الموجه نحو الدرجات إلى الثقة. تقارير ذات صلة ETH تخترق 3600 دولار! تقدم BlackRock طلب تعهد مع Ethereum ETF ، وتقفز LDO بنسبة 20٪ BlackRock Bitcoin ETF "IBIT" تتفوق على جميع أموالها ، كما أن S&P 500 ETF ، وهو أكبر بعشر مرات ، يكسب XRP متجاوزا USDT ليصبح ثالث أكبر عملة مشفرة من حيث القيمة السوقية! لكن 95٪ من السيولة في منطقة الربح ، و 3 دولارات في خط الحياة والموت الطويل والقصير سولانا لديه ازدهار سطحي فقط؟ عندما يرتفع الرمز المميز فقط عن طريق التلاعب خلف الكواليس ، ربما تكون الدورة على السلسلة قد انتهت (يشرح OpenAI سبب وجود وهم الذكاء الاصطناعي؟). ثلاثة حلول لتغيير أسطورة التقييم" تم نشر هذه المقالة لأول مرة في BlockTempo "الاتجاه الديناميكي - وسائل الإعلام الإخبارية الأكثر نفوذا في Blockchain".