كان التعلم المعزز في السابق صعبًا حقًا—تقييم أفعال الوكيل، تحديد المكافآت والعقوبات المناسبة، نسب النتائج إلى مكونات معينة. كان الأمر فوضويًا.
لكن الأمر تغير بشكل كبير. الآن تتولى نماذج اللغة الكبيرة المهمة الثقيلة في مهام التقييم. مع إدارة نماذج اللغة الكبيرة لعمليات التقييم وردود الفعل، أصبح ما كان يتطلب تصميمًا يدويًا دقيقًا ممكنًا خوارزميًا. تم كسر عنق الزجاجة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 13
أعجبني
13
7
إعادة النشر
مشاركة
تعليق
0/400
UnruggableChad
· منذ 13 س
llm حقًا أنقذ مشكلة rl، كانت تلك الآلية المكافأة والعقاب مصممة بشكل مميت، الآن ببساطة نتركها لـ ai وتكون الأمور على ما يرام
شاهد النسخة الأصليةرد0
NotAFinancialAdvice
· منذ 20 س
لقد تولى النموذج اللغوي الكبير (LLM) المهام الشاقة والمرهقة في التعلم المعزز (RL)، والآن يمكن تشغيل الخوارزمية... لكن يبدو أنه يترك المشكلة في يد صندوق أسود آخر؟
شاهد النسخة الأصليةرد0
TokenStorm
· 01-07 23:57
إجراء تقييم LLM هو بالفعل تقدم تقني رئيسي، لكن بصراحة، هل يمكن إعادة استخدام هذه المنطق في ردود فعل البيانات على السلسلة؟ تظهر بيانات الاختبار بشكل جميل، لكن عند التشغيل الفعلي دائمًا ما أشعر أن هناك شيئًا مفقودًا... على أي حال، لم أفهم الأمر بعد، سأجرب حظي مرة واحدة ثم أرى النتيجة [كلب الرأس]
شاهد النسخة الأصليةرد0
ParallelChainMaxi
· 01-07 23:56
lm مباشرةً تحل محل التصميم اليدوي، هذه الموجة حقًا رائعة... لكن من يضمن أن منطق تقييم lm نفسه خالٍ من المشاكل؟
شاهد النسخة الأصليةرد0
TokenomicsTinfoilHat
· 01-07 23:44
llm ذهب all-in، وكلفت RL جميع الأعمال الشاقة للمتعهدين، هذا حقاً له بعض الحقيقة
شاهد النسخة الأصليةرد0
AlwaysAnon
· 01-07 23:35
نعم، إن تقييم LLM قد غير قواعد اللعبة بالفعل، وأخيرًا تنفسنا الصعداء بعد كابوس ضبط المعلمات اليدوي السابق.
شاهد النسخة الأصليةرد0
gaslight_gasfeez
· 01-07 23:33
هل استولى النموذج اللغوي الكبير على تقييم التعلم المعزز؟ الآن حقًا ستُكسر حاجز الأداء الأقصى للتعلم المعزز
كان التعلم المعزز في السابق صعبًا حقًا—تقييم أفعال الوكيل، تحديد المكافآت والعقوبات المناسبة، نسب النتائج إلى مكونات معينة. كان الأمر فوضويًا.
لكن الأمر تغير بشكل كبير. الآن تتولى نماذج اللغة الكبيرة المهمة الثقيلة في مهام التقييم. مع إدارة نماذج اللغة الكبيرة لعمليات التقييم وردود الفعل، أصبح ما كان يتطلب تصميمًا يدويًا دقيقًا ممكنًا خوارزميًا. تم كسر عنق الزجاجة.