2026-01-07 23:30:06

كان التعلم المعزز في السابق صعبًا حقًا—تقييم أفعال الوكيل، تحديد المكافآت والعقوبات المناسبة، نسب النتائج إلى مكونات معينة. كان الأمر فوضويًا.

لكن الأمر تغير بشكل كبير. الآن تتولى نماذج اللغة الكبيرة المهمة الثقيلة في مهام التقييم. مع إدارة نماذج اللغة الكبيرة لعمليات التقييم وردود الفعل، أصبح ما كان يتطلب تصميمًا يدويًا دقيقًا ممكنًا خوارزميًا. تم كسر عنق الزجاجة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 13

أعجبني
13
7
إعادة النشر
مشاركة

تعليق

0/400

UnruggableChad

· منذ 13 س

llm حقًا أنقذ مشكلة rl، كانت تلك الآلية المكافأة والعقاب مصممة بشكل مميت، الآن ببساطة نتركها لـ ai وتكون الأمور على ما يرام

شاهد النسخة الأصليةرد0

NotAFinancialAdvice

· منذ 20 س

لقد تولى النموذج اللغوي الكبير (LLM) المهام الشاقة والمرهقة في التعلم المعزز (RL)، والآن يمكن تشغيل الخوارزمية... لكن يبدو أنه يترك المشكلة في يد صندوق أسود آخر؟

شاهد النسخة الأصليةرد0

TokenStorm

· 01-07 23:57

إجراء تقييم LLM هو بالفعل تقدم تقني رئيسي، لكن بصراحة، هل يمكن إعادة استخدام هذه المنطق في ردود فعل البيانات على السلسلة؟ تظهر بيانات الاختبار بشكل جميل، لكن عند التشغيل الفعلي دائمًا ما أشعر أن هناك شيئًا مفقودًا... على أي حال، لم أفهم الأمر بعد، سأجرب حظي مرة واحدة ثم أرى النتيجة [كلب الرأس]

شاهد النسخة الأصليةرد0

ParallelChainMaxi