Розширене навчання раніше було справді складним—оцінювати дії агента, визначати правильні нагороди та штрафи, приписувати результати конкретним компонентам. Це було хаотично.
Зараз ситуація кардинально змінилася. Великі мовні моделі тепер виконують основну роботу з оцінювання. Завдяки тому, що LLM керують процесами оцінки та зворотного зв’язку, те, що раніше вимагало кропітливого ручного проектування, стало алгоритмічно можливим. Вузьке місце зламалося.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
13 лайків
Нагородити
13
7
Репост
Поділіться
Прокоментувати
0/400
UnruggableChad
· 13год тому
llm дійсно врятував цю проблему RL, раніше той механізм винагороди та покарання був зроблений дуже складним, а тепер просто передаються AI і все.
Переглянути оригіналвідповісти на0
NotAFinancialAdvice
· 20год тому
llm взяв на себе важку та нудну роботу RL, тепер алгоритм може працювати... але здається, знову кидає проблему в іншу чорну скриньку?
Переглянути оригіналвідповісти на0
TokenStorm
· 01-07 23:57
LLM для оцінювання дійсно є ключовим технічним проривом, але чесно кажучи, чи можна цю логіку повторно використовувати для зворотного зв’язку з даними на блокчейні? Тестові дані виглядають гарно, але при реальному запуску все одно відчувається, що щось не так... Але оскільки я все одно не зрозумів, спробую поставити все на кон і подивимося[собака]
Переглянути оригіналвідповісти на0
ParallelChainMaxi
· 01-07 23:56
lm безпосередньо замінює людський дизайн, ця хвиля дійсно крута... але хто гарантує, що логіка оцінки lm сама по собі без помилок?
Переглянути оригіналвідповісти на0
TokenomicsTinfoilHat
· 01-07 23:44
llm одразу йде на все, важка робота в RL вже аутсорснута, тепер справді є щось цінне
Переглянути оригіналвідповісти на0
AlwaysAnon
· 01-07 23:35
Ну, оцінювання за допомогою LLM дійсно змінило правила гри, раніше цей кошмар ручної настройки параметрів нарешті став менш напруженим.
Переглянути оригіналвідповісти на0
gaslight_gasfeez
· 01-07 23:33
llm взяли на себе оцінювання RL? Тепер справді може бути прорвано межу RL
Розширене навчання раніше було справді складним—оцінювати дії агента, визначати правильні нагороди та штрафи, приписувати результати конкретним компонентам. Це було хаотично.
Зараз ситуація кардинально змінилася. Великі мовні моделі тепер виконують основну роботу з оцінювання. Завдяки тому, що LLM керують процесами оцінки та зворотного зв’язку, те, що раніше вимагало кропітливого ручного проектування, стало алгоритмічно можливим. Вузьке місце зламалося.