El aprendizaje por refuerzo solía ser realmente difícil: evaluar las acciones del agente, determinar las recompensas y penalizaciones adecuadas, atribuir los resultados a componentes específicos. Era un proceso complicado.
Eso ha cambiado drásticamente. Los modelos de lenguaje grandes ahora se encargan de las tareas de evaluación. Con los LLMs gestionando las evaluaciones y los bucles de retroalimentación, lo que antes requería un diseño manual minucioso ahora es factible algorítmicamente. El cuello de botella se rompió.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
13 me gusta
Recompensa
13
7
Republicar
Compartir
Comentar
0/400
UnruggableChad
· hace13h
llm realmente salvó este problema de rl, antes ese sistema de recompensas y castigos estaba mal diseñado, ahora simplemente se lo dejamos a la IA y listo
Ver originalesResponder0
NotAFinancialAdvice
· hace20h
llm se ha hecho cargo del trabajo sucio y agotador de rl, ahora el algoritmo puede funcionar... pero parece que otra vez estamos pateando el problema a otra caja negra?
Ver originalesResponder0
TokenStorm
· 01-07 23:57
La evaluación de LLM es realmente un avance técnico clave, pero honestamente, ¿se puede reutilizar esta lógica para la retroalimentación de datos en la cadena? Los datos de backtesting parecen impresionantes, pero en la práctica siempre siento que falta algo... De todos modos, todavía no lo he entendido bien, así que voy a apostar todo de una vez y ya veremos [cabeza de perro]
Ver originalesResponder0
ParallelChainMaxi
· 01-07 23:56
lm reemplaza directamente el diseño manual, esta vez realmente impresionante... pero ¿quién puede garantizar que la lógica de evaluación de lm en sí misma no tenga problemas?
Ver originalesResponder0
TokenomicsTinfoilHat
· 01-07 23:44
llm apuesta total, las tareas difíciles de rl se han subcontratado, esto realmente tiene algo de valor ahora
Ver originalesResponder0
AlwaysAnon
· 01-07 23:35
Sí, la evaluación con LLM realmente ha cambiado las reglas del juego; esa pesadilla de ajustar manualmente los parámetros ha llegado a su fin.
Ver originalesResponder0
gaslight_gasfeez
· 01-07 23:33
¿El LLM ha tomado el control de la evaluación de RL? Ahora el techo de RL realmente va a ser roto.
El aprendizaje por refuerzo solía ser realmente difícil: evaluar las acciones del agente, determinar las recompensas y penalizaciones adecuadas, atribuir los resultados a componentes específicos. Era un proceso complicado.
Eso ha cambiado drásticamente. Los modelos de lenguaje grandes ahora se encargan de las tareas de evaluación. Con los LLMs gestionando las evaluaciones y los bucles de retroalimentación, lo que antes requería un diseño manual minucioso ahora es factible algorítmicamente. El cuello de botella se rompió.