2026-01-07 23:30:06

El aprendizaje por refuerzo solía ser realmente difícil: evaluar las acciones del agente, determinar las recompensas y penalizaciones adecuadas, atribuir los resultados a componentes específicos. Era un proceso complicado.

Eso ha cambiado drásticamente. Los modelos de lenguaje grandes ahora se encargan de las tareas de evaluación. Con los LLMs gestionando las evaluaciones y los bucles de retroalimentación, lo que antes requería un diseño manual minucioso ahora es factible algorítmicamente. El cuello de botella se rompió.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

13 me gusta

Recompensa
13
7
Republicar
Compartir

Comentar

0/400

UnruggableChad

· hace13h

llm realmente salvó este problema de rl, antes ese sistema de recompensas y castigos estaba mal diseñado, ahora simplemente se lo dejamos a la IA y listo

Ver originalesResponder0

NotAFinancialAdvice

· hace20h

llm se ha hecho cargo del trabajo sucio y agotador de rl, ahora el algoritmo puede funcionar... pero parece que otra vez estamos pateando el problema a otra caja negra?

Ver originalesResponder0

TokenStorm

· 01-07 23:57

La evaluación de LLM es realmente un avance técnico clave, pero honestamente, ¿se puede reutilizar esta lógica para la retroalimentación de datos en la cadena? Los datos de backtesting parecen impresionantes, pero en la práctica siempre siento que falta algo... De todos modos, todavía no lo he entendido bien, así que voy a apostar todo de una vez y ya veremos [cabeza de perro]

Ver originalesResponder0

ParallelChainMaxi

· 01-07 23:56

lm reemplaza directamente el diseño manual, esta vez realmente impresionante... pero ¿quién puede garantizar que la lógica de evaluación de lm en sí misma no tenga problemas?

Ver originalesResponder0

TokenomicsTinfoilHat

· 01-07 23:44

llm apuesta total, las tareas difíciles de rl se han subcontratado, esto realmente tiene algo de valor ahora

Ver originalesResponder0

AlwaysAnon

· 01-07 23:35

Sí, la evaluación con LLM realmente ha cambiado las reglas del juego; esa pesadilla de ajustar manualmente los parámetros ha llegado a su fin.

Ver originalesResponder0

gaslight_gasfeez