La recherche montre un écart de performance entre le RL en ligne et hors ligne pour les LLM, en particulier à grande échelle, mais l'incorporation d'échantillons en politique dans des algorithmes hors ligne ( RL itératif/semi-en ligne ) peut combler l'écart, la qualité des données d'entraînement dépassant souvent le choix de la méthode de RL.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
9 J'aime
Récompense
9
6
Reposter
Partager
Commentaire
0/400
GhostAddressMiner
· Il y a 10h
La falsification de la qualité des données a déjà été suivie par des signaux off-chain.
Voir l'originalRépondre0
WagmiOrRekt
· Il y a 10h
La qualité des données d'entraînement est la clé.
Voir l'originalRépondre0
ContractFreelancer
· Il y a 10h
L'entraînement hors ligne est encore un peu décevant.
Voir l'originalRépondre0
MEVSupportGroup
· Il y a 10h
L'entraînement hors ligne ou l'entraînement sur la chaîne, c'est la même chose.
La recherche montre un écart de performance entre le RL en ligne et hors ligne pour les LLM, en particulier à grande échelle, mais l'incorporation d'échantillons en politique dans des algorithmes hors ligne ( RL itératif/semi-en ligne ) peut combler l'écart, la qualité des données d'entraînement dépassant souvent le choix de la méthode de RL.