Quando os modelos geram saídas plausíveis, mas factualmente incorretas, levanta-se uma questão fundamental: as penalizações RLHF podem realmente sobrepor-se às estruturas interpretativas essenciais que estamos a tentar preservar? O verdadeiro enigma aqui pode ser se estamos a perseguir os objetivos de otimização errados de todo. Então, aqui está o ângulo prático—será que as funções de perda que mantêm a integridade do esqueleto são realmente viáveis no paradigma de treino atual, ou estamos a atingir restrições rígidas que ainda não reconhecemos totalmente? Vale a pena refletir sobre a mecânica antes de escalar ainda mais.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 4
  • Repostar
  • Compartilhar
Comentário
0/400
TokenAlchemistvip
· 9h atrás
não, isto é apenas o clássico problema de "construímos o sistema de forma errada desde o início" disfarçado com matemática sofisticada. RLHF está fundamentalmente a lutar contra o que o modelo realmente aprendeu—como tentar extrair alpha de uma superfície de arbitragem quebrada. O verdadeiro vetor de ineficiência aqui é fingir que funções de perda podem corrigir a preguiça arquitetural. estamos a otimizar as transições de estado erradas fr
Ver originalResponder0
VitalikFanboy42vip
· 9h atrás
Para ser honesto, o conjunto RLHF simplesmente não resolve o problema fundamental. Talvez desde o início estivéssemos a otimizar as coisas erradas.
Ver originalResponder0
CompoundPersonalityvip
· 9h atrás
rlhf esta abordagem realmente é como colocar a carroça à frente dos bois; ao tentar corrigir o problema das ilusões, acabaram também prejudicando algumas capacidades do modelo, parece que estão colocando o carro na frente dos bois.
Ver originalResponder0
MerkleTreeHuggervip
· 10h atrás
rlhf, esta coisa realmente parece estar a consertar uma casa cheia de buracos, quanto mais consertamos, mais complicada fica. O problema não está na função de penalização, mas sim no que estamos a fazer de errado.
Ver originalResponder0
  • Marcar

Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)