A Perspectiva de Uma Pista Promissora: Mercado de Poder de Computação Descentralizado (Parte 1)

Avançado

1/4/2024, 6:39:54 PM

Este artigo explora o potencial e os desafios do mercado de poder de computação descentralizado, destacando as dificuldades que enfrenta e apresentando dois projetos típicos - Gensyn e Together.AI.

Prefácio

Desde o nascimento do GPT-3, a IA generativa inaugurou um ponto de viragem explosivo no campo da inteligência artificial com seu desempenho incrível e amplos cenários de aplicação. Isso levou as gigantes de tecnologia a se lançarem na pista de IA. No entanto, essa onda trouxe consigo inúmeros problemas. As operações de treino e inferência de grandes modelos de linguagem (LLMs) requerem muita capacidade de computação. Com a atualização iterativa desses modelos, a demanda e o custo de capacidade de computação estão aumentando exponencialmente. Tomando GPT-2 e GPT-3 como exemplos, a diferença no número de parâmetros entre GPT-2 e GPT-3 é de 1166 vezes (GPT-2 tem 150 milhões de parâmetros enquanto o GPT-3 tem 175 bilhões). O custo de uma única sessão de treino do GPT-3 foi calculado com base nos modelos de preços de nuvens públicas de GPU na época, que chega a até $12 milhões. Isso foi 200 vezes o custo do GPT-2. No uso prático, cada consulta do usuário requer computação de inferência. Com base nos 13 milhões de usuários independentes no início deste ano, a demanda correspondente por chips seria de mais de 30.000 GPUs A100. O custo de investimento inicial seria então de $800 milhões, com um custo estimado diário de inferência do modelo de $700.000.

A falta de poder de computação e os custos elevados tornaram-se desafios sérios enfrentados por toda a indústria de IA. Notavelmente, uma questão semelhante parece estar a confrontar a indústria da blockchain. Por um lado, o quarto halving do Bitcoin e a aprovação dos ETFs são iminentes. À medida que os preços futuros aumentam, a procura dos mineiros por hardware de computação aumentará inevitavelmente significativamente. Por outro lado, a tecnologia Zero-Knowledge Proof (ZKP) está em alta, e Vitalik enfatizou várias vezes que o impacto do ZK no campo da blockchain nos próximos dez anos será tão importante como a blockchain em si. Enquanto esta tecnologia promete o futuro da indústria da blockchain, o ZK também consome muito poder de computação e tempo na geração de provas devido ao seu processo de cálculo complexo, tal como a IA.

Num futuro previsível, a escassez de poder de computação tornar-se-á inevitável. Assim, o mercado descentralizado de poder de computação será um empreendimento lucrativo?

Definição do Mercado de Poder de Computação Descentralizado

O mercado de poder de computação descentralizado é na realidade equivalente à pista de computação em nuvem descentralizada, mas pessoalmente acho que este termo é mais adequado para descrever os novos projetos que serão discutidos posteriormente. O mercado de poder de computação descentralizado deve ser considerado um subconjunto do DePIN (Redes de Infraestrutura Física Descentralizadas), cujo objetivo é criar um mercado de poder de computação aberto, onde qualquer pessoa com recursos de poder de computação ociosos pode oferecer seus recursos incentivados por tokens, servindo principalmente clientes B2B e comunidades de desenvolvedores. Em termos de projetos mais familiares, redes como a Render Network, que se baseia em soluções descentralizadas de renderização de GPU, e a Akash Network, um mercado distribuído e peer-to-peer para computação em nuvem, pertencem a esta pista.

O texto a seguir começará com os conceitos básicos e depois discutirá três mercados emergentes sob esta pista: o mercado de poder de computação AGI, o mercado de poder de computação Bitcoin e o mercado de poder de computação AGI no mercado de aceleração de hardware ZK. Os dois últimos serão discutidos em “A Perspectiva de Uma Pista Promissora: Mercado de Poder de Computação Descentralizado (Parte 2)”.

Visão geral do Poder de Computação

O conceito de poder de computação remonta à invenção do computador. O computador original usava dispositivos mecânicos para completar tarefas de computação, e o poder de computação referia-se à capacidade computacional do dispositivo mecânico. Com o desenvolvimento da tecnologia de computadores, o conceito de poder de computação também evoluiu. O poder de computação de hoje geralmente se refere ao trabalho colaborativo do hardware do computador (CPUs, GPUs, FPGAs, etc.) e do software (sistemas operacionais, compiladores, aplicativos, etc.).

Definição

O poder de computação refere-se à quantidade de dados que um computador ou outro dispositivo de computação pode processar dentro de um determinado período de tempo ou ao número de tarefas de computação que pode completar. O poder de computação é geralmente usado para descrever o desempenho de um computador ou outros dispositivos de computação. É uma métrica importante das capacidades de processamento de um dispositivo de computação.

Métricas

O poder de computação pode ser medido de várias maneiras, como velocidade de computação, consumo de energia, precisão de computação e paralelismo. No campo da computação, métricas de poder de computação comumente usadas incluem FLOPS (operações de ponto flutuante por segundo), IPS (instruções por segundo), TPS (transações por segundo), etc.

FLOPS mede a capacidade do computador de processar operações de ponto flutuante (operações matemáticas com pontos decimais que requerem consideração de questões de precisão e erros de arredondamento). Mede quantas operações de ponto flutuante um computador pode completar por segundo. FLOPS é uma medida das capacidades de computação de alto desempenho de um computador e é comumente usado para medir as capacidades de computação de supercomputadores, servidores de computação de alto desempenho, unidades de processamento gráfico (GPUs), etc. Por exemplo, se um sistema de computador tem 1 TFLOPS (um trilhão de operações de ponto flutuante por segundo), significa que pode completar 1 trilhão de operações de ponto flutuante por segundo.

IPS mede a velocidade com que um computador processa instruções. É uma medida de quantas instruções um computador pode executar por segundo e é uma medida do desempenho de uma única instrução de um computador, tipicamente usada para medir o desempenho de uma unidade central de processamento (CPU). Por exemplo, uma CPU com um IPS de 3 GHz (3 bilhões de instruções por segundo) significa que pode executar 3 bilhões de instruções por segundo.

TPS mede a capacidade de um computador processar transações. Avalia quantas transações um computador pode completar por segundo, normalmente usado para medir o desempenho do servidor de banco de dados. Por exemplo, um servidor de banco de dados tem um TPS de 1.000, o que significa que pode lidar com 1.000 transações de banco de dados por segundo.

Além disso, existem algumas métricas de poder de computação para cenários de aplicação específicos, como velocidade de inferência, velocidade de processamento de imagem e precisão de reconhecimento de voz.

Tipo de Poder de computação

O poder de computação da GPU refere-se à capacidade computacional das unidades de processamento gráfico (GPUs). Ao contrário das unidades de processamento central (CPUs), as GPUs são hardware especificamente projetado para processar dados gráficos, como imagens e vídeos. Elas têm um grande número de unidades de processamento e capacidades eficientes de computação em paralelo, e podem realizar um grande número de operações de ponto flutuante simultaneamente. Como as GPUs foram originalmente projetadas para o processamento gráfico de jogos, elas geralmente têm velocidades de clock mais altas e maior largura de banda de memória do que as CPUs para suportar cálculos gráficos complexos.

Diferença entre CPUs e GPUs

Arquitetura: CPUs e GPUs têm arquiteturas de computação diferentes. As CPUs normalmente têm um ou mais núcleos, cada um dos quais é um processador de propósito geral capaz de realizar uma variedade de operações diferentes. As GPUs, por outro lado, têm um grande número de Processadores de Fluxo e Shaders, que são usados especialmente para executar cálculos relacionados ao processamento de imagens;

Computação Paralela: As GPUs geralmente têm maior capacidade de computação paralela. Uma CPU tem um número limitado de núcleos, e cada núcleo só pode executar uma instrução, mas uma GPU pode ter milhares de processadores de fluxo que podem executar múltiplas instruções e operações simultaneamente. Portanto, as GPUs geralmente são mais adequadas do que as CPUs para realizar tarefas de computação paralela, como aprendizado de máquina e aprendizado profundo, que exigem extensos cálculos paralelos;

Design de Programação: A programação para GPUs é relativamente mais complexa em comparação com CPUs. Requer o uso de linguagens de programação específicas (como CUDA ou OpenCL) e técnicas de programação específicas para aproveitar as capacidades de computação paralela das GPUs. Por outro lado, a programação de CPU é mais simples e pode usar linguagens de programação e ferramentas de propósito geral.

A Importância do Poder de computação

Na era da Revolução Industrial, o petróleo era o sangue vital do mundo e penetrava em todas as indústrias. Na próxima era da IA, o poder de computação será o “petróleo digital” do mundo. Desde a busca frenética das grandes empresas por chips de IA e a ação da Nvidia superando um trilhão de dólares, até o bloqueio recente dos Estados Unidos de chips de alta tecnologia da China, incluindo capacidade de poder de computação, tamanho do chip e até planos de proibir as nuvens de GPU, a importância do poder de computação é evidente. O poder de computação será uma mercadoria da próxima era.

Visão geral da Inteligência Artificial Geral

A Inteligência Artificial (IA) é uma nova ciência técnica que estuda, desenvolve e aplica teorias, métodos e tecnologias para simular, estender e expandir a inteligência humana. Originou-se nas décadas de 1950 e 1960 e, após mais de meio século de evolução, experimentou desenvolvimentos entrelaçados através de três ondas: simbolismo, conexionismo e abordagens baseadas em agentes. Hoje, como uma tecnologia emergente de uso geral, a IA está impulsionando mudanças profundas na vida social e em todas as indústrias. Uma definição mais específica da IA generativa atualmente é: Inteligência Artificial Geral (IAG), um sistema de inteligência artificial com uma ampla gama de capacidades de entendimento que pode realizar tarefas e operar em vários domínios com inteligência semelhante ou superior aos níveis humanos. A IAG basicamente requer três elementos, aprendizado profundo (AP), big data e poder de computação substancial.

Aprendizagem Profunda

Deep learning é um subcampo da aprendizagem automática (ML), e os algoritmos de deep learning são redes neurais modeladas segundo o cérebro humano. Por exemplo, o cérebro humano contém milhões de neurônios interconectados que trabalham juntos para aprender e processar informações. Da mesma forma, as redes neurais de deep learning (ou redes neurais artificiais) são compostas por múltiplas camadas de neurônios artificiais que trabalham juntos dentro de um computador. Esses neurônios artificiais, conhecidos como nós, usam cálculos matemáticos para processar dados. As redes neurais artificiais são algoritmos de deep learning que usam esses nós para resolver problemas complexos.

As redes neurais podem ser divididas na camada de entrada, camadas ocultas e na camada de saída. As conexões entre essas diferentes camadas são compostas por parâmetros.

Camada de Entrada: A camada de entrada é a primeira camada da rede neural e é responsável por receber dados de entrada externos. Cada neurônio na camada de entrada corresponde a uma característica dos dados de entrada. Por exemplo, no processamento de imagem, cada neurônio pode corresponder ao valor de um pixel na imagem.

Camadas Ocultas: A camada de entrada processa dados e passa-os para camadas mais profundas dentro da rede. Estas camadas ocultas processam informações em diferentes níveis, ajustando o seu comportamento ao receber novas informações. As redes de aprendizagem profunda podem ter centenas de camadas ocultas, o que lhes permite analisar problemas a partir de perspetivas diferentes. Por exemplo, se lhe for dada uma imagem de um animal desconhecido que precisa de ser classificado, pode compará-lo com animais que já conhece. Por exemplo, pode dizer que tipo de animal é pela forma das suas orelhas, pelo número de patas e pelo tamanho das suas pupilas. As camadas ocultas em redes neurais profundas funcionam de forma semelhante. Se um algoritmo de aprendizagem profunda está a tentar classificar uma imagem de um animal, cada camada oculta irá processar diferentes características dos animais e tentar classificá-los com precisão.

Camada de Saída: A camada de saída é a última camada da rede neural e é responsável por gerar a saída da rede. Cada neurónio na camada de saída representa uma possível categoria ou valor de saída. Por exemplo, num problema de classificação, cada neurónio na camada de saída pode corresponder a uma categoria, enquanto num problema de regressão, a camada de saída pode ter apenas um neurónio cujo valor representa o resultado da previsão;

Parâmetros: Nas redes neurais, as conexões entre diferentes camadas são representadas por pesos e viés, que são otimizados durante o processo de treino para permitir que a rede identifique com precisão padrões nos dados e faça previsões. O aumento de parâmetros pode melhorar a capacidade do modelo da rede neural, ou seja, a capacidade do modelo de aprender e representar padrões complexos nos dados. Mas, correspondente, o aumento de parâmetros aumentará a demanda por poder de computação.

Big Data

Para serem treinadas de forma eficaz, as redes neurais geralmente necessitam de dados grandes, diversos e de alta qualidade de várias fontes. Estes dados são a base para o treino e validação do modelo de aprendizagem automática. Ao analisar big data, os modelos de aprendizagem automática podem aprender padrões e relações dentro dos dados, o que lhes permite fazer previsões ou classificações.

Poder de computação Massivo

A demanda por um poder de computação substancial surge de vários aspectos das redes neurais: estruturas complexas de várias camadas, um grande número de parâmetros, a necessidade de processar vastas quantidades de dados e métodos de treino iterativos (durante a fase de treino, o modelo deve iterar repetidamente, realizando cálculos de propagação para a frente e para trás para cada camada, incluindo cálculos para funções de ativação, funções de perda, gradientes e atualizações de pesos), a necessidade de cálculos de alta precisão, capacidades de computação paralela, técnicas de otimização e regularização, e processos de avaliação e verificação do modelo. À medida que o deep learning avança, a exigência por um poder de computação maciço para a AGI está a aumentar cerca de 10 vezes a cada ano. O modelo mais recente até agora, o GPT-4, contém 1,8 triliões de parâmetros, com um custo de treino único de mais de $60 milhões e requisitos de poder de computação de 2.15e25 FLOPS (21,5 quintiliões de operações de ponto flutuante). A demanda por poder de computação para o treino de modelos futuros ainda está a expandir-se, e novos modelos estão a ser desenvolvidos a um ritmo crescente.

Economia de Poder de Computação de IA

Tamanho futuro do mercado

De acordo com as estimativas mais autorizadas, o “Relatório de Avaliação do Índice de Poder de Computação Global 2022-2023” compilado em conjunto pela International Data Corporation (IDC), Inspur Information e o Instituto Global de Pesquisa da Indústria da Universidade Tsinghua, prevê-se que o tamanho do mercado global de computação de IA aumente de $19.5 bilhões em 2022 para $34.66 bilhões em 2026. O mercado de computação de IA generativa deve crescer de $820 milhões em 2022 para $10.99 bilhões em 2026. A participação da computação de IA generativa no mercado global de computação de IA deverá subir de 4.2% para 31.7%.

Monopólio na Economia do Poder de Computação

A produção de GPUs de IA tem sido exclusivamente monopolizada pela NVIDIA e elas são extremamente caras (o último modelo H100 foi vendido por $40,000 por unidade). Assim que as GPUs são lançadas, são rapidamente adquiridas pelas gigantes de tecnologia do Vale do Silício. Alguns desses dispositivos são utilizados para treinar seus próprios novos modelos. O restante é alugado para desenvolvedores de IA através de plataformas de nuvem, como as pertencentes ao Google, Amazon e Microsoft, que controlam uma vasta quantidade de recursos computacionais como servidores, GPUs e TPUs. O poder de computação tornou-se um novo recurso monopolizado por essas gigantes. Muitos desenvolvedores de IA nem sequer podem comprar uma GPU dedicada sem um ágio. Para utilizar o equipamento mais recente, os desenvolvedores têm que alugar servidores de nuvem da AWS ou Microsoft. Relatórios financeiros indicam que esse negócio tem lucros extremamente altos. Os serviços de nuvem da AWS ostentam uma margem de lucro bruto de 61%, enquanto a margem de lucro bruto da Microsoft é ainda maior, com 72%.

Portanto, teremos de aceitar esta autoridade centralizada e controlo, e pagar uma margem de lucro de 72% pelos recursos de computação? Serão os gigantes que monopolizaram a Web2 também dominarão a próxima era?

Desafios do Poder de Computação AGI Descentralizado

Quando se trata de antitruste, a descentralização é geralmente vista como a solução ideal. Ao olhar para projetos existentes, podemos alcançar o enorme poder de computação necessário para a IA através de projetos de armazenamento DePIN combinados com protocolos como RDNR para a utilização de GPU inativas? A resposta é não. O caminho para matar o dragão não é tão simples. Os projetos iniciais não foram especificamente projetados para o poder de computação AGI e não são viáveis. Trazer poder de computação para a blockchain enfrenta pelo menos os seguintes cinco desafios:

Verificação de trabalho: Para construir uma rede de computação verdadeiramente sem confiança que forneça incentivos econômicos aos participantes, a rede deve ter uma maneira de verificar se os cálculos de aprendizado profundo foram realmente realizados. A questão central aqui é a dependência de estado dos modelos de aprendizado profundo; nesses modelos, a entrada para cada camada depende da saída da camada anterior. Isso significa que você não pode simplesmente validar uma única camada em um modelo sem levar em conta todas as camadas anteriores a ela. O cálculo para cada camada é baseado nos resultados de todas as camadas anteriores. Portanto, para verificar o trabalho concluído em um ponto específico (como uma camada específica), todo o trabalho desde o início do modelo até esse ponto específico deve ser executado;
Mercado: Como um mercado emergente, o mercado de poder de computação de IA está sujeito a dilemas de oferta e demanda, como o problema de inicialização a frio. A liquidez de oferta e demanda precisa ser aproximadamente correspondida desde o início para que o mercado possa crescer com sucesso. Para capturar o potencial de oferta de poder de computação, os participantes devem ser fornecidos com incentivos claros em troca de seus recursos de computação. O mercado precisa de um mecanismo para rastrear cálculos concluídos e pagar os provedores de acordo de forma oportuna. Em mercados tradicionais, intermediários lidam com tarefas como gerenciamento e integração, enquanto reduzem os custos operacionais estabelecendo limites mínimos de pagamento. No entanto, essa abordagem é cara ao expandir o tamanho do mercado. Apenas uma pequena parte da oferta pode ser capturada economicamente, levando a um estado de equilíbrio de limite em que o mercado só pode capturar e manter uma oferta limitada sem poder crescer ainda mais;
Problema da paragem: O problema da paragem é uma questão fundamental na teoria da computação, que envolve determinar se uma tarefa de computação dada terminará em uma quantidade finita de tempo ou se continuará indefinidamente. Este problema é indecidível, o que significa que não existe um algoritmo universal que possa prever se qualquer computação dada terminará em um tempo finito. Por exemplo, a execução de contratos inteligentes no Ethereum também enfrenta um problema de paragem semelhante. É impossível determinar antecipadamente quanto recursos de computação a execução de um contrato inteligente irá exigir, ou se será concluída dentro de um tempo razoável.

(No contexto do deep learning, este problema será mais complexo à medida que os modelos e estruturas passarão da construção de gráficos estáticos para a construção dinâmica e execução.)

Privacidade: O design e desenvolvimento com consciência de privacidade são essenciais para as equipas de projeto. Embora uma grande quantidade de pesquisa em aprendizado de máquina possa ser realizada em conjuntos de dados públicos, para melhorar o desempenho do modelo e adaptá-lo a aplicações específicas, o modelo geralmente precisa ser ajustado com os dados do utilizador proprietário. Esse processo de ajuste fino pode envolver o processamento de dados pessoais, portanto, as exigências de proteção de privacidade precisam ser consideradas.
Paralelização: Este é um fator chave na falta de viabilidade dos projetos atuais. Os modelos de aprendizagem profunda são geralmente treinados em paralelo em grandes clusters de hardware com arquiteturas proprietárias e latência extremamente baixa, e as GPUs em redes de computação distribuída incorreriam em latência devido a trocas frequentes de dados e seriam limitadas pelo desempenho da GPU mais lenta. Quando as fontes de computação são não confiáveis e pouco confiáveis, como alcançar a paralelização heterogênea é um problema que deve ser resolvido. O método viável atual é alcançar a paralelização por meio de modelos de transformadores, como os Transformadores Switch, que agora têm características altamente paralelizadas.

Soluções: Embora as tentativas atuais de um mercado descentralizado de poder de computação AGI ainda estejam em estágios iniciais, existem dois projetos que inicialmente resolveram o design de consenso das redes descentralizadas e a implementação das redes de poder de computação descentralizadas no treinamento e inferência de modelos. O seguinte usará Gensyn e Together como exemplos para analisar os métodos de design e questões do mercado descentralizado de poder de computação AGI.

Gensyn

Gensyn é um mercado de poder de computação AGI que ainda está na fase de construção, com o objetivo de resolver os vários desafios da computação descentralizada de aprendizado profundo e reduzir os custos associados ao aprendizado profundo atual. Gensyn é essencialmente um protocolo de prova de participação de primeira camada baseado na rede Polkadot, que recompensa diretamente os solucionadores (aqueles que resolvem tarefas computacionais) através de contratos inteligentes em troca de seus dispositivos GPU inativos para computação e realização de tarefas de aprendizado de máquina.

Voltando à questão anterior, o cerne da construção de uma rede de computação verdadeiramente sem confiança reside na verificação do trabalho de aprendizagem de máquina concluído. Este é um problema muito complexo que requer encontrar um equilíbrio entre a interseção da teoria da complexidade, teoria dos jogos, criptografia e otimização.

A Gensyn propõe uma solução simples em que os solvers submetem os resultados das tarefas de aprendizagem automática que completaram. Para verificar se esses resultados são precisos, outro verificador independente tenta reexecutar o mesmo trabalho. Esta abordagem pode ser chamada de replicação única porque apenas um verificador reexecutaria a tarefa. Isso significa que há apenas mais um trabalho adicional para verificar a precisão do trabalho original. No entanto, se a pessoa que verifica o trabalho não for o solicitante original, então o problema de confiança ainda existe. Os verificadores eles mesmos podem não ser honestos, e seu trabalho precisa ser verificado. Isso leva a um problema potencial, onde se a pessoa que verifica o trabalho não for o solicitante original, então será necessário outro verificador para verificar o trabalho deles. Mas este novo verificador também pode não ser confiável, então será necessário outro verificador para verificar o trabalho deles, o que poderia continuar para sempre, criando uma cadeia de replicação infinita. Aqui precisamos introduzir três conceitos-chave e entrelaçá-los para construir um sistema de participantes com quatro funções para resolver o problema da cadeia infinita.

Provas de aprendizado probabilísticas: Constrói certificados de trabalho concluído usando metadados do processo de otimização baseado em gradientes. Ao replicar certas etapas, esses certificados podem ser verificados rapidamente para garantir que o trabalho tenha sido concluído conforme esperado.

Protocolo de posicionamento preciso baseado em gráficos: Utilizando protocolos de posicionamento preciso baseados em gráficos de multi-granularidade e execução consistente de avaliadores cruzados. Isso permite a reexecução e comparação do trabalho de verificação para garantir consistência, que é confirmada pelo próprio blockchain.

Jogo de incentivo estilo Truebit: Utilize apostas e penalizações para construir um jogo de incentivo que garanta que todos os participantes economicamente razoáveis atuem honestamente e realizem suas tarefas esperadas.

O sistema de participantes é composto por submissões, solucionadores, verificadores e denunciantes.

Submissores:

Os submetedores são os utilizadores finais do sistema que fornecem tarefas a serem computadas e pagam pelas unidades de trabalho completadas;

Solvers:

Os solvers são os trabalhadores principais do sistema, realizando o treino do modelo e gerando provas que são verificadas pelo verificador;

Verificadores:

Os verificadores são essenciais para ligar o processo de treino não determinístico com computações lineares determinísticas, replicando partes da prova do solucionador e comparando distâncias com os limiares esperados;

Denunciantes:

Os denunciantes são a última linha de defesa, verificando o trabalho dos verificadores e levantando desafios na esperança de receber pagamentos de recompensa generosos.

Operação do sistema

O sistema de jogo projetado pelo protocolo opera através de oito etapas, abrangendo quatro papéis principais de participantes, para completar todo o processo, desde a submissão da tarefa até a verificação final.

Envio de tarefas: As tarefas consistem em três peças específicas de informação:

Metadados descrevendo a tarefa e hiperparâmetros;

Um ficheiro binário de modelo (ou arquitetura básica);

Dados de treino pré-processados acessíveis publicamente.

Para submeter uma tarefa, o submissor especifica os detalhes da tarefa num formato legível por máquina e submete-a à cadeia juntamente com o ficheiro binário do modelo (ou arquitetura legível por máquina) e uma localização publicamente acessível dos dados de treino pré-processados. Os dados públicos podem ser armazenados num armazenamento de objetos simples como o S3 da AWS, ou num armazenamento descentralizado como o IPFS, Arweave, ou Subspace.

Perfilamento: O processo de perfilamento estabelece um limiar de distância de referência para verificação de prova de aprendizagem. Os verificadores buscarão periodicamente tarefas de perfilamento e gerarão limiares de mutação para a comparação das provas de aprendizagem. Para gerar o limiar, o verificador executará de forma determinística e reexecutará partes do treinamento usando diferentes sementes aleatórias, gerando e verificando suas próprias provas. Durante este processo, o verificador estabelece um limiar de distância esperada global para o trabalho não-determinístico da solução que pode ser usado para verificação.

Treinamento: Após a criação de perfis, as tarefas entram na piscina de tarefas pública (semelhante ao Mempool da Ethereum). Selecione um resolvedor para executar a tarefa e remover a tarefa da piscina de tarefas. Os resolvedores executam a tarefa com base nos metadados enviados pelo remetente e no modelo e nos dados de treinamento fornecidos. Ao executar tarefas de treinamento, os resolvedores também geram provas de aprendizagem verificando regularmente pontos e armazenando metadados (incluindo parâmetros) durante o processo de treinamento, para que os verificadores possam replicar as seguintes etapas de otimização da forma mais precisa possível.

Geração de prova: Os solucionadores armazenam periodicamente pesos do modelo ou atualizações e os índices correspondentes do conjunto de dados de treino para identificar as amostras usadas para gerar as atualizações de peso. A frequência do ponto de verificação pode ser ajustada para fornecer garantias mais fortes ou para economizar espaço de armazenamento. As provas podem ser “empilhadas”, o que significa que podem começar a partir de uma distribuição aleatória usada para inicializar os pesos, ou a partir de pesos pré-treinados gerados usando suas próprias provas. Isso permite que o protocolo construa um conjunto de modelos base comprovados e pré-treinados que podem ser ajustados para tarefas mais específicas.

Verificação de prova: Após a conclusão da tarefa, os solvers registam a conclusão da tarefa na cadeia e mostram a sua prova de aprendizagem num local de acesso público para os verificadores acederem. Os verificadores retiram tarefas de verificação da pool de tarefas públicas e realizam trabalho computacional para reexecutar parte da prova e executar cálculos de distância. A cadeia, juntamente com o limiar calculado durante a fase de perfilagem, utiliza então a distância resultante para determinar se a verificação corresponde à prova.

Desafio de pontaria baseado em gráficos: Após verificar a prova de aprendizagem, os denunciantes podem replicar o trabalho dos verificadores para verificar se o trabalho de verificação em si foi executado corretamente. Se os denunciantes acreditarem que a verificação foi executada de forma incorreta (maliciosamente ou não), podem desafiá-la para arbitragem de contrato por uma recompensa. Esta recompensa pode vir dos depósitos do solucionador e validador (no caso de um verdadeiro positivo) ou de um bônus do pool de loteria (no caso de um falso positivo), com arbitragem realizada usando a própria cadeia. Os denunciantes (atuando como verificadores em seu caso) só verificarão e desafiarão o trabalho se esperarem receber a compensação apropriada. Na prática, isso significa que espera-se que os denunciantes entrem e saiam da rede com base no número de outros denunciantes ativos (ou seja, com depósitos e desafios ativos). Portanto, a estratégia padrão esperada para qualquer denunciante é entrar na rede quando houver menos outros denunciantes, postar um depósito, selecionar aleatoriamente uma tarefa ativa, e iniciar seu processo de verificação. Após uma tarefa, eles pegarão outra tarefa aleatória ativa e repetirão até que o número de denunciantes exceda seu limite de pagamento determinado, momento em que sairão da rede (ou mais provavelmente, mudarão para outro papel na rede - verificador ou solucionador - com base em suas capacidades de hardware) até que a situação se reverta novamente.

Arbitragem de contrato: Quando os verificadores são desafiados por denunciantes, eles entram em um processo com a cadeia para descobrir a localização da operação ou entrada disputada, e, no final, a cadeia realizará a operação básica final e determinará se o desafio é justificado. Para manter os denunciantes honestos e superar o dilema do verificador, erros forçados periódicos e pagamentos de jackpot são introduzidos aqui.

Liquidação: Durante o processo de liquidação, os participantes são pagos com base nas conclusões de verificações probabilísticas e determinísticas. Diferentes cenários de pagamento surgem dependendo dos resultados de verificações e desafios anteriores. Se o trabalho for considerado como tendo sido realizado corretamente e todas as verificações forem aprovadas, tanto os fornecedores de soluções como os verificadores são recompensados com base nas operações realizadas.

Revisão breve do projeto

Gensyn projetou um sistema sofisticado de teoria dos jogos na camada de verificação e camadas de incentivo, o que permite a identificação rápida e retificação de erros, apontando divergências dentro da rede. No entanto, ainda faltam muitos detalhes no sistema atual. Por exemplo, como definir parâmetros para garantir que as recompensas e penalidades sejam razoáveis sem definir o limite muito alto? Você considerou cenários extremos e o poder de computação dos solvers nos aspectos de teoria dos jogos? Não há descrição detalhada da execução paralela heterogênea na versão atual do whitepaper. Gensyn ainda tem um longo caminho a percorrer.

Together.ai

Together.ai é uma empresa que se concentra em soluções computacionais de IA descentralizadas de código aberto para modelos grandes. O seu objetivo é permitir que qualquer pessoa possa aceder à IA em qualquer lugar. Estritamente falando, Together não é um projeto de blockchain, mas já resolveu preliminarmente os problemas de latência dentro de redes computacionais AGI descentralizadas. Portanto, o seguinte artigo apenas analisa as soluções da Together e não avalia o projeto em si.

Como alcançar o treino e inferência de modelos grandes quando as redes descentralizadas são 100 vezes mais lentas do que os centros de dados?

Vamos imaginar a distribuição de GPUs participando numa rede descentralizada. Esses dispositivos estarão espalhados por diferentes continentes e cidades, cada um precisando se conectar com latências e larguras de banda variadas. Como mostrado na figura abaixo, um cenário distribuído simulado mostra dispositivos localizados na América do Norte, Europa e Ásia, com larguras de banda e latências diferentes entre eles. O que precisa ser feito para ligá-los eficazmente?

Modelagem computacional de treinamento distribuído: O diagrama abaixo mostra a situação de treinar um modelo base em vários dispositivos, apresentando três tipos de comunicação: Ativação Avançada, Gradiente Reverso e Comunicação Lateral.

Combinando largura de banda de comunicação e latência, duas formas de paralelismo precisam ser consideradas: paralelismo de pipeline e paralelismo de dados, correspondendo aos três tipos de comunicação no cenário de vários dispositivos:

No paralelismo de pipeline, todas as camadas do modelo são divididas em várias etapas, onde cada dispositivo processa uma etapa, que é uma sequência de camadas consecutivas, como vários blocos de Transformador. Durante a propagação para a frente, as ativações são passadas para a próxima etapa e, durante a propagação para trás, os gradientes das ativações são passados de volta para a etapa anterior.

No paralelismo de dados, os dispositivos calculam independentemente os gradientes para diferentes microbatches, mas precisam de sincronizar esses gradientes através da comunicação.

Optimização de agendamento:

Num ambiente descentralizado, o processo de treino é frequentemente limitado pela comunicação. Os algoritmos de agendamento geralmente atribuem tarefas que exigem comunicação extensiva a dispositivos com conexões mais rápidas. Considerando as dependências entre as tarefas e a heterogeneidade da rede, é primeiro necessário modelar o custo de estratégias de agendamento específicas. Para capturar o custo de comunicação complexo de modelos base de treino, a Together propõe uma formulação inovadora e decompõe o modelo de custo em dois níveis usando a teoria dos grafos:

A teoria dos grafos é um ramo da matemática que estuda as propriedades e estruturas dos grafos (redes). Um grafo é composto por vértices (nós) e arestas (linhas que conectam nós). O principal objetivo da teoria dos grafos é estudar várias propriedades dos grafos, como a conectividade, coloração e a natureza de caminhos e ciclos nos grafos.

O primeiro nível é um problema de particionamento de grafo equilibrado (dividindo o conjunto de vértices de um grafo em vários subconjuntos de tamanho igual ou quase igual, enquanto minimiza o número de arestas entre os subconjuntos). Neste particionamento, cada subconjunto representa uma partição, e os custos de comunicação são reduzidos ao minimizar as arestas entre as partições, correspondendo aos custos de comunicação do paralelismo de dados.

O segundo nível envolve um problema conjunto de correspondência de gráficos e de caixeiro-viajante (um problema de otimização combinatória que combina elementos de correspondência de gráficos e do problema do caixeiro-viajante). O problema de correspondência de gráficos envolve encontrar uma correspondência no gráfico que minimize ou maximize algum custo. O problema do caixeiro-viajante procura o caminho mais curto que visita todos os nós no gráfico, correspondendo aos custos de comunicação do paralelismo do pipeline.

O diagrama acima é um esquema do processo. Devido aos cálculos complexos envolvidos na implementação real, o processo descrito no diagrama é simplificado para uma compreensão mais fácil. Para uma implementação detalhada, pode-se consultar a documentação no site oficial da Together.

Suponhamos que existe um conjunto de dispositivos NN, DD, com atrasos de comunicação incertos (matriz AA) e larguras de banda (matriz BB), com base no conjunto de dispositivos DD, geramos primeiro uma partição gráfica equilibrada. Cada partição ou grupo de dispositivos contém aproximadamente um número igual de dispositivos, e todos eles lidam com o mesmo estágio de pipeline. Isso garante que, durante o paralelismo de dados, cada grupo de dispositivos execute uma quantidade semelhante de trabalho. De acordo com os atrasos de comunicação e larguras de banda, uma fórmula pode calcular o "custo" de transferência de dados entre grupos de dispositivos. Cada grupo balanceado é mesclado para criar um gráfico grosseiro totalmente conectado, onde cada nó representa um estágio de pipeline e as bordas representam o custo de comunicação entre dois estágios. Para minimizar os custos de comunicação, um algoritmo de correspondência é usado para determinar quais grupos de dispositivos devem trabalhar juntos.

Para uma otimização adicional, este problema também pode ser modelado como um problema do caixeiro-viajante de malha aberta (malha aberta significa que não é necessário voltar ao ponto de partida do caminho) para encontrar um caminho ótimo para transmitir dados em todos os dispositivos. Por fim, o Together utiliza um algoritmo de agendamento inovador para encontrar a estratégia de alocação ótima para o modelo de custos dado, minimizando assim os custos de comunicação e maximizando a taxa de treino. De acordo com testes, mesmo que a rede seja 100 vezes mais lenta sob esta otimização de agendamento, a taxa de treino de ponta a ponta é apenas cerca de 1,7 a 2,3 vezes mais lenta.

Otimização de Compressão de Comunicação:

Para a otimização da compressão de comunicação, a Together introduziu o algoritmo AQ-SGD (para um processo de cálculo detalhado, consulte o artigo "Fine-tuning Language Models over Slow Networks using Activation Compression with Guarantees"). O algoritmo AQ-SGD é uma nova técnica de compressão de ativação projetada para resolver problemas de eficiência de comunicação durante o treinamento paralelo de pipeline em redes lentas. Diferente dos métodos anteriores de compressão direta de valores de ativação, o AQ-SGD se concentra em comprimir as mudanças nos valores de ativação da mesma amostra de treinamento em diferentes períodos. Este método único introduz uma dinâmica interessante de "auto-execução", onde se espera que o desempenho do algoritmo melhore gradualmente à medida que o treino estabiliza. O algoritmo AQ-SGD foi rigorosamente analisado teoricamente e provou ter boas taxas de convergência sob certas condições técnicas e funções de quantização de erro limitadas. O algoritmo pode ser efetivamente implementado sem adicionar sobrecarga de tempo de execução de ponta a ponta adicional, embora exija o uso de mais memória e SSD para armazenar valores de ativação. Através de experimentos extensivos em classificação de sequência e conjuntos de dados de modelagem de linguagem, o AQ-SGD demonstrou comprimir valores de ativação para 2–4 bits sem sacrificar o desempenho de convergência. Além disso, o AQ-SGD pode ser integrado com algoritmos de compressão de gradiente de última geração para alcançar a "compressão de comunicação de ponta a ponta", o que significa que as trocas de dados entre todas as máquinas, incluindo gradientes de modelo, valores de ativação direta e gradientes para trás, são compactadas com baixa precisão, melhorando significativamente a eficiência de comunicação do treinamento distribuído. Em comparação com o desempenho de treinamento de ponta a ponta em uma rede de computação centralizada (como 10 Gbps) sem compressão, atualmente é apenas 31% mais lento. Combinado com os dados sobre otimização de programação, embora ainda haja uma certa lacuna entre as redes de computação centralizadas, há uma grande esperança de recuperar o atraso no futuro.

Conclusão

No período de dividendos trazido pela onda de IA, o mercado de poder de computação AGI é, sem dúvida, o mercado com maior potencial e maior demanda entre os vários mercados de poder de computação. No entanto, a maior dificuldade de desenvolvimento, os requisitos de hardware e as exigências de capital estão trazendo desafios para esta indústria. Combinando os dois projetos apresentados acima, ainda estamos algum tempo antes do lançamento do mercado de poder de computação AGI. A rede descentralizada real também é muito mais complicada do que o cenário ideal. Atualmente, não é suficiente para competir com os gigantes da nuvem.

No momento da escrita, também observei que alguns projetos de pequena escala que ainda estão em sua infância (o estágio PPT) começaram a explorar alguns novos pontos de entrada, como focar no estágio de inferência AGI menos desafiador em vez do estágio de treinamento. No entanto, a longo prazo, a significância da descentralização e dos sistemas sem permissão é profunda. O direito de acessar e treinar o poder de computação AGI não deve ser concentrado nas mãos de alguns gigantes centralizados. A humanidade não precisa de uma nova “teocracia” ou de um novo “papa”, nem deve pagar taxas de associação caras.

Disclaimer：

Este artigo é reimpresso de [GateYBB Capital]. Todos os direitos autorais pertencem ao autor original [Zeke]. Se houver objeções a esta reimpressão, entre em contato com o Gate Learnequipa e eles tratarão disso prontamente.
Aviso de responsabilidade: As opiniões expressas neste artigo são exclusivamente do autor e não constituem qualquer conselho de investimento.
As traduções do artigo para outros idiomas são feitas pela equipe Gate Learn. Salvo indicação em contrário, copiar, distribuir ou plagiar os artigos traduzidos é proibido.

Partilhar

Conteúdos

A Perspectiva de Uma Pista Promissora: Mercado de Poder de Computação Descentralizado (Parte 1)

Prefácio

Definição do Mercado de Poder de Computação Descentralizado