O ChatGPT, que está "em alta", precisa urgentemente de "freios de conformidade"

2023-12-01 11:07:13

Dicas principais:

O ChatGPT e outras IAs de chat baseadas em tecnologia de processamento de linguagem natural têm três principais problemas de conformidade legal que precisam ser resolvidos urgentemente a curto prazo:

Primeiro, quando se trata dos direitos de propriedade intelectual das respostas fornecidas pela IA do chat, o principal problema de conformidade é se as respostas produzidas pela IA do chat geram direitos de propriedade intelectual correspondentes e se a autorização dos direitos de propriedade intelectual é necessária.

Em segundo lugar, o processo de mineração de dados e treinamento de IA de bate-papo em uma enorme quantidade de texto de processamento de linguagem natural (comumente conhecido como corpus) precisa obter direitos de propriedade intelectual correspondentes?

Em terceiro lugar, um dos mecanismos para o ChatGPT e outras IA de chat responderem é obter um modelo de linguagem baseado em estatísticas, contando matematicamente estatisticamente um grande número de textos em linguagem natural existentes, o que leva ao fato de que a IA de bate-papo provavelmente “fala bobagens sérias”, o que, por sua vez, leva ao risco legal de disseminação de informações falsas.

Em geral, no momento, a legislação de inteligência artificial da China ainda está em fase de pré-pesquisa, e não há nenhum plano legislativo formal ou projeto de moção relevante, e os departamentos relevantes são particularmente cautelosos sobre a supervisão do campo da inteligência artificial.

1. O ChatGPT não é uma “tecnologia de inteligência artificial entre eras”

ChatGPT é essencialmente um produto do desenvolvimento da tecnologia de processamento de linguagem natural, e ainda é essencialmente apenas um modelo de linguagem.

No início de 2023, o enorme investimento da gigante global de tecnologia Microsoft fez do ChatGPT o “top stream” no campo da tecnologia e com sucesso fora do círculo. Com a ascensão acentuada do conceito ChatGPT no mercado de capitais, muitas empresas nacionais de tecnologia também começaram a estabelecer esse campo, enquanto o mercado de capitais está entusiasmado com o conceito de ChatGPT, como trabalhadores jurídicos, não podemos deixar de avaliar quais riscos de segurança jurídica o próprio ChatGPT pode trazer, e qual é o seu caminho de conformidade legal?

Antes de discutir os riscos legais e os caminhos de conformidade do ChatGPT, devemos primeiro examinar a lógica técnica do ChatGPT – o ChatGPT dá ao questionador quaisquer perguntas que ele queira, como a notícia sugere?

Aos olhos da equipe da irmã Sa, o ChatGPT parece estar longe de ser tão “deus” quanto algumas notícias anunciadas - em uma palavra, é apenas uma integração de tecnologias de processamento de linguagem natural, como Transformer e GPT, e ainda é essencialmente um modelo de linguagem baseado em redes neurais, em vez de um “progresso de IA entre eras”.

Como mencionado anteriormente, o ChatGPT é um produto do desenvolvimento da tecnologia de processamento de linguagem natural e, em termos da história de desenvolvimento da tecnologia, passou aproximadamente por três estágios: modelo de linguagem baseado em gramática, modelo de linguagem baseado em estatística e modelo de linguagem baseado em rede neural O princípio de funcionamento e os riscos jurídicos que podem surgir deste princípio devem primeiro ser esclarecidos como o princípio de funcionamento do modelo de linguagem baseado em estatística, o antecessor do modelo de linguagem baseado em redes neurais.

No estágio de modelo de linguagem baseado em estatísticas, os engenheiros de IA determinam a probabilidade de conexões sucessivas entre palavras contando uma enorme quantidade de texto em linguagem natural e, quando as pessoas fazem uma pergunta, a IA começa a analisar quais palavras são altamente prováveis no ambiente de linguagem onde as palavras constituintes do problema são compostas e, em seguida, junta essas palavras de alta probabilidade para retornar uma resposta baseada em estatísticas. Pode-se dizer que este princípio percorreu o desenvolvimento da tecnologia de processamento de linguagem natural desde o seu surgimento e, mesmo em certo sentido, o surgimento subsequente de modelos de linguagem baseados em redes neurais também é uma modificação dos modelos de linguagem baseados em estatísticas.

Para dar um exemplo fácil de entender, a equipe da irmã Sa digitou a pergunta “Quais são as atrações turísticas em Dalian?” na caixa de bate-papo do ChatGPT, como mostra a figura abaixo:

Na primeira etapa, a IA analisará os morfemas básicos na pergunta, “Dalian, que, turismo e pontos cênicos”, e então encontrará o conjunto de texto em linguagem natural onde esses morfemas estão localizados no corpus existente, encontrará as colocações com maior probabilidade de ocorrência neste conjunto e, em seguida, combinará essas colocações para formar a resposta final. Por exemplo, a IA descobrirá que há a palavra “Parque Zhongshan” no corpus com uma alta probabilidade da ocorrência das três palavras “Dalian, turismo e resort”, então ele retornará ao “Parque Zhongshan”, e a palavra “parque” tem a maior probabilidade de colocação com palavras como jardim, lago, fonte, estátua, etc., então retornará ainda "Este é um parque histórico com belos jardins, lagos, fontes e estátuas. 」

Por outras palavras, todo o processo é baseado nas estatísticas de probabilidade da informação de texto em linguagem natural (corpus) que já existe por detrás da IA, pelo que as respostas devolvidas são também “resultados estatísticos”, o que leva ao “disparate grave” do ChatGPT em muitas questões. Como resposta à pergunta “Quais são as atrações turísticas em Dalian”, embora Dalian tenha o Parque Zhongshan, não há lagos, fontes e estátuas no Parque Zhongshan. Dalian teve a “Praça Stalin” na história, mas a Praça Stalin nunca foi uma praça comercial, nem teve centros comerciais, restaurantes ou locais de entretenimento. Aparentemente, as informações retornadas pelo ChatGPT são falsas.

Em segundo lugar, o ChatGPT é atualmente o cenário de aplicação mais adequado como modelo de linguagem

Embora tenhamos explicado sem rodeios as desvantagens dos modelos de linguagem baseados em estatística na parte anterior, o ChatGPT já é um modelo de linguagem baseado em redes neurais que melhora muito o modelo de linguagem baseado em estatística, e sua base técnica Transformer e GPT são a última geração de modelos de linguagem O modelo é combinado para modelar a linguagem natural de uma forma muito profunda, e as frases retornadas às vezes são “absurdas”, mas à primeira vista ainda parecem “respostas humanas”, então esta tecnologia tem uma ampla gama de cenários de aplicação em cenários que exigem interação massiva homem-computador.

Por enquanto, existem três desses cenários:

Em primeiro lugar, os motores de busca;

Em segundo lugar, o mecanismo de interação humano-computador em bancos, escritórios de advocacia, intermediários diversos, shoppings, hospitais e plataformas de serviços governamentais governamentais, como o sistema de reclamação de clientes, navegação de orientação e sistema de consulta de assuntos governamentais nos locais acima mencionados;

Em terceiro lugar, o mecanismo de interação dos automóveis inteligentes e das casas inteligentes (como colunas inteligentes e luzes inteligentes).

Os mecanismos de busca que combinam tecnologias de bate-papo de IA, como o ChatGPT, provavelmente apresentarão uma abordagem tradicional baseada em mecanismos de pesquisa + modelos de linguagem baseados em redes neurais. Atualmente, gigantes tradicionais de busca, como Google e Baidu, têm um profundo acúmulo de tecnologia de modelo de linguagem baseada em redes neurais, por exemplo, o Google tem Sparrow e Lamda, que são comparáveis ao ChatGPT.

A aplicação da tecnologia de chat de IA, como o ChatGPT, no sistema de reclamação de clientes, na orientação e navegação de hospitais e centros comerciais e no sistema de consulta de assuntos governamentais de agências governamentais reduzirá consideravelmente o custo de recursos humanos das unidades relevantes e poupará tempo de comunicação, mas o problema é que as respostas baseadas em estatísticas podem produzir respostas de conteúdo completamente erradas, e os riscos de controlo de risco trazidos por isso podem ter de ser mais bem avaliados.

Em comparação com os dois cenários de aplicação acima, o risco legal de a aplicação ChatGPT se tornar o mecanismo de interação humano-computador dos dispositivos acima mencionados nos campos de carros inteligentes e casas inteligentes é muito menor, porque o ambiente de aplicação neste campo é relativamente privado, e o conteúdo errado alimentado pela IA não causará grandes riscos legais e, ao mesmo tempo, tais cenários não têm altos requisitos de precisão de conteúdo, e o modelo de negócios é mais maduro.

III. Um Estudo Preliminar sobre os Riscos Legais e o Caminho de Conformidade do ChatGPT

Primeiro, o cenário regulatório geral da inteligência artificial na China

Como muitas tecnologias emergentes, a tecnologia de processamento de linguagem natural representada pelo ChatGPT enfrenta um “dilema de Collingridge” Este dilema inclui o dilema da informação, ou seja, as consequências sociais de uma tecnologia emergente não podem ser previstas na fase inicial da tecnologia, e o chamado dilema do controlo, ou seja, quando as consequências sociais adversas de uma tecnologia emergente são descobertas, a tecnologia tornou-se frequentemente parte de toda a estrutura social e económica, de modo que as consequências sociais adversas não podem ser eficazmente controladas.

Numa altura em que o campo da inteligência artificial, especialmente a tecnologia de processamento de linguagem natural, se encontra numa fase de rápido desenvolvimento, é provável que a tecnologia caia no chamado “dilema de Collingridge”, e a regulamentação legal correspondente não parece ter “acompanhado o ritmo”. Atualmente, não existe legislação nacional sobre a indústria de inteligência artificial na China, mas houve tentativas legislativas relevantes a nível local. Em setembro do ano passado, Shenzhen anunciou os “Regulamentos sobre a Promoção da Indústria de Inteligência Artificial na Zona Econômica Especial de Shenzhen”, que é uma legislação especial para a indústria nacional de inteligência não artificial, e então Xangai também aprovou os “Regulamentos sobre a Promoção do Desenvolvimento da Indústria de Inteligência Artificial em Xangai”.

Em termos de regulação ética da inteligência artificial, o Comité Profissional Nacional para a Governação da Nova Geração de Inteligência Artificial também emitiu o “Código de Ética da Nova Geração da Inteligência Artificial” em 2021, propondo integrar a ética em todo o ciclo de vida da I&D e aplicação da inteligência artificial.

Em segundo lugar, o risco legal de desinformação provocado pelo ChatGPT

Mudando o foco do macro para o micro, além do cenário regulatório geral da indústria de IA e da regulamentação ética da IA, as questões práticas de conformidade existentes na base dos chats de IA, como o ChatGPT, também precisam de atenção urgente.

Como mencionado na Parte 2 deste artigo, o mecanismo de trabalho do ChatGPT torna possível que suas respostas sejam completamente “absurdas graves”, o que é extremamente enganoso. É claro que respostas falsas a perguntas como “quais são as atrações turísticas em Dalian” podem não ter consequências graves, mas se o ChatGPT for aplicado a mecanismos de busca, sistemas de reclamação de clientes e outros campos, as informações falsas que ele responde podem representar riscos legais extremamente sérios.

Na verdade, tal risco legal já emergiu, e Galactica, um modelo de linguagem no campo da pesquisa científica do serviço Meta que foi lançado quase ao mesmo tempo que o ChatGPT em novembro de 2022, foi retirado do ar após apenas 3 dias de testes por causa das perguntas mistas de respostas verdadeiras e falsas. Sob a premissa de que os princípios técnicos não podem ser quebrados em um curto período de tempo, se o ChatGPT e modelos de linguagem semelhantes forem aplicados a mecanismos de busca, sistemas de reclamação de clientes e outros campos, eles devem ser transformados para fins de conformidade. Quando é detetado que um usuário pode fazer uma pergunta profissional, o usuário deve ser orientado a consultar o profissional apropriado em vez de procurar a resposta da IA, e o usuário deve ser significativamente lembrado de que a autenticidade das perguntas retornadas pela IA do chat pode precisar ser verificada para minimizar os riscos de conformidade correspondentes.

Em terceiro lugar, os problemas de conformidade de propriedade intelectual trazidos pelo ChatGPT

Ao mudar o foco do macro para o micro, além da autenticidade das mensagens de resposta da IA, as questões de propriedade intelectual da IA de bate-papo, especialmente modelos de linguagem grandes como o ChatGPT, também devem atrair a atenção dos responsáveis pela conformidade.

O primeiro problema de conformidade é se a “mineração de dados de texto” requer o licenciamento de propriedade intelectual correspondente. Como apontado acima, o ChatGPT depende de uma enorme quantidade de textos em linguagem natural (ou bancos de dados de fala), o ChatGPT precisa minerar e treinar os dados no corpus, e o ChatGPT precisa copiar o conteúdo do corpus em seu próprio banco de dados, e o comportamento correspondente é frequentemente chamado de “mineração de dados de texto” no campo do processamento de linguagem natural. Com base na premissa de que os dados de texto correspondentes podem constituir uma obra, ainda há controvérsia sobre se a mineração de dados de texto viola o direito de reprodução.

No campo do direito comparado, tanto o Japão quanto a União Europeia expandiram o escopo do uso justo em sua legislação de direitos autorais, adicionando a “mineração de dados de texto” na IA como um novo caso de uso justo. Embora alguns estudiosos tenham defendido a mudança do sistema de uso justo da China de “fechado” para “aberto” no processo de revisão da lei de direitos autorais da China em 2020, essa proposição não foi finalmente adotada e, atualmente, a lei de direitos autorais da China ainda mantém as disposições fechadas do sistema de uso justo, e apenas as treze circunstâncias estipuladas no Artigo 24 da Lei de Direitos Autorais podem ser reconhecidas como uso justo, em outras palavras, atualmente, a lei de direitos autorais da China não inclui “mineração de dados de texto” na IA Incluída no âmbito de aplicação razoável, a mineração de dados de texto ainda requer autorização de propriedade intelectual correspondente na China.

Quanto à questão de saber se as obras geradas por IA são originais, a equipe da irmã Sa acredita que os critérios de julgamento não devem ser diferentes dos padrões de julgamento existentes, em outras palavras, se uma resposta é concluída por IA ou por um humano, ela deve ser julgada de acordo com os padrões de originalidade existentes. Obviamente, sob as leis de propriedade intelectual da maioria dos países, incluindo a China, o autor de uma obra só pode ser uma pessoa natural, e a IA não pode se tornar o autor de uma obra.

Finalmente, se o ChatGPT emenda um trabalho de terceiros em sua resposta, como seus direitos de propriedade intelectual devem ser tratados? A equipe da irmã Sa acredita que se a resposta do ChatGPT emendar um trabalho protegido por direitos autorais no corpus (embora isso seja menos provável de ocorrer de acordo com o princípio de funcionamento do ChatGPT), então de acordo com a lei de direitos autorais atual da China, a menos que constitua uso justo, ele deve ser copiado sem a autorização do proprietário dos direitos autorais.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.