DeepSeek, a Chinese AI startup based in Hangzhou, launched the large language model DeepSeek-V3 at the end of December 2024, which attracted global attention in the AI industry. The model has 671 billion parameters, but it only took about two months and cost 5.58 million US dollars to train, much lower than the investment cost of other tech giants. O DeepSeek-V3 tem um desempenho impressionante em modelos de código aberto e é comparável aos modelos mais avançados do mundo. A empresa otimizou o processo de treinamento para reduzir custos, utilizando cerca de 2,78 milhões de horas de GPU Nvidia H800, fabricadas na China. Isso demonstra um grande avanço das empresas chinesas de inteligência artificial na obtenção de materiais semicondutores avançados necessários para treinar IA, apesar das restrições dos Estados Unidos. O sucesso da DeepSeek tem causado preocupação na indústria de tecnologia dos Estados Unidos, levando a uma queda significativa nas ações da Nvidia e de outras empresas de tecnologia. Especialistas acreditam que a DeepSeek alcançou alta eficiência a um custo muito menor do que seus concorrentes americanos, através do uso de tecnologia de código aberto e métodos de treinamento eficazes. Além disso, o DeepSeek já tornou público o código-fonte do modelo e uma explicação técnica detalhada, permitindo que pesquisadores e desenvolvedores em todo o mundo possam acessar e melhorar essa tecnologia. Essa transparência contrasta fortemente com a abordagem mais conservadora das principais empresas de inteligência artificial dos Estados Unidos e pode alterar a forma como as empresas de tecnologia desenvolvem modelos no futuro.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
#Deepseek Goes Viral
DeepSeek, a Chinese AI startup based in Hangzhou, launched the large language model DeepSeek-V3 at the end of December 2024, which attracted global attention in the AI industry. The model has 671 billion parameters, but it only took about two months and cost 5.58 million US dollars to train, much lower than the investment cost of other tech giants.
O DeepSeek-V3 tem um desempenho impressionante em modelos de código aberto e é comparável aos modelos mais avançados do mundo. A empresa otimizou o processo de treinamento para reduzir custos, utilizando cerca de 2,78 milhões de horas de GPU Nvidia H800, fabricadas na China. Isso demonstra um grande avanço das empresas chinesas de inteligência artificial na obtenção de materiais semicondutores avançados necessários para treinar IA, apesar das restrições dos Estados Unidos.
O sucesso da DeepSeek tem causado preocupação na indústria de tecnologia dos Estados Unidos, levando a uma queda significativa nas ações da Nvidia e de outras empresas de tecnologia. Especialistas acreditam que a DeepSeek alcançou alta eficiência a um custo muito menor do que seus concorrentes americanos, através do uso de tecnologia de código aberto e métodos de treinamento eficazes.
Além disso, o DeepSeek já tornou público o código-fonte do modelo e uma explicação técnica detalhada, permitindo que pesquisadores e desenvolvedores em todo o mundo possam acessar e melhorar essa tecnologia. Essa transparência contrasta fortemente com a abordagem mais conservadora das principais empresas de inteligência artificial dos Estados Unidos e pode alterar a forma como as empresas de tecnologia desenvolvem modelos no futuro.