#Deepseek Goes Viral


DeepSeek,一家总部位于中国杭州的人工智能初创公司,于2024年12月底推出了引起全球人工智能行业关注的大型语言模型DeepSeek-V3。该模型拥有6710亿参数,但仅花费558万美元约两个月时间进行训练,远低于其他科技巨头的投资成本。
DeepSeek-V3在开源模型中表现出色,并与世界上最先进的模型相媲美。该公司优化了培训过程,以降低成本,使用了约2.78百万小时的Nvidia H800 GPU,这些GPU是在中国制造的。这表明中国的人工智能公司在获取训练AI所需的先进半导体材料方面取得了重大进展,尽管受到美国的限制。
DeepSeek的成功引起了美国科技行业的担忧,Nvidia和其他科技公司的股票大幅下跌。专家认为,DeepSeek通过使用开源技术和有效的培训方法,以比美国竞争对手低得多的成本实现了高效能。
此外,DeepSeek已经公开了模型的源代码和详细的技术解释,使全球的研究人员和开发人员可以接触和改进这项技术。这种透明度与美国顶级人工智能公司更加保守的方法形成了鲜明对比,并可能改变未来科技公司开发模型的方式。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)