扫码下载 APP
qrCode
更多下载方式
今天不再提醒

前 NASA 科學家打臉馬斯克!太空建機房比太空人任務更荒謬

前 NASA 工程师兼 Google 云端专家 Taranis 发文痛批在太空建立数据中心的构想,称这是「完全不切实际的糟糕想法」。作为拥有太空电子学博士学位并在 Google 工作 10 年的专家,他从电力、散热、辐射耐受度和通讯四大面向逐一拆解这个概念的致命缺陷。

NASA 专家背景与 ISS 宇航员工作经验的启示

ISS先進熱控制系統

(来源:波音)

为了澄清资格,文章作者是一名前 NASA 工程师和科学家,拥有太空电子学博士学位。他也在 Google 工作了 10 年,在公司的各个部门工作过,包括 YouTube 和负责部署 AI 算力的云端部门。这种横跨太空工程和云端计算的双重专业背景,使他极有资格在这个议题上发表意见。

他在文章开头就直言:「这绝对是个糟糕的想法,真的完全没有道理。」原因有很多,但总结一句话就是,让数据中心运作所需的电子设备,特别是以 GPU 和 TPU 形式部署 AI 算力的数据中心,完全不适合在太空中运作。如果你之前没有在这个领域工作过,他提醒读者不要凭直觉假设,因为让太空硬件在太空中实际运作的现实情况并不一定是显而易见的。

这种警告源自他在 NASA 的实际经验。太空环境对电子设备的挑战远超一般人想象,即使是在国际空间站(ISS)工作的宇航员,也必须处理许多地面上不存在的技术难题。ISS 上的每个系统都经过精心设计以应对真空、辐射和极端温差,而这些设计往往意味着性能妥协和巨大成本。

电力供应:ISS 规模太阳能阵列仅能跑 200 个 GPU

人们想要在太空建数据中心的首要理由似乎是太空中有充足的电力。但 NASA 工程师指出事实并非如此。基本上你只有两个选择:太阳能和核能。太阳能意味着部署带有光电池的太阳能板阵列,它确实可以运作,但并不会神奇地比在地面上安装太阳能板更好。你通过大气层损失的电力并没有那么多,所以对所需面积的直觉大致上是对的。

太空中部署过最大的太阳能阵列是国际空间站(ISS)的系统,峰值时可提供略高于 200kW 的电力。部署这个系统需要好几次航天飞机飞行和大量宇航员工作,它的面积约为 2,500 平方米,超过美式足球场的一半大小。

以 NVIDIA H200 为参考,每个 GPU 设备的功率需求约为每芯片 0.7kW。这些无法单独运作,而且电源转换也不是 100% 有效率,所以实际上每个 GPU 1kW 可能是更好的基准。因此,一个巨大的 ISS 大小的阵列大约可以为 200 个 GPU 供电。

电力需求对比

ISS 太阳能阵列:200kW 峰值功率,2,500 平方米面积

单个 H200 GPU:1kW 实际功耗

ISS 规模可供电 GPU 数量:约 200 个(相当于 3 个地面机架)

OpenAI 挪威数据中心计划:100,000 个 GPU

要达到 OpenAI 的容量,你需要发射 500 个 ISS 大小的卫星。相比之下,一个单独的服务器机架将容纳 72 个 GPU,所以每个巨型卫星只相当于大约三个机架。核能也无济于事,放射性同位素热电发生器(RTG)的典型功率输出约为 50W 至 150W,所以甚至不足以运行单个 GPU。

散热噩梦:真空环境让对流冷却完全失效

许多人对这个概念的第一反应是:「太空很冷,所以冷却会很容易,对吧?」NASA 工程师的回答是:「呃…不…真的不是。」

地球上的冷却相对简单。空气对流效果很好,让空气吹过散热片可以相当有效地将热量传递到空气中。如果你需要更高的功率密度,可以使用液体冷却将热量从芯片传递到其他地方的较大散热器。在太空中,没有空气。环境接近于绝对真空,所以对流根本不会发生。

太空本身并没有温度,只有物质才有温度。在地月系统中,几乎任何东西的平均温度基本上与地球的平均温度相同。如果卫星不旋转,背对太阳的一侧会逐渐变冷到约 4 开尔文,略高于绝对零度。在向阳面,情况可能会变得相当热,达到数百摄氏度。因此,热管理需要非常仔细的设计。

作者曾设计过在太空中飞行的相机系统,热管理是设计过程的核心。他设计系统在峰值时最多消耗约 1 瓦特,当相机闲置时降至约 10%。所有电力都会转化为热量,所以必须通过将电路板边缘螺栓固定到机架上来传递热量。

冷却哪怕是单个 H200 都将是绝对的噩梦。散热片和风扇根本不会起作用,即使是液冷版本也需要将热量传递到散热板,它需要将热量辐射到太空中。ISS 上的主动热控制系统(ATCS)使用氨冷却回路和大型热辐射板系统,它的散热限制为 16kW,所以大约 16 个 H200 GPU,略高于地面机架的四分之一。热辐射板系统尺寸为 13.6m x 3.12m,即大约 42.5 平方米。

如果我们以 200kW 为基准,我们需要一个大 12.5 倍的系统,即大约 531 平方米,或相关太阳能阵列大小的约 2.6 倍。这现在将是一个面积超过 ISS 的非常大的卫星,而所有这些只相当于地球上的三个标准服务器机架。

辐射威胁:GPU 芯片在宇宙射线下如宇航员暴露无防护

輻射耐受度

(来源:维基百科)

这进入作者的博士研究领域。假设你可以在太空中为电子设备供电和冷却,你还有辐射耐受度的问题。太空中有两个主要的辐射源:来自太阳,以及来自深空。这基本上涉及以光速的相当大百分比移动的带电粒子,从电子到原子核。这些可以通过撞击制造芯片的材料造成直接损害。

这种情况最常见的后果是单事件翻转(SEU),其中粒子穿过晶体管短暂导致不应该发生的脉冲。如果这导致位被翻转,我们称之为 SEU。更糟的是单事件闩锁,当带电粒子的脉冲导致电压超出为芯片供电的电源轨时,你可能会在不应该存在的电源轨之间建立连接通路,永久烧毁闸极。

对于较长时间的任务,还需要考虑总剂量效应。随着时间的推移,太空中芯片的性能会下降,因为反复的粒子撞击使微小的场效应晶体管切换更慢。在实践中,这会导致最大可行时钟速率随时间衰减,功耗增加。

GPU 和 TPU 以及它们所依赖的高带宽 RAM 对于辐射耐受度来说绝对是最糟糕的情况。小几何晶体管本质上更容易受到 SEU 和闩锁的影响。真正设计用于在太空中工作的芯片采用不同的闸极结构和更大的几何尺寸,通常使用的处理器性能大约相当于 2005 年的 20 年前 PowerPC。用这种方法制造 GPU 或 TPU 当然是可能的,但性能将只是当前一代地球 GPU/TPU 的极小部分。

通讯瓶颈与结论

大多数卫星通过无线电与地面通讯,很难可靠地获得超过约 1Gbps 的速度。与地球上的典型服务器机架相比,100Gbps 的机架对机架互连被认为是低端,很容易看出这也是一个显著的差距。这位 NASA 工程师总结:「我想如果你真的想这么做,这勉强是可能的,但首先这将极其难以实现,与地球数据中心相比成本不成比例地高,并且最多只能提供平庸的性能。对我来说,我认为这是一个灾难性的坏主意。」

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)