前 NASA 科學家打臉馬斯克!太空建機房比太空人任務更荒謬

MarketWhisper

前 NASA 工程師兼 Google 雲端專家 Taranis 發文痛批在太空建立資料中心的構想,稱這是「完全不切實際的糟糕想法」。作為擁有太空電子學博士學位並在 Google 工作 10 年的專家,他從電力、散熱、輻射耐受度和通訊四大面向逐一拆解這個概念的致命缺陷。

NASA 專家背景與 ISS 太空人工作經驗的啟示

ISS先進熱控制系統

(來源:波音)

為了澄清資格,文章作者是一名前 NASA 工程師和科學家,擁有太空電子學博士學位。他也在 Google 工作了 10 年,在公司的各個部門工作過,包括 YouTube 和負責部署 AI 運算能力的雲端部門。這種橫跨太空工程和雲端運算的雙重專業背景,使他極有資格在這個議題上發表意見。

他在文章開頭就直言:「這絕對是個糟糕的想法,真的完全沒有道理。」原因有很多,但總歸一句話就是,讓資料中心運作所需的電子設備,特別是以 GPU 和 TPU 形式部署 AI 運算能力的資料中心,完全不適合在太空中運作。如果你之前沒有在這個領域工作過,他提醒讀者不要憑直覺假設,因為讓太空硬體在太空中實際運作的現實情況並不一定是顯而易見的。

這種警告源自他在 NASA 的實際經驗。太空環境對電子設備的挑戰遠超一般人想像,即使是在國際太空站(ISS)工作的太空人,也必須處理許多地面上不存在的技術難題。ISS 上的每個系統都經過精心設計以應對真空、輻射和極端溫差,而這些設計往往意味著性能妥協和巨大成本。

電力供應:ISS 規模太陽能陣列僅能跑 200 個 GPU

人們想要在太空建資料中心的首要理由似乎是太空中有充足的電力。但 NASA 工程師指出事實並非如此。基本上你只有兩個選擇:太陽能和核能。太陽能意味著部署帶有光電池的太陽能板陣列,它確實可以運作,但並不會神奇地比在地面上安裝太陽能板更好。你通過大氣層損失的電力並沒有那麼多,所以對所需面積的直覺大致上是對的。

太空中部署過最大的太陽能陣列是國際太空站(ISS)的系統,峰值時可提供略高於 200kW 的電力。部署這個系統需要好幾次太空梭飛行和大量太空人工作,它的面積約為 2,500 平方公尺,超過美式足球場的一半大小。

以 NVIDIA H200 為參考,每個 GPU 設備的功率需求約為每晶片 0.7kW。這些無法單獨運作,而且電源轉換也不是 100% 有效率,所以實際上每個 GPU 1kW 可能是更好的基準。因此,一個巨大的 ISS 大小的陣列大約可以為 200 個 GPU 供電。

電力需求對比

ISS 太陽能陣列:200kW 峰值功率,2,500 平方公尺面積

單個 H200 GPU:1kW 實際功耗

ISS 規模可供電 GPU 數量:約 200 個(相當於 3 個地面機架)

OpenAI 挪威資料中心計畫:100,000 個 GPU

要達到 OpenAI 的容量,你需要發射 500 個 ISS 大小的衛星。相比之下,一個單獨的伺服器機架將容納 72 個 GPU,所以每個巨型衛星只相當於大約三個機架。核能也無濟於事,放射性同位素熱電產生器(RTG)的典型功率輸出約為 50W 至 150W,所以甚至不足以運行單個 GPU。

散熱噩夢:真空環境讓對流冷卻完全失效

許多人對這個概念的第一反應是:「太空很冷,所以冷卻會很容易,對吧?」NASA 工程師的回答是:「呃…不…真的不是。」

地球上的冷卻相對簡單。空氣對流效果很好,讓空氣吹過散熱片可以相當有效地將熱量傳遞到空氣中。如果你需要更高的功率密度,可以使用液體冷卻將熱量從晶片傳遞到其他地方的較大散熱器。在太空中,沒有空氣。環境接近於絕對真空,所以對流根本不會發生。

太空本身並沒有溫度,只有物質才有溫度。在地月系統中,幾乎任何東西的平均溫度基本上與地球的平均溫度相同。如果衛星不旋轉,背對太陽的一側會逐漸變冷到約 4 開爾文,略高於絕對零度。在向陽面,情況可能會變得相當熱,達到數百攝氏度。因此,熱管理需要非常仔細的設計。

作者曾設計過在太空中飛行的相機系統,熱管理是設計過程的核心。他設計系統在峰值時最多消耗約 1 瓦特,當相機閒置時降至約 10%。所有電力都會轉化為熱量,所以必須透過將電路板邊緣螺栓固定到機架上來傳遞熱量。

冷卻哪怕是單個 H200 都將是絕對的噩夢。散熱片和風扇根本不會起作用,即使是液冷版本也需要將熱量傳遞到散熱板,它需要將熱量輻射到太空中。ISS 上的主動熱控制系統(ATCS)使用氨冷卻迴路和大型熱輻射板系統,它的散熱限制為 16kW,所以大約 16 個 H200 GPU,略高於地面機架的四分之一。熱輻射板系統尺寸為 13.6m x 3.12m,即大約 42.5 平方公尺。

如果我們以 200kW 為基準,我們需要一個大 12.5 倍的系統,即大約 531 平方公尺,或相關太陽能陣列大小的約 2.6 倍。這現在將是一個面積超過 ISS 的非常大的衛星,而所有這些只相當於地球上的三個標準伺服器機架。

輻射威脅:GPU 晶片在宇宙射線下如太空人暴露無防護

輻射耐受度

(來源:維基百科)

這進入作者的博士研究領域。假設你可以在太空中為電子設備供電和冷卻,你還有輻射耐受度的問題。太空中有兩個主要的輻射源:來自太陽,以及來自深空。這基本上涉及以光速的相當大百分比移動的帶電粒子,從電子到原子核。這些可以通過撞擊製造晶片的材料造成直接損害。

這種情況最常見的後果是單事件翻轉(SEU),其中粒子穿過電晶體短暫導致不應該發生的脈衝。如果這導致位元被翻轉,我們稱之為 SEU。更糟的是單事件閂鎖,當帶電粒子的脈衝導致電壓超出為晶片供電的電源軌時,你可能會在不應該存在的電源軌之間建立連接通路,永久燒毀閘極。

對於較長時間的任務,還需要考慮總劑量效應。隨著時間的推移,太空中晶片的性能會下降,因為反覆的粒子撞擊使微小的場效電晶體切換更慢。在實踐中,這會導致最大可行時脈速率隨時間衰減,功耗增加。

GPU 和 TPU 以及它們所依賴的高頻寬 RAM 對於輻射耐受度來說絕對是最糟糕的情況。小幾何電晶體本質上更容易受到 SEU 和閂鎖的影響。真正設計用於在太空中工作的晶片採用不同的閘極結構和更大的幾何尺寸,通常使用的處理器性能大約相當於 2005 年的 20 年前 PowerPC。用這種方法製造 GPU 或 TPU 當然是可能的,但性能將只是當前一代地球 GPU/TPU 的極小部分。

通訊瓶頸與結論

大多數衛星通過無線電與地面通訊,很難可靠地獲得超過約 1Gbps 的速度。與地球上的典型伺服器機架相比,100Gbps 的機架對機架互連被認為是低端,很容易看出這也是一個顯著的差距。這位 NASA 工程師總結:「我想如果你真的想這麼做,這勉強是可能的,但首先這將極其難以實現,與地球資料中心相比成本不成比例地高,並且最多只能提供平庸的性能。對我來說,我認為這是一個災難性的壞主意。」

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Commento
0/400
Nessun commento