先前的文章已分享今年至今最震撼全球的科技趨勢就是生成式人工智慧(AIGC),這次繼續分享AIGC的發展帶動散熱產業的升級。
使用GPU產生高功耗
連帶提升散熱需求
因為AIGC對算力(運算能力)需求非常高,因此在應用AIGC時,需要在AI伺服器中搭載高效能的圖形處理器(GPU)進行相關計算。由於每顆GPU產生的熱能通常在300至700瓦之間,以輝達(NVIDIA)最新推出的DGX H100為例;就搭載8個H100GPU,每顆H100晶片的熱設計功耗(TDP)為700瓦,因此搭載8個GPU時的熱設計功耗高達5,600瓦,高功耗使散熱技術變得非常重要,以確保系統能在安全的溫度範圍內運作。
各國政府在永續環境的前提下,雲端大廠在建置資料中心時須符合當地政府的PUE(Power Usage Effectiveness,電力使用效率,詳見名詞解釋)規範,將對散熱解決方案有更高的要求。此外,隨著電競及電動車產業發展,對於良好的散熱解決方案需求增加。因為散熱方式能直接影響到設備的效能、安全、使用壽命等,這些因素共同推動了散熱產業的長期發展。
名詞解釋_PUE
PUE是計算資料中心節能省電的標準,PUE值愈低,代表機房空調冷卻時所耗的電力就會愈少,而理想的PUE值為1.0:100%,意即資料中心所提供的電力完全用於電腦運算。
散熱技術大致可分為2類:1.主動散熱:使用熱對流原理,效率較高,如散熱風扇和液體散熱;2.被動散熱:使用熱傳導原理,效果較主動散熱低,如散熱鰭片、熱導管、鋁擠型散熱片、石墨片、均熱板(VC)、3D均熱板(3D VC)等。3D均熱板是一種氣冷式散熱技術,具有更多彈性並能夠客製化設計。目前3D均熱板散熱能力可高達800瓦,預計將成為主流散熱解決方案。
液體式冷卻系統(liquid cooling)是目前最新散熱技術,能夠吸收100%系統產生的熱能,提升冷卻效率,使PUE值降低至接近1.1的水準,並且對於環境溫度的變化不敏感。液體式冷卻系統可分為不同類型:1.直接液冷系統(DLC):由冷卻液、水冷板(Cold Plate)、熱交換器等組件組成;2.浸沒式液冷系統(immersion cooling):將電子零件直接浸沒在不導電冷卻液中,以提高散熱效果和可靠性,並可使PUE值降低,目前不導電冷卻液技術幾乎掌握在美商3M手上。