輝達在那個層面與眾為敵
眾所周知訓練AI模型需要使用大量GPU,然而人們普遍低估了網絡傳輸對於加速AI訓練的重要性,其中InfiniBand(IB)網絡交換機(Network Switch)是數據中心裏的一項關鍵技術,在AI服務器集群中,GPU和網絡交換機的佔比目前約7:1。
今年以來,ChatGPT等語言大模型更是讓InfiniBand網絡交換機的關注度大增,這是因為他們背後使用的網絡,就是輝達(Nvidia,美股代號:NVDA)基於IB構建的。
影響網絡速度的兩個重要因素是網絡帶寬和網絡延遲,為了有效地訓練擴展的語言模型,擁有高輸送量、低延遲的網絡可確保強大的 GPU 能夠無縫協作並處理巨大的計算工作負載。
AI的網絡交換機目前主要分為兩個陣營,他們都是基於RDMA技術。一個陣營是Nvidia的InfiniBand系列交換機;另一個陣營是乙太網(Ethernet)的 RoCE。
RDMA已經成為數據中心乙太網NIC和交換機的必備技術。
InfiniBand是一種能力很強的通信技術協議,目前超級計算機(HPC)和AI訓練最首選的內部連接技術。InfiniBand陣營裡,幾乎只有被Nvidia收購的Mellanox(美股代號:MLNX)一家獨大。目前微軟(Microsoft,美股代號:MSFT)的GPU機器全是IB交換機。RoCE陣營裏有Arista(美股代號:ANET)、Cisco(美股代號:CSCO);而客戶則有Meta Platforms(美股代號:META)和谷歌(Google)母公司Alphabet(美股代號:GOOGL),主要使用Arista的RoCE。可以說
Nvidia現在憑一己之力,對抗整個行業。
據行業專家判斷,在美國,使用InfiniBand和RoCE的比例是60:40,IB稍微多一點,而在內地則是70:30,同樣IB佔比較多。話雖如此,不是IB一家獨大,各大互聯網廠商都處於建立AI集群的初級階段,很有可能兩個陣營的產品均在用。
具捆綁銷售護城河
InfiniBand用戶比較多是由於IB使用RDMA作為應用層技術,是最先開始在高效能運算(HPC)紮根。由於輝達和InfiniBand深度捆綁,通常會與GPU捆綁一起銷售,現在GPU的供貨很緊張。客戶可能需要購買輝達一整套方案,輝達才會給客戶優先供應。
所以使用IB的一大缺點是客戶的成本高,客戶很討厭這樣的捆綁,因為會失去談判能力,在產品的定制化、貨期、價格上都會很被動。
因此,美國今年7月底成立了超乙太網傳輸協議聯盟(UEC),該聯盟立志研發下一代RoCE,希望乙太網能夠更好為AI 集群服務。
當中盟友幾乎包括所有輝達的競爭對手,比如Intel(美股代號:INTC) 、AMD(美股代號:AMD)和Broadcom(美股代號:AVGO)。
最後,雖然UEC的成立,希望可以在性能及競爭層面上能夠戰勝輝達,然而短期來,仍然無辦法撼動輝達捆綁銷售的護城河。
長期來看,有可能等到UEC把乙太網的性能超愈IB,並且把其協議標準定好的時候,AI訓練的高速增長期已過去,很多使用都已經定型了,因此長期是否能夠超愈IB仍不大確定。
免責聲明:本專頁刊載的所有投資分析技巧,只可作參考用途。市場瞬息萬變,讀者在作出投資決定前理應審慎,並主動掌握市場最新狀況。若不幸招致任何損失,概與本刊及相關作者無關。而本集團旗下網站或社交平台的網誌內容及觀點,僅屬筆者個人意見,與新傳媒立場無關。本集團旗下網站對因上述人士張貼之資訊內容所帶來之損失或損害概不負責。