DeepSeek啟示|格爾專欄
廣告
早前中國國產初創公司DeepSeek推出自家AI大型語言模型,表現一鳴驚人,DeepSeek聲稱只用了560萬美元成本造出性能超越GPT的大模型,一時間市場彷彿認為晶片已失去價值,多隻美國科技股應聲回調20%,筆者會在今期文章解答各種市場傳言。
首先,DeepSeek單計硬件成本就以十億美元計,由於美國對中國實行先進晶片禁運,DeepSeek沒有公布其使用的晶片數目,但綜合不同研究機構估計,模型使用了約50,000個GPU,大部分都是早年儲下的輝達(Nvidia,美股代號:NVDA)晶片。
模型訓練成本非總成本
560萬美元只是模型的訓練成本而非總成本。
DeepSeek的過人之處在於能以相對落後的晶片,在短時間內訓練出功能強大的AI系統,而且訓練成本比同業低。
第二,不少報道質疑DeepSeek抄襲美國AI系統。
但事實上DeepSeek是在市面上開源大模型的基礎上,再應用了蒸餾技術,站在巨人的肩膀上發展而來的。
撰文:格爾