目錄:速讀指定段落
DeepSeek,總部位於中國杭州的人工智慧(AI)新創企業,近期推出的開源 AI 模型 DeepSeek 以極低成本實現高效能,顛覆了現有 AI 技術的成本結構。
該模型的訓練成本僅 600 萬美元,卻能與 OpenAI 的 GPT-4 競爭,顯示出中國 AI 技術在高效算力利用與演算法創新方面的重大突破。
這一技術進展引發了全球資本市場的劇烈震盪,Nvidia(輝達)單日市值蒸發 5930 億美元,創下美股歷史上最大單日跌幅。AI 產業鏈的重新評估使市場重新調整投資策略,反映了 DeepSeek 技術的戰略影響力。
DeepSeek 的技術架構與創新優勢
DeepSeek 的技術突破核心在於 成本效益與算力優化。根據 DeepSeek 官方數據,其採用 Nvidia H800 GPU(低於 H100) 進行訓練,並透過混合專家(MoE)架構、強化學習(RLHF)與模型蒸餾(distillation) 技術,使模型訓練所需的計算資源大幅減少。
- 成本對比:與 OpenAI 和 Meta 耗資數十億美元訓練 AI 模型相比,DeepSeek-R1 僅需 600 萬美元 即可達到類似的推理能力。
- 算力利用:DeepSeek 使用 2048 顆 Nvidia H800 GPU,歷時 55 天完成訓練,展現出超高的算力效率。
- 效能指標比較:
- 數學推理能力(MMLU 測試):DeepSeek-R1 的表現與 OpenAI GPT-4 相近,並在部分數學基準測試(如 2024 年美國數學邀請賽)超越競爭對手。
- 語言理解與生成(AlpacaEval 2.0):其開源性質促進了全球開發者的參與與應用擴展。
- 應用場景:DeepSeek 優化了行動端運行效率,主要競爭對象為 ChatGPT、Meta Llama 及 Google Gemini,但與雲端 AI 解決方案的依賴程度不同。
※蒸餾技術(Distillation)是 DeepSeek 在提升模型效率與降低運算成本方面的關鍵技術之一。該方法最早由 Geoffrey Hinton 等人提出,
旨在透過知識壓縮(Knowledge Compression),將大模型的知識遷移至小型化模型,從而減少計算需求並提升推理速度。DeepSeek 採用的蒸餾技術主要包括以下幾種方法:
- Soft Target Distillation(軟目標蒸餾):將大型模型(Teacher Model)的輸出分佈轉移至小型學生模型(Student Model),使其能夠學習隱含的模式與關聯,而非單純依賴標籤數據。
- Layer-wise Distillation(逐層蒸餾):通過對應層級的特徵映射來確保學生模型可以高效模擬教師模型的行為,提升生成文本的流暢度與準確性。
- Self-Distillation(自蒸餾):DeepSeek 在訓練過程中使用自身高階版本來訓練較小規模的模型,從而提高運算效率,並確保低算力設備(如行動端)也能運行高效的 AI 模型。
這些技術使得 DeepSeek 相較於 OpenAI GPT-4 等能夠在更少的計算資源下達到類似的性能,從而降低推理成本,使 AI 模型的普及性更強。
金融市場反應:DeepSeek 導致 AI 產業估值重估
DeepSeek 的技術進展促使市場重新評估 AI 投資模式,導致高估值科技股遭遇回調:
- Nvidia(NVDA)股價單日下跌 17%,市值損失 5930 億美元,創下美股歷史紀錄。
- Broadcom(AVGO)重挫 17.4%,顯示市場對 AI 晶片需求前景的不確定性。
- Microsoft(MSFT)下跌 2.1%,作為 OpenAI 主要投資者,面臨技術競爭風險。
- Alphabet(GOOGL)下跌 4.2%,Google Gemini 可能受到更具成本效益的競品挑戰。
- 費城半導體指數(SOX)下跌 9.2%,創 2020 年以來最大跌幅。
另外軟體 AI 企業受惠於成本降低, 受益於低成本 AI 模型帶來的商業機會:
- Meta(META)股價上漲 6.4%,其開源 Llama 戰略與 DeepSeek 模式一致。
- ServiceNow(NOW)波動較大,投資者對 AI 軟體企業降低運營成本的潛力抱持樂觀態度。
DeepSeek 的長遠影響與挑戰
DeepSeek 的技術模式改變了「高成本、高性能」的 AI 發展邏輯,推動市場朝向低成本、高效能的軟體解決方案轉型。
DeepSeek 的技術突破可能促使美國進一步收緊對中國的技術封鎖,包括:
- 加強 AI 晶片出口限制,阻止中國企業獲得高性能 GPU。
- 限制美國企業與 DeepSeek 進行技術合作。
- 鼓勵美國 AI 企業加速技術創新,以維持競爭優勢。
DeepSeek 面臨的挑戰與風險
- 雲端運算基礎設施瓶頸:DeepSeek 可能因伺服器負載增加而面臨運營壓力。
- 模型準確性問題:根據 NewsGuard 測試,DeepSeek R1 在事實性回應方面 83% 的答案不準確(共十一個排行第十,其他 AI 約六成錯誤),可能影響市場信任度。
- 監管合規挑戰:中國與全球各國可能加強對 AI 開源技術的監管,影響其市場發展。
數據對比分析:DeepSeek 與主要競爭對手的比較
訓練成本與算力需求
AI 模型 | 訓練成本 | 訓練 GPU | 訓練時長 |
DeepSeek-V3 | 600 萬美元 | 2048 顆 Nvidia H800 | 55 天 |
OpenAI GPT-4 | 超過 1 億美元 | 25000 顆 Nvidia H100 | 預估270-360天 |
※GPT-4 的訓練時長:擁有比 GPT-3 更大的參數量,推測約 1 兆(1 Trillion)參數(GPT-3 有 1750 億參數)。GPT-3 的訓練時長為 3-6 個月,而GPT-4則推估往上加 6 個月。
推理效能與應用場景
AI 模型 | 語言理解MMLU-Redux | 程式碼HumanEval-Mul | 數學AIME 2024 |
DeepSeek-V3 | 89.1 | 82.6 | 39.2 |
GPT-4o | 88 | 80.5 | 9.3 |
LLaMA-3.1 | 86.2 | 77.2 | 23.3 |
上表整理自 arxiv ,該模型是限制輸出長度在 8K ,顯示出 DeepSeek-V3 是目前最好的模型。
產業影響與市場表現
事件 | Nvidia 股價變動 | Microsoft 股價變動 | Google 股價變動 |
DeepSeek 在華爾街引爆後 | -17% | -2.1% | -4.2% |
競爭對手回應 | +9% | +3% | +2% |
DeepSeek 導致 Nvidia 和其他 AI 晶片相關股大幅下跌,而 Meta 受益於開源 AI 模型趨勢,股價上揚。
而 OpenAI 發言人表示,他們長期關注中國 AI 團隊使用蒸餾等技術來學習美國 AI 模型的動向,並將深入審查 DeepSeek 是否有 非法蒸餾 OpenAI 技術的跡象。
DeepSeek 是否將顛覆 AI 產業格局?
DeepSeek 透過低成本、高效能的 AI 模型技術,推動 AI 產業的變革,並引發 AI 產業鏈的重新評估。市場對 AI 產品的需求逐步轉向開源、低成本、高效能,DeepSeek 有望成為 AI 發展的重要推動力。
DeepSeek 是否能持續挑戰 OpenAI、Google 和 Meta,並確保長期市場競爭力,仍需觀察。隨著 AI 技術與市場策略的轉變,DeepSeek 可能成為新時代 AI 產業的催化劑。
備註:本文章內容及數據經整理後提供,知識版權屬原作者所有。如需引用,請附註本站,無須另行通知。