9月29日晚間,國產人工智能(AI)技術廠商深度求索(DeepSeek)宣布正式發布DeepSeek-V3.2-Exp模型,正如其名稱所示的那樣,這是一個基于V3.2實驗性(Experimental)的版本。
作為邁向新一代架構的中間步驟,Deepseek V3.2-Exp 在 V3.1-Terminus 的基礎上引入了 DeepSeek Sparse Attention(一種稀疏注意力機制),針對長文本的訓練和推理效率進行了探索性的優化和驗證。
據介紹,DeepSeek Sparse Attention(DSA)稀疏注意力機制首次實現了細粒度稀疏注意力機制,在幾乎不影響模型輸出效果的前提下,實現了長文本訓練和推理效率的大幅提升。
為了嚴謹地評估引入稀疏注意力帶來的影響,我們特意把 DeepSeek-V3.2-Exp 的訓練設置與 V3.1-Terminus 進行了嚴格的對齊。在各領域的公開評測集上,DeepSeek-V3.2-Exp 的表現與 V3.1-Terminus 基本持平。
目前,Deepseek官方 App、網頁端、小程序均已同步更新為 DeepSeek-V3.2-Exp,同時 API 大幅度降價。
值得注意的是,在DeepSeek-V3.2-Exp模型發布的同一天,國產AI芯片大廠寒武紀就宣布,已同步實現對DeepSeek-V3.2-Exp的適配,并開源大模型推理引擎vLLM-MLU源代碼。
目前,開發者可以在寒武紀軟硬件平臺上第一時間體驗DeepSeek-V3.2-Exp的亮點。
寒武紀表示,公司一直重視芯片和算法的聯合創新,致力于以軟硬件協同的方式,優化大模型部署性能,降低部署成本。
此前,寒武紀對DeepSeek系列模型進行了深入的軟硬件協同性能優化,達成了業界領先的算力利用率水平。
針對本次的DeepSeek-V3.2-Exp新模型架構,寒武紀通過Triton算子開發實現了快速適配,利用BangC融合算子開發實現了極致性能優化,并基于計算與通信的并行策略,再次達成了業界領先的計算效率水平。
寒武紀表示,依托DeepSeek-V3.2-Exp帶來的全新DeepSeek Sparse Attention機制,疊加寒武紀的極致計算效率,可大幅降低長序列場景下的訓推成本,共同為客戶提供極具競爭力的軟硬件解決方案。