DeepSeek甩出了一張“王炸”
12月26日消息,國產大模型DeepSeek推出DeepSeek-V3,一個強大的混合專家(Mixture-of-Experts, MoE)語言模型。主要的技術迭代是671B的MoE,37B的激活參數,在14.8萬億個高質量token上進行了預訓練。
AI圈表示,“圣誕節(jié)真的來了”。
翻譯翻譯,首先,從訓練時間看,正如DeepSeek在發(fā)布報告中指出的那樣,“盡管其表現出色,DeepSeek-V3的完整訓練僅需2.788M H800 GPU小時?!?/strong>
打個比方,如果對標Llama 3 系列模型,其計算預算為 3930 萬 H100 GPU Hours——?大約可以訓練 DeepSeek-V3 十五次。
從成本上看,如果我們假設?H800 GPU?的租金為每?GPU?小時?2?美元,DeepSeek-V3 的總訓練成本僅為?557.6萬美元。
不僅如此,在最新發(fā)布的技術報告里,經過與DeepSeek-V2.5、Qwen2.5-72B-Inst、Llama-3.1-405B-Inst、GPT-4o-0513和Claude-3.5-Sonnet-1022幾個模型的跑分,?DeepSeek-V3 在多個性能基準測試中表現出色。
在MATH500、AIME2024和Codeforces三個維度更是遙遙領先,數學和編程能力極強,一度超過?GPT-4o 和 Claude 3.5 Sonnet 這兩大領先的閉源模型。
雖然在某些語言理解和軟件工程任務中稍有遜色,但也是TOP2尖子選手。
DeepSeek自言,這得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架構,實現了高效的推理和經濟高效的訓練。
又引入了輔助損失自由負載平衡策略和多token預測訓練目標,提升了模型性能。同時,在14.8萬億個高質量token上進行了預訓練時,通過監(jiān)督微調和強化學習階段充分挖掘了其潛力。
綜合評估顯示,DeepSeek-V3優(yōu)于其他開源模型,性能接近領先的閉源模型。并且,訓練過程非常穩(wěn)定,沒有遇到不可恢復的損失峰值或回滾。相比之下,在同一天,ChatGPT再次宕機,修復時間尚未確定。
Meta AI 研究科學家田淵棟在X上對 DeepSeek-V3 “極有限的預算”和“強勁的表現”深感驚喜。
曾為 Glean 和 Google Search 的創(chuàng)始團隊成員的 VC Deedy更是將DeepSeek-V3贊為“世界上最好的開源大模型”。
DeepSeek-V3的基礎模型以英語和中文為主的多語言語料庫上進行預訓練,因此主要在一系列以英語和中文為主的基準測試上評估其性能,同時也在一個多語言基準測試上進行評估。而基于其內部集成的HAI-LLM框架,具體跑分如下:
如上可以看到 V3 在英語、編程、數學、中文、多語言幾個維度的表現。
英語(English):DeepSeek-V3 Base 在大多數測試中表現最佳,例如在 BBH(EM)、MMLU(EM)、MMLU-Redux(EM)、DROP(F1)、ARC-Easy(EM)、ARC-Challenge(EM)、HellaSwag(EM)、PIQA(EM)、WinoGrande(EM)、TriviaQA(EM) 和 AGIEval(EM) 等測試中。在 Pile-test(BPB) 基準測試中,DeepSeek-V3 Base 的得分為 0.548,也略高于其他模型。
代碼(Code):DeepSeek-V3 Base 在 HumanEval(Pass@1)、MBPP(Pass@1)、LiveCodeBench-Base(Pass@1)、CRUXEval-I(EM) 和 CRUXEval-O(EM) 等測試中表現突出。
數學(Math):DeepSeek-V3 Base 在 GSM8K(EM)、MATH(EM)、MGSM(EM) 和 CMath(EM) 等測試中表現優(yōu)異。
中文(Chinese):DeepSeek-V3 Base 在 CLUEWSC(EM)、C-Eval(EM)、CMMLU(EM)、CMRC(EM)、C3(EM) 和 CCPM(EM) 等測試中表現良好。
多語言(Multilingual):DeepSeek-V3 Base 在 MMMLU-non-English(EM) 測試中表現最佳。
由于DeepSeek“大方”開源,Open AI水靈靈地被網友cue進行橫向對比,有一種被push的支配感。
不少玩家還在X上分享了自己的使用體驗,認為DeepSeek-V3?很“聰明”,并對Deepseek團隊表示極大的尊重。
DeepSeek 是一家創(chuàng)新型科技公司,長久以來專注于開發(fā)先進的大語言模型(LLM)和相關技術,由知名私募巨頭幻方量化孕育而生,作為大廠外唯一一家儲備萬張 A100 芯片的公司,幻方量化為DeepSeek的技術研發(fā)提供了強大的硬件支持。
早在通過開源大模型如 DeepSeek Coder 等,DeepSeek 就展示了在人工智能技術領域的實力。DeepSeek V2 模型的發(fā)布,更是提供了一種史無前例的性價比,推動了中國大模型價格戰(zhàn)的發(fā)展,并因其創(chuàng)新的 MLA 架構和 DeepSeekMoESparse 結構而受到業(yè)界的廣泛關注。
DeepSeek 被硅谷譽為“來自東方的神秘力量”,其 V2 模型論文在當時即被認為可能是今年最好的一篇。
半年后,DeepSeek 帶著 V3 再次登場,用行動說明,中國大模型創(chuàng)業(yè)者,也可以加入到這場全球技術創(chuàng)新的 AI 競賽中。
-
深度deepin 23.1正式發(fā)布!AI默認引擎切換至DeepSeek
今天,深度操作系統(tǒng)宣布,deepin 23.1版本已正式發(fā)布。此版本聚焦于解決基礎組件更新后的安裝效率問題,大幅提升新用戶安裝體驗,同時集成多項功能優(yōu)化與問題修復,進一步優(yōu)化系統(tǒng)使用。本次版本的重點改
-
劉慈欣談DeepSeek:完全有可能替代科幻小說作家
日前,2025中國科幻大會在北京舉辦,主題為“科學夢想 創(chuàng)造未來”。在大會論壇上,科幻作家劉慈欣談到了DeepSeek對科幻文學的驅動和發(fā)展。據央視財經報道,對于DeepSeek未來是否有可能替代科幻
-
DeepSeek推出FlashMLA項目 可以顯著降低內存占用和計算開銷
開源人工智能技術開發(fā)商 DeepSeek 上周已經預告將在本周陸續(xù)推出 5 個已經在生產環(huán)境中使用的技術,目前首個項目 FlashMLA 已經在 GitHub 上公布。FlashMLA 是一種針對 N
關注公眾號:拾黑(shiheibook)了解更多
友情鏈接:
關注數據與安全,洞悉企業(yè)級服務市場:https://www.ijiandao.com/
安全、綠色軟件下載就上極速下載站:https://www.yaorank.com/
- 《刺客信條影》總監(jiān)暗示前作主角卡珊德拉登場:活了兩千多年
- 曝iPhone 17改用條形橫置攝像頭設計:夢回魅族17
- 阿嬌演唱會“復胖、劃水”影片流出,遭批:有點不敬業(yè)
- 港姐殿軍承認網傳聊天記錄:被陰陽明年再選買個冠軍
- 比亞迪騰勢Z9GT上市2天大定破5000臺!33.48萬元起 平替保時捷
- 筆點網如何查看我公開的分類?
- 加幣兌換人民幣匯率2023年8月15日
- 2023中國年度百大品牌排名來了:華為第一 茅臺第二
- “1888萬彩禮”引熱議江西將通報
- 獎勵哥到底是什么意思
- 北京夏天的美食,到底逃不過這55樣兒!
- 北京戶口有哪些好處?2022北京積分落戶什么時候開始?這些事可以提前了解!

隨時掌握互聯網精彩