豆包又把算力成本“打了下來” 但壓力才剛剛開始
今日,字節(jié)跳動豆包大模型團隊提出了全新的稀疏模型架構(gòu) UltraMem,該架構(gòu)有效解決了MoE推理時高額的訪存問題,推理速度較 MoE 架構(gòu)提升2-6倍,推理成本最高可降低83%。
目前,國內(nèi)外大模型領(lǐng)域的競爭愈發(fā)激烈,已然進入白熱化階段。豆包在AI基礎(chǔ)層和應用層上均進行了全面布局,并持續(xù)迭代升級。
▍大模型持續(xù)降本增效
根據(jù)豆包大模型團隊的研究,在Transformer架構(gòu)下,模型的性能與其參數(shù)數(shù)量和計算復雜度呈對數(shù)關(guān)系。隨著LLM規(guī)模不斷增大,推理成本會急劇增加,速度變慢。
盡管MoE(混合專家)架構(gòu)已經(jīng)成功將計算和參數(shù)解耦,但在推理時,較小的batch size就會激活全部專家,導致訪存急劇上升,進而使推理延遲大幅增加。
字節(jié)跳動豆包大模型Foundation團隊提出了UltraMem,這是一種同樣將計算和參數(shù)解耦的稀疏模型架構(gòu),在保證模型效果的前提下解決了推理的訪存問題。
實驗結(jié)果表明,在參數(shù)和激活條件相同的情況下,UltraMem在模型效果上超越了MoE,并將推理速度提升了2-6倍。此外,在常見batch size規(guī)模下,UltraMem的訪存成本幾乎與同計算量的Dense模型相當。
可以看到,不論是訓練端還是推理端,大模型廠商均在力爭降本增效。核心原因是隨著模型規(guī)模的擴大,推理成本和訪存效率已成為限制大模型規(guī)模應用的關(guān)鍵瓶頸,而DeepSeek已經(jīng)走通了“低成本高性能”突破的這條路。
巖芯數(shù)智CEO劉凡平在接受《科創(chuàng)板日報》記者采訪分析認為,降低大模型的成本,業(yè)內(nèi)更傾向于從技術(shù)和工程層面進行突破,實現(xiàn)架構(gòu)優(yōu)化的“彎道超車”?;A(chǔ)架構(gòu),如Transformer架構(gòu)成本依舊高企,新的架構(gòu)研究必須要有;基礎(chǔ)算法,主要是反向傳播算法,這類算法可能是深度學習的瓶頸。
在劉凡平看來,短期內(nèi),高端芯片市場仍然還是會由英偉達主導。推理應用市場需求在增加,國產(chǎn)GPU公現(xiàn)在也有機會。從長期來看,算法一旦創(chuàng)新出的結(jié)果,還是比較驚人,整個算力市場需求后期有待觀察。
▍豆包的壓力才剛剛開始
在剛剛過去的春節(jié),DeepSeek以其低廉的訓練成本和高效的運算效率迅速火爆全球,成為AI領(lǐng)域的黑馬。目前,國內(nèi)外大模型領(lǐng)域的競爭愈發(fā)激烈,已然進入白熱化階段。
DeeSeek是目前國內(nèi)大模型中,豆包最強勁的對手,前者在1月28日的日活躍用戶數(shù)首次超越后者。目前DeepSeek的日活數(shù)據(jù)已經(jīng)突破4000萬,成為中國移動互聯(lián)網(wǎng)歷史上第一個上線不足一個月,但闖進全網(wǎng)日活Top50的應用。
近幾日,豆包大模型團隊連續(xù)發(fā)力。兩天前,其剛剛發(fā)布視頻生成實驗模型“VideoWorld”,不同于 Sora 、DALL-E 、Midjourney 等主流多模態(tài)模型,VideoWorld 在業(yè)界首次實現(xiàn)無需依賴語言模型,即可認知世界。
目前,豆包在AI基礎(chǔ)層和應用層進行了全面布局,并持續(xù)迭代升級。其AI產(chǎn)品矩陣已涵蓋多個領(lǐng)域,如AI聊天助手豆包、貓箱、即夢AI、星繪、豆包MarsCode等。
2月12日,豆包概念股午后快速走高。據(jù)Wind數(shù)據(jù)顯示,抖音豆包指數(shù)2月以來累計漲幅已超15%。個股方面,博彥科技強勢漲停,漢得信息快速拉升一度漲停,廣和通、先進數(shù)通等盤中沖高。
中信證券此前發(fā)布研報認為,豆包AI的生態(tài)擴張將引發(fā)新一輪巨頭的技術(shù)投資周期。AI產(chǎn)業(yè)具有強網(wǎng)絡效應和規(guī)模效應,當頭部AI應用獲得用戶領(lǐng)先優(yōu)勢后,其模型精準度、邊際成本以及用戶粘性等競爭優(yōu)勢將逐漸加強。
豆包用戶數(shù)持續(xù)增長,基于豆包AI的應用生態(tài)將有望加速,一方面,將催化公司對AI訓練及推理算力基礎(chǔ)設(shè)施投資,另一方面,豆包AI的快速增長將刺激其它巨頭廠商加大對AI基礎(chǔ)設(shè)施投資。
但是對于豆包自己而言,與尖子生DeepSeek的較量或許才剛剛開始。
作為一個開源模型,DeepSeek的低成本和高性能正在改變不少公司的模型選擇策略。目前,華為、百度等公司旗下的不少AI應用都宣布了接入DeepSeek,甚至字節(jié)跳動自己,旗下的飛書的多維表格功能已接入DeepSeek-R1模型,火山引擎也做了適配。
據(jù)《科創(chuàng)板日報》記者了解,目前,豆包團隊內(nèi)部還在討論豆包App是否要接入DeepSeek,從用戶體驗的角度來講,選擇一個效果更優(yōu)的模型無可厚非,但是放棄自家模型選擇友商,也很難向股東交代。這還不考慮,新增模型接入,增加適配負擔等問題。
-
DeepSeek一體機密集發(fā)布!私有化部署需求激增 云廠商:已接到大量用戶咨詢
《科創(chuàng)板日報》2月12日訊(記者 黃心怡)DeepSeek掀起的算力熱潮還在持續(xù)。中國電信昨日宣布推出了息壤智算一體機-DeepSeek版,在硬件層面以華為昇騰芯片為基礎(chǔ),提供8卡、16卡、32卡等多
-
百濟神州:第三季度凈利潤虧損8.09億元
《科創(chuàng)板日報》12日訊,百濟神州發(fā)布2024年第三季度報告,第三季度實現(xiàn)營收71.39億元,同比增長26.9%;凈利潤虧損8.09億元。前三季度實現(xiàn)營收191.36億元,同比增長48.6%;凈利潤虧損
-
LG Display將為iPhone SE4供應OLED屏幕
《科創(chuàng)板日報》30日訊,蘋果預計將LG Display作為明年推出的iPhone SE4 OLED屏幕的二級供應商。消息人士稱,明年京東方將成為主要供應商,而LG Display作為次要供應商,將主要
關(guān)注公眾號:拾黑(shiheibook)了解更多
友情鏈接:
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務市場:https://www.ijiandao.com/
安全、綠色軟件下載就上極速下載站:https://www.yaorank.com/

隨時掌握互聯(lián)網(wǎng)精彩