DeepSeek最新論文:訓(xùn)練速度提升9倍,推理速度快11倍!

2025-2-21 10:02:00
  • DeepSeek最新論文:訓(xùn)練速度提升9倍,推理速度快11倍!

DeepSeek最新論文:訓(xùn)練速度提升9倍,推理速度快11倍!

Grok3發(fā)布引發(fā)熱議,DeepSeek與Kimi稀疏注意力技術(shù)成焦點(diǎn)

近日,xAI發(fā)布了全新一代大語(yǔ)言模型Grok3,被創(chuàng)始人埃隆·馬斯克稱為“地球上最聰明的AI”,引發(fā)全球關(guān)注。據(jù)悉,Grok3背后投入了20萬(wàn)塊H100 GPU,算力規(guī)模是上一代Grok2的15倍以上,展現(xiàn)了xAI在AI研發(fā)上的巨大投入與野心。在多項(xiàng)基準(zhǔn)測(cè)試中,Grok3表現(xiàn)優(yōu)異,領(lǐng)先DeepSeek R1和o3 mini等競(jìng)爭(zhēng)對(duì)手。然而,業(yè)內(nèi)對(duì)Grok3的評(píng)價(jià)卻不盡相同。

盡管Grok3的性能確實(shí)有所提升,但其算力投入與性能增長(zhǎng)并未成正比。這一現(xiàn)象也讓業(yè)界開(kāi)始重新審視大模型的Scaling Laws(擴(kuò)展規(guī)律),認(rèn)為算力的邊際效益遞減可能已逐漸顯現(xiàn)。與此同時(shí),AI領(lǐng)域的另一趨勢(shì)也在悄然興起:通過(guò)創(chuàng)新技術(shù)提升算力利用效率,成為下一代大模型發(fā)展的重要方向。

就在Grok3發(fā)布的當(dāng)天,DeepSeek團(tuán)隊(duì)發(fā)布了一篇論文,介紹了全新的稀疏注意力機(jī)制——Natively Sparse Attention(NSA),旨在提升長(zhǎng)文本處理的效率和硬件利用率。同日,Kimi團(tuán)隊(duì)也推出了類似的稀疏注意力技術(shù)MoBA,兩者均為大語(yǔ)言模型的長(zhǎng)文本處理提供了新的解決方案。

DeepSeek的NSA:用更少的計(jì)算做更多的事

在大語(yǔ)言模型發(fā)展的初期,模型處理長(zhǎng)文本的能力曾是重要的性能指標(biāo)之一。然而,傳統(tǒng)的全注意力機(jī)制在長(zhǎng)文本處理上存在顯著瓶頸:計(jì)算成本隨文本長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng),導(dǎo)致高延遲、高能耗,甚至難以完成任務(wù)。例如,要處理一本十萬(wàn)字的書(shū),全注意力機(jī)制需要計(jì)算每個(gè)詞與其他所有詞之間的關(guān)系,計(jì)算量極大。

為了解決這一問(wèn)題,稀疏注意力機(jī)制應(yīng)運(yùn)而生。其核心思想是**“只關(guān)注最重要的部分”**,通過(guò)減少計(jì)算量來(lái)提升效率。然而,現(xiàn)有稀疏注意力機(jī)制存在兩大問(wèn)題:

理論上計(jì)算量減少,但推理速度提升有限;

在訓(xùn)練階段效果不佳,多數(shù)稀疏機(jī)制僅適用于推理。

DeepSeek的NSA針對(duì)上述問(wèn)題提出了解決方案,主要從文本處理策略和硬件優(yōu)化兩個(gè)方面入手:

文本處理:分層稀疏策略

粗粒度壓縮:將長(zhǎng)文本分成多個(gè)塊(如每32個(gè)詞為一塊),通過(guò)機(jī)器學(xué)習(xí)模型提取每個(gè)塊的摘要,減少計(jì)算量。

細(xì)粒度選擇:動(dòng)態(tài)篩選最關(guān)鍵的塊(如通過(guò)注意力評(píng)分選出16個(gè)塊),僅計(jì)算這些塊的詳細(xì)信息。

局部上下文保留:保留最近的512個(gè)詞,確保模型捕捉到短期上下文關(guān)系。

這一過(guò)程可以類比為快速閱讀一本書(shū):粗略翻閱全書(shū)(粗粒度壓縮),標(biāo)記重要章節(jié)(細(xì)粒度選擇),并結(jié)合關(guān)鍵段落的上下文來(lái)理解內(nèi)容(局部上下文保留)。

硬件優(yōu)化:充分利用GPU性能

分塊內(nèi)存訪問(wèn):將數(shù)據(jù)按連續(xù)塊加載到GPU內(nèi)存中,減少隨機(jī)訪問(wèn)開(kāi)銷。

共享鍵值緩存:在解碼階段,多個(gè)注意力頭共享同一鍵值緩存,降低內(nèi)存帶寬需求。

稀疏性訓(xùn)練:在訓(xùn)練階段直接引入稀疏性,確保模型學(xué)會(huì)有效利用稀疏結(jié)構(gòu),實(shí)現(xiàn)端到端訓(xùn)練。

NSA的實(shí)際效果

DeepSeek團(tuán)隊(duì)在實(shí)驗(yàn)中驗(yàn)證了NSA的性能:

在64k長(zhǎng)度的文本處理中,NSA的推理速度比傳統(tǒng)注意力快11.6倍,訓(xùn)練速度提升6-9倍(使用NVIDIA A100 GPU)。

在知識(shí)問(wèn)答(MMLU)、代碼生成(HumanEval)、長(zhǎng)文本理解(LongBench)等任務(wù)中,NSA的性能與全注意力模型相當(dāng)甚至更優(yōu)。

通過(guò)與GPU內(nèi)存架構(gòu)(HBM→SRAM)的優(yōu)化對(duì)齊,NSA首次實(shí)現(xiàn)了理論計(jì)算節(jié)省與實(shí)際加速的統(tǒng)一。它不僅顯著提升了推理效率,還解決了稀疏注意力機(jī)制在訓(xùn)練階段的應(yīng)用難題,為低功耗、高效率的大模型部署奠定了技術(shù)基礎(chǔ)。

Kimi的MoBA:結(jié)合專家混合的動(dòng)態(tài)稀疏注意力

與DeepSeek的NSA類似,Kimi團(tuán)隊(duì)的MoBA(Mix of Blocks Attention)同樣致力于解決長(zhǎng)文本處理中的計(jì)算成本問(wèn)題。然而,MoBA采用了不同的技術(shù)思路,借鑒了“專家混合”(Mixture of Experts, MoE)的理念。

MoBA的核心創(chuàng)新:動(dòng)態(tài)選擇機(jī)制

MoBA將文本分成多個(gè)塊,通過(guò)一種動(dòng)態(tài)“門(mén)控機(jī)制”決定每個(gè)查詢需要關(guān)注哪些塊。這種方式讓模型可以根據(jù)任務(wù)需求靈活調(diào)整注意力范圍,而不是依賴固定規(guī)則。

硬件優(yōu)化與超長(zhǎng)文本支持

MoBA結(jié)合了FlashAttention技術(shù),進(jìn)一步提升了計(jì)算效率。通過(guò)分布式計(jì)算解決了GPU內(nèi)存限制問(wèn)題,MoBA能夠擴(kuò)展至1000萬(wàn)詞以上的超長(zhǎng)序列處理,成為其顯著優(yōu)勢(shì)之一。

行業(yè)趨勢(shì):從算力堆疊到效率優(yōu)化

隨著大模型規(guī)模的不斷擴(kuò)展,算力投入的邊際效益遞減已成趨勢(shì)。Grok3的發(fā)布雖然再次刷新了大模型能力上限,但其巨大的算力投入與性能提升不成比例,引發(fā)了業(yè)界對(duì)大模型未來(lái)發(fā)展的深思。

相比之下,DeepSeek和Kimi等團(tuán)隊(duì)的創(chuàng)新技術(shù)表明,通過(guò)提升算力利用效率,或許能更有效推動(dòng)大模型的應(yīng)用普及。無(wú)論是NSA的分層稀疏策略,還是MoBA的動(dòng)態(tài)選擇機(jī)制,這些技術(shù)都展現(xiàn)了稀疏注意力在提升效率方面的潛力。

未來(lái),隨著AI應(yīng)用場(chǎng)景的不斷擴(kuò)展,算力需求仍將持續(xù)增長(zhǎng)。但僅依靠硬件堆疊已難以帶來(lái)顯著提升,如何通過(guò)技術(shù)創(chuàng)新提高算力利用率,將成為AI領(lǐng)域的關(guān)鍵突破方向。