
Arm 推出新一代邊緣 AI 計(jì)算平臺(tái):Cortex-A320 CPU 與 Ethos-U85 AI 加速器亮相
隨著 AI 技術(shù)的快速發(fā)展,邊緣設(shè)備正逐漸承擔(dān)起越來(lái)越復(fù)雜的任務(wù),為各類場(chǎng)景提供高效、智能的解決方案。為了滿足邊緣側(cè)日益增長(zhǎng)的 AI 需求,Arm 近日發(fā)布了全新的邊緣 AI 計(jì)算平臺(tái),其核心包括基于 Armv9 架構(gòu)的高能效 CPU——Cortex-A320,以及對(duì) Transformer 網(wǎng)絡(luò)提供原生支持的 Ethos-U85 AI 加速器。該平臺(tái)不僅能效表現(xiàn)出色,還具備運(yùn)行超 10 億參數(shù) AI 模型的能力,為邊緣計(jì)算帶來(lái)了全新的性能突破。
Cortex-A320 CPU:引領(lǐng)邊緣 AI 的新變革
作為此次發(fā)布的亮點(diǎn)之一,Cortex-A320 是 Arm 首款基于 Armv9 架構(gòu)的超高能效 CPU,專為物聯(lián)網(wǎng)和邊緣 AI 應(yīng)用優(yōu)化設(shè)計(jì)。相比前代的 Cortex-A35,Cortex-A320 在機(jī)器學(xué)習(xí)(ML)性能方面提升了高達(dá) 10 倍,而能效表現(xiàn)則比 Cortex-A520 提升了 50%,顯著降低了功耗。此外,其標(biāo)量計(jì)算性能相比 Cortex-A35 提高了 30%,為邊緣設(shè)備提供了更強(qiáng)的通用計(jì)算能力。
隨著邊緣設(shè)備對(duì)更大規(guī)模、多模態(tài) AI 模型的需求增加,系統(tǒng)內(nèi)存性能的重要性愈發(fā)凸顯。Cortex-A320 支持更大的內(nèi)存空間,并優(yōu)化了多層次內(nèi)存訪問(wèn)延遲,能夠更好地滿足復(fù)雜應(yīng)用場(chǎng)景的需求。此外,該處理器具備支持多種操作系統(tǒng)的能力,包括實(shí)時(shí)操作系統(tǒng)(如 FreeRTOS 和 Zephyr)以及功能豐富的操作系統(tǒng)(如 Linux 和 Android),為開(kāi)發(fā)者提供了極大的靈活性。
Cortex-A320 還為現(xiàn)有的物聯(lián)網(wǎng)處理器提供了理想的升級(jí)路徑。無(wú)論是從 Cortex-A35 遷移,還是從市場(chǎng)上廣泛應(yīng)用的 Cortex-A53 升級(jí),Cortex-A320 都能夠提供更高的計(jì)算性能、更先進(jìn)的安全性以及對(duì) Armv9 軟件生態(tài)的全面支持。
安全性與 AI 能力的雙重提升
在邊緣應(yīng)用場(chǎng)景日益復(fù)雜的背景下,設(shè)備的安全性變得尤為關(guān)鍵。Cortex-A320 引入了 Armv9 架構(gòu)的多項(xiàng)安全增強(qiáng)功能,例如 Secure EL2 提供更高的隔離性,支持更安全的軟件容器運(yùn)行;指針驗(yàn)證與分支目標(biāo)識(shí)別(PACBTI)有效緩解了指針安全隱患;內(nèi)存標(biāo)記擴(kuò)展(MTE)則通過(guò)內(nèi)存標(biāo)記機(jī)制,進(jìn)一步提升了系統(tǒng)的防護(hù)能力。
在 AI 計(jì)算能力方面,Cortex-A320 通過(guò)增強(qiáng)的 Neon 和 SVE2 技術(shù),顯著提升了 ML 計(jì)算效率,并支持 BFloat16 等新數(shù)據(jù)類型,優(yōu)化了神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練任務(wù)。此外,新增的矩陣乘法指令進(jìn)一步加速了 AI 工作負(fù)載的執(zhí)行,為邊緣 AI 計(jì)算提供了強(qiáng)大的支持。
Cortex-A320 與 Ethos-U85 的深度協(xié)作
此次發(fā)布的邊緣 AI 計(jì)算平臺(tái),不僅僅是 Cortex-A320 和 Ethos-U85 的簡(jiǎn)單組合,而是通過(guò)深度集成實(shí)現(xiàn)了協(xié)同優(yōu)化。Cortex-A320 提供了更高的內(nèi)存容量和帶寬,支持 Ethos-U85 執(zhí)行更大規(guī)模的 AI 模型。同時(shí),當(dāng)某些 AI 操作不適合在 AI 加速器上運(yùn)行時(shí),可以回退到 Cortex-A320,利用其 Neon/SVE2 引擎高效完成任務(wù)。例如,在連續(xù)圖像檢測(cè)任務(wù)中,AI 加速器表現(xiàn)更優(yōu);而對(duì)于單張圖像的處理,CPU 則可能更為高效。
這樣的設(shè)計(jì)使得邊緣設(shè)備能夠根據(jù)實(shí)際需求,靈活分配計(jì)算任務(wù),從而在性能與能效之間找到最佳平衡。
加速邊緣 AI 的軟件生態(tài):Kleidi 的擴(kuò)展
在邊緣 AI 的普及過(guò)程中,軟件開(kāi)發(fā)和部署的復(fù)雜性一直是主要障礙之一。為此,Arm 推出了 Kleidi 軟件庫(kù),并將其擴(kuò)展至物聯(lián)網(wǎng)領(lǐng)域。Kleidi 包括 KleidiAI 和 KleidiCV 兩大模塊,分別優(yōu)化 AI 負(fù)載和機(jī)器視覺(jué)任務(wù)的執(zhí)行。KleidiAI 已集成至多種主流 AI 框架,如 Llama.cpp 和 LiteRT,能夠加速 Meta Llama 3 等大模型的推理和訓(xùn)練,進(jìn)一步釋放 Arm CPU 的計(jì)算潛力。
通過(guò) Kleidi 的支持,開(kāi)發(fā)者可以更輕松地在 Arm 平臺(tái)上實(shí)現(xiàn)高效的 AI 部署,顯著降低開(kāi)發(fā)門(mén)檻。
應(yīng)對(duì)邊緣 AI 的未來(lái)需求
隨著邊緣 AI 模型規(guī)模的不斷擴(kuò)大,內(nèi)存容量和帶寬成為影響性能的關(guān)鍵因素。Cortex-A320 提供了多種內(nèi)存配置選項(xiàng),能夠適配不同大小的 AI 模型參數(shù)。此外,Arm 的 Cortex 處理器家族覆蓋了從高性能到高能效的多種應(yīng)用場(chǎng)景,例如 Cortex-X925 適用于高端機(jī)器人領(lǐng)域,而 Cortex-A320 則專注于能效要求極高的邊緣設(shè)備。
在未來(lái),Arm 還計(jì)劃推出更多 AI 加速產(chǎn)品,進(jìn)一步豐富其邊緣計(jì)算生態(tài)。
總結(jié)
此次發(fā)布的 Arm 邊緣 AI 計(jì)算平臺(tái),通過(guò) Cortex-A320 CPU 和 Ethos-U85 AI 加速器的深度協(xié)作,為邊緣設(shè)備提供了強(qiáng)大的計(jì)算能力和靈活性。無(wú)論是在復(fù)雜的 AI 推理任務(wù)中,還是在安全性和能效方面,該平臺(tái)都展現(xiàn)出了領(lǐng)先的優(yōu)勢(shì)。隨著邊緣設(shè)備在物聯(lián)網(wǎng)、消費(fèi)電子等領(lǐng)域的應(yīng)用不斷拓展,Arm 的前瞻性布局將為行業(yè)發(fā)展注入新的動(dòng)力。