2025年9月,Arm發(fā)布了其最新的處理器架構(gòu)。今年,Arm拋棄了原有的X系列和A系列命名規(guī)則,采用了新的的命名規(guī)則,叫C1系列,包括了C1-Ultra、C1-Premium、C1-Pro、C1-Nano等產(chǎn)品。名稱上感覺(jué)更像手機(jī)的命名系列,并且微架構(gòu)新全新升級(jí)到了Armv9.3-A。此外,今年的GPU的新架構(gòu)叫做GPU Mali G1。

除了微架構(gòu)的名稱變化,Arm還為每個(gè)目標(biāo)市場(chǎng)都創(chuàng)建了完整的品牌名稱:
- Neoverse 用于服務(wù)器
- Zena 用于汽車
- Lumex 用于移動(dòng)設(shè)備
- Niva 用于個(gè)人電腦
- Orbis 用于物聯(lián)網(wǎng)
值得一提是有一個(gè)新的PC品牌Niva,推測(cè)對(duì)Windows有更好的支持。除了Qualcomm's Snapdragon X 系列處理器,我們有望看到更多的Arm處理器運(yùn)行Windows系統(tǒng)。

今年用于手機(jī)處理器的C1系列和G1系列則屬于Lumex套件,全稱叫做Arm Lumex CSS Platform。那么Lumex里面都包含什么?根據(jù)Arm的資料,Lunux包含CPU、GPU、System等IP設(shè)計(jì),還包含了3nm等工藝節(jié)點(diǎn)的物理實(shí)現(xiàn),以及一些生態(tài)的支持,例如Pre-silicon的平臺(tái)指導(dǎo)、安卓16支持、SME2的應(yīng)用等等,可以幫助芯片廠商更快的完成芯片設(shè)計(jì)。

Arm期望通過(guò)CSS套件將這些IP以套裝打包起來(lái)售賣以提升產(chǎn)品競(jìng)爭(zhēng)力,提升整體性價(jià)比,提升對(duì)客戶的吸引力,從而提升Arm的銷售額。打個(gè)比方,這就類似麥當(dāng)勞更喜歡賣套餐,而不是單賣漢堡。
我們用一個(gè)表格,直觀的展示這5年來(lái)Arm微架構(gòu)演進(jìn)迭代的情況。


上面這張圖包含了今年新C1架構(gòu)的核心參數(shù)指標(biāo)參數(shù)的變化,后面我們會(huì)看具體的變化。

首先看一下C-Ultra相比上一代X925的性能提升。C1-Ultra的IPC性能,從Arm給出的數(shù)據(jù)看,比上一代的X925要提升12左右,前期有預(yù)測(cè)過(guò)C1-Ultra可能會(huì)采用12路decoder設(shè)計(jì),現(xiàn)在看來(lái)應(yīng)該沒(méi)有用12路這么激進(jìn),不然性能應(yīng)該能有20以上的提升。圖中下面2024年的安卓旗艦競(jìng)品,應(yīng)該是指用了X4核心的處理器8Gen3處理器。

在前端設(shè)計(jì)上,C1-Ultra和上一代X925的核心參數(shù)decoder寬度,ALU數(shù)量,F(xiàn)PU數(shù)量等基本相同。C1-Ultra主要優(yōu)化是提升分支預(yù)測(cè)性能,增加記錄預(yù)測(cè)歷史的空間,從而提升分支預(yù)測(cè)的準(zhǔn)確性,對(duì)性能和功耗都有幫助。此外,一個(gè)明顯的變化是,L1指令緩存的帶寬提升了33,以實(shí)現(xiàn)更快的指令獲取速度。

在后端設(shè)計(jì)上,C1-Ultra的L1數(shù)據(jù)緩存容量從64KB提升到128KB,這個(gè)大小要超出高通Oryon的96KB,可惜L1指令緩存還是大小還是64KB,不如Oryon的192KB。這也是多年來(lái)Arm第一次在旗艦核心上增加L1緩存的容量。

性能和功耗指標(biāo)上,C1-Ultra比X925,峰值性能提升了25,同性能下功耗則降低了28,在工藝沒(méi)有變化,都是3nm的情況下,性能的提升主要通過(guò)優(yōu)化微架構(gòu)和提升頻率。至于功耗,需要注意C1-Ultra的極限功耗是增加的,但是得益于微架構(gòu)的優(yōu)化和緩存的提升,原來(lái)X925極限性能的高能效區(qū)間在這一代同性能頻率可以跑的更低。在C1-Ultra的使用上,建議多使用這段高能效的區(qū)間,以達(dá)到最經(jīng)濟(jì)的能效使用。
下面用一個(gè)表格總結(jié)了Arm旗艦核心在過(guò)去六年里的發(fā)展變化:

在這幾年中,變化最大的演進(jìn)是2023年的Cortex-X4,其decoder寬度從6路提升到10路,ALU也從6個(gè)增加到8個(gè),性能提升明顯,典型處理器代表是MTK的天璣9300和高通的驍龍8Gen3處理器。

再來(lái)看一下C1-Premium,面積比C1-Ultra減少35,主要是減少了矢量單元和L2緩存,并優(yōu)化了物理實(shí)現(xiàn)。如果說(shuō)是減少了FPU,推測(cè)其性能和X4的差不多。今年的天璣9500信息提到了一顆Travis和三顆Alto,應(yīng)該是一顆超大C1-Ultra加三顆C-Premium來(lái)實(shí)現(xiàn)。

C1-Pro是高性能大核心,相比上一代游戲性能提升了16,正統(tǒng)A725的繼承者。A725的能效相當(dāng)不錯(cuò),也期待C1-Pro在今年處理器的表現(xiàn),天璣9500剩余的4顆Gales,應(yīng)該是C1-Pro。
C1-Nano是功耗核心,A520的下一代,功耗降低26,性能稍弱,應(yīng)該還是三路decoder的非亂序執(zhí)行,在高端處理器中已經(jīng)見不到身影,主要用于中低端處理器,可以做小芯片面積。

C1-Pro在前端設(shè)計(jì)上重點(diǎn)優(yōu)化了分支預(yù)測(cè)的吞吐率和準(zhǔn)確性,L1指令的TLB容量提升了50,并且降低了分支預(yù)期的功耗。

C1-Pro在后端上提升了數(shù)據(jù)L1緩存的帶寬,優(yōu)化L2的TLB延遲,新增了間接預(yù)期器,提升預(yù)取的性能和減少L3到SLC和內(nèi)存的數(shù)據(jù)擁塞。

性能功耗上,C1-Pro相比A725,峰值功耗差異不大的情況下,性能提升了11,相同性能下功耗則降低了26。A725已經(jīng)是一顆能效優(yōu)秀的大核心處理器,從這個(gè)數(shù)據(jù)看非常期待C1-Pro的市場(chǎng)表現(xiàn)。

下面我們來(lái)看一下C1-Nano核心,這也是一顆Armv9.3-A架構(gòu)的處理器。Arm宣稱C1-Nano相比A520提升了26的效能,并有效減少L3到內(nèi)存的擁塞。性能上,在不到2的核心面積增加下(小核心很在意核心面積),性能可以提升5.5。還通過(guò)解耦預(yù)測(cè)和取指流水線,提升了指令預(yù)取的性能。

DSU是連接多個(gè)處理器核心的關(guān)鍵模塊,這一代的新DSU命名為C1-DSU。這一代的C1-DSU,Arm宣稱功耗可以節(jié)省11,Quick Nap內(nèi)存(L3支持的功能)功耗可以降低7。

新一代的C1-DSU相比DS120,調(diào)整了CPU連接的拓?fù)浣Y(jié)構(gòu),提供優(yōu)秀的AI能力支持,支持新的SME2擴(kuò)展指令集,并且在不影響性能的情況下降低了功耗和面積。

C1-DSU還更新了L3的Quick Nap支持。Quick Nap是系統(tǒng)在進(jìn)入低功耗狀態(tài)前,L3緩存會(huì)標(biāo)記高頻率訪問(wèn)的數(shù)據(jù)(如進(jìn)程上下文),在喚醒時(shí)通過(guò)硬件級(jí)數(shù)據(jù)預(yù)取功能(如SME2),直接從L3恢復(fù)關(guān)鍵數(shù)據(jù),降低系統(tǒng)延遲。C1-DSU通過(guò)把L3緩存進(jìn)行切片,只需喚醒需要數(shù)據(jù)所在的區(qū)片,進(jìn)一步降低了系統(tǒng)延遲和功耗。
下面是一個(gè)L3 Quick Nap和傳統(tǒng)深度休眠的數(shù)據(jù)對(duì)比:


和上一代一樣,C1-DSU最多可以支持14個(gè)處理器核心的組合,并且可以實(shí)現(xiàn)不同C1處理器的組合,除了最初級(jí)的2核心配置,其余都可以支持SME2。

2025年新Arm架構(gòu)的一個(gè)特征就是采用了新的Armv9.3-A指令集,并且支持SME2擴(kuò)展指令集,我們來(lái)看一下SME2的特點(diǎn)。
SME(Scalable Matrix Extension,可擴(kuò)展矩陣擴(kuò)展)是Armv9架構(gòu)引入的指令集,雖然SME指令集在2021年就提出了,但是Arm的Cortex-X系列處理器從X925才開始支持第一代的SME指令集,蘋果公司的M4處理器和今年的A19處理器也支持第一代的SME指令集,最新的高通的8 Elite 2處理器也可以支持SME指令集。今年的Arm C1系列則全面升級(jí)到了SME2指令集。


SME2是第二代SME指令集,Arm宣稱其專為加速AI/ML工作負(fù)載設(shè)計(jì),通過(guò)矩陣運(yùn)算優(yōu)化提升能效比。相比SME,SME2引入了多矢量指令和動(dòng)態(tài)去量化等技術(shù),可以顯著提升矩陣運(yùn)算效率。SME2采用可變長(zhǎng)度寄存器架構(gòu)(128-2048位),支持流式SVE模式和高吞吐量矩陣數(shù)據(jù)處理。

在性能表現(xiàn)上,Arm宣稱SME2對(duì)性能上有顯著幫助,例如在AI任務(wù)中,SME2可使CPU集群的AI性能提升5倍,同時(shí)實(shí)現(xiàn)了3倍的能效提升。由于AI類計(jì)算需要調(diào)用非常多的矩陣計(jì)算,因此SME2在AI類應(yīng)用中尤為有效。
在開發(fā)上,SME2對(duì)開發(fā)者也會(huì)非常友好,Arm宣稱,很多應(yīng)用程序開發(fā)都集成了Arm的開發(fā)套件KleidAI來(lái)輔助執(zhí)行AI處理,在這種情況下,用戶只要講KleidiAI更新到支持SME2的版本即可。另外。多數(shù)情況,用戶只需要修改少量代碼,即可實(shí)現(xiàn)兼容,同時(shí)也支持C語(yǔ)言用內(nèi)聯(lián)函數(shù)intrinsics預(yù)言開發(fā)。
在應(yīng)用場(chǎng)景上,SME2可以廣泛應(yīng)用在端側(cè)AI,大模型推理,智能助手,計(jì)算機(jī)視覺(jué)等場(chǎng)景。
總結(jié)
如果不想看前面的文章,可以快速跳轉(zhuǎn)到這一部分。這次的總結(jié)部分用簡(jiǎn)潔整理,讓大家可以快速了解今年Arm的處理器升級(jí)點(diǎn)。
2025年Arm處理器采用新的架構(gòu)命名體系,CPU新架構(gòu)叫做C1系列,GPU新架構(gòu)叫做G1,手機(jī)處理器平臺(tái)套件叫做Lumex。
CPU家族包含C1-Ultra、C1-Premium、C1-Pro、C1-Nano四款產(chǎn)品。
C1-Ultra對(duì)標(biāo)原來(lái)的Cortex-X系列,峰值性能提升25,IPC性能提升12,同性能下功耗降低28。
C1-Premium是新出的次旗艦核心,面積比C1-Ultra小35,性能參考Cortex-X4。
C1-Pro是A725的升級(jí),峰值功耗差異不大的情況下,性能提升了11,相同性能下功耗則降低了26。
C1-Nano是A520的升級(jí),相比A520提升了26的效能。
C1-DSU是DSU120的升級(jí),功耗可以節(jié)省11,提供優(yōu)秀的AI能力支持,支持新的SME2擴(kuò)展指令集。
C1家族全新支持SME2擴(kuò)展指令集,全面面向AI矩陣運(yùn)算優(yōu)化性能和功耗,在AI任務(wù)中,SME2可使CPU集群的AI性能提升5倍,同時(shí)實(shí)現(xiàn)了3倍的能效提升。
雖然2025年Arm的發(fā)布會(huì)姍姍來(lái)遲,但是一口氣發(fā)布的這么多款產(chǎn)品也是可圈可點(diǎn)的,整體也有比較明顯的提升,讓我們期待今年搭載最新Arm C1家族處理器的旗艦芯片的體驗(yàn)!
本文轉(zhuǎn)自O(shè)PPO內(nèi)核工匠公眾號(hào)

首頁(yè) > 新聞資訊
