Intel 12代酷睿大小(xiǎo)核架構探秘，小(xiǎo)核性能(néng)暴漲80％

上回書說到，Intel Alder Lake 12代酷睿将采用(yòng)全新(xīn)的大小(xiǎo)核混合架構設計，其中(zhōng)大核/性能(néng)核(P-Core)基于Golden Cove架構，最多(duō)8個，小(xiǎo)核/能(néng)效核(E-Core)基于Gracemont架構，最多(duō)也是8個。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

兩種架構的核心有何差異？一年一度的架構日活動上，Intel終于揭開了它們的神秘面紗。

當然，CPU架構設計是極為(wèi)高深的，一般人把握不了，也無需研究太多(duō)，我們這裏大緻過一下最關鍵的一些技(jì )術點。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

Golden Cove是此前10代酷睿Sunny Cove、11代酷睿移動版Willow Cove、11代酷睿桌面版Cypress Cove的進一步升級版，但變化非常大，大量基礎模塊都重構或升級，其設計理(lǐ)念也将影響未來多(duō)代産(chǎn)品的演化。

負責指令拾取和解碼的前端部分(fēn)，就發生了翻天覆地的變化，号稱近十年來的最大變革，堪比當年的Skylake，官方稱它旨在提高速度、突破低時延和單線(xiàn)程應用(yòng)程序性能(néng)的限制。

最直接、最明顯的就是解碼器寬度由4個升級為(wèi)6個，這可(kě)是x86架構的第一次，同時每時鍾周期執行uop從6個增至8個，解碼長(cháng)度從16字節翻番至32字節。?op緩存、隊列也都大大強化，緩存可(kě)達4K，隊列每線(xiàn)程可(kě)處理(lǐ)72條目，單線(xiàn)程達144個。

編碼預取大大增強，分(fēn)支目标從5K增至12K，4K iTLB、2K/4M iTLB分(fēn)别翻番至256、32，同時改進了分(fēn)支預測精(jīng)度，編碼預取機制更加智能(néng)。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

亂序引擎部分(fēn)，同樣更寬、更深、更智能(néng)，分(fēn)配由5路增至6路，執行端口由10個增至12個，調度器尺寸增大，重排序緩沖區(qū)(ROB)從352條目增至512條目，兩倍多(duō)于AMD Zen3，僅次于蘋果M1(大約630條目)，重命名和分(fēn)配階段也可(kě)以執行更多(duō)指令。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

整數執行引擎部分(fēn)，增加了第五個整數執行端口，所有五個端口都可(kě)以執行ALU、LEA，理(lǐ)論上就原生ALU吞吐能(néng)力而言是最寬的x86内核。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

矢量執行引擎部分(fēn)，增加了新(xīn)的快速加法器(FADD)，比傳統FMA單元效率更高、延遲更低，FMA單元則增加支持FP16浮點數據類型，屬于AVX-512指令集的一部分(fēn)。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

載入和存儲部分(fēn)，通過載入AGU增加了一個專用(yòng)的執行端口，這樣載入端口從2個增至3個，同時載入緩沖和存儲緩沖更深，載入延遲更低，而針對當今負載不斷增加的内存級并行需求，數據處理(lǐ)能(néng)力也大大增加。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

二級緩存，桌面和移動端每核心還是1.25MB，服務(wù)器端的Sapphire Rapids則增加到2MB，并支持多(duō)路徑預取、全寫入預測帶寬優化，可(kě)減少内存讀取。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

Intel宣稱，Golden Cove架構相比于現在11代酷睿桌面上的Cypress Cove，實現了平均大約19％的IPC(每時鍾周期指令數)提升，可(kě)以理(lǐ)解為(wèi)同頻性能(néng)的提升幅度。

它還支持AMX高級矩陣擴展指令，内置下一代AI加速技(jì )術，用(yòng)于學(xué)習推理(lǐ)和訓練，包括專用(yòng)硬件和新(xīn)指令集架構，可(kě)明顯提高矩陣乘法運算。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

Gracemont小(xiǎo)核心屬于Atom淩動家族，是2008年以來的第七代，之前分(fēn)别是Bonnell、Saltwell、Silvermont、Airmont、Goldmont(包括Plus版本)、Tremont。

按照Intel的說法，Gracemont核心非常迷你，一個Golden Cove大核心的空間裏，可(kě)以放入四個Gracemont小(xiǎo)核心，以及它們共享的4MB二級緩存。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

别看是小(xiǎo)核心，性能(néng)其實一點都不弱。Intel聲稱，單核單線(xiàn)程對比，Gracemont的同頻延遲性能(néng)相比六代酷睿Skylake提升超過40％，而同等性能(néng)下功耗則可(kě)降低40％。

四核四線(xiàn)程的Gracemont對比雙核四線(xiàn)程的Skylake，峰值吞吐性能(néng)可(kě)提升80％，而同等性能(néng)下功耗可(kě)降低80％。

Intel表示，這種小(xiǎo)核心設計可(kě)以在有限的芯片空間内，實現多(duō)核任務(wù)負載，并具備寬泛的頻率範圍，降低整體(tǐ)消耗，為(wèi)更高頻率運行提供果功耗和散熱空間，滿足更多(duō)動态任務(wù)負載。

它還可(kě)以利用(yòng)各種技(jì )術進步，在不額外增加功耗的情況下，對工作(zuò)負載進行優先級排序，并直接提升性能(néng)。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

架構方面，小(xiǎo)核心就相對簡單不少了，但變化也非常大，比如指令緩存增大至64KB，可(kě)在不耗費内存子系統功率的情況下保存可(kě)用(yòng)指令，還有Intel的第一個按需指令長(cháng)度解碼器，可(kě)生成預解碼信息，加速現代工作(zuò)負載。

同時借助更深的分(fēn)支曆史、更大的指令尺寸，分(fēn)支預測精(jīng)度大大增加，擁有5000個條目的分(fēn)支目标緩存區(qū)。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

後端也更寬了，具備5組寬度分(fēn)配、8組寬度引退、256個亂序窗口入口、17個執行端口，以及4個整數ALU、2個載入AGU、2個存儲AGU、2個跳轉端口、2個整數存儲數據、2個浮點/矢量存儲、2個浮點/矢量堆棧、以及第3個矢量ALU。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％

内存部分(fēn)，使用(yòng)了雙載入、雙存儲單元的配置，二級緩存增大至4MB，以及深度緩沖、高級預取器，支持Intel Resource Director資源重定向技(jì )術，可(kě)以讓軟件在不同核心、不同軟件線(xiàn)程之間實現精(jīng)準的控制。

哦對了，Gracemont是第一個支持AVX2指令集的能(néng)效核心，還支持整數AI操作(zuò)新(xīn)擴展、Intel控制流強制技(jì )術、Intel虛拟化重定向保護技(jì )術。

Intel 12代酷睿大小(xiǎo)核探秘：小(xiǎo)核性能(néng)暴漲80％