好男人在线观看视频在线观看,国产sm主人调教女m视频

最強(qiáng)服務(wù)器CPU來了！AI性能直接翻倍

2024-09-27 20:44:05 來源：財訊網(wǎng)

服務(wù)器CPU領(lǐng)域持續(xù)多年的核心數(shù)量大戰(zhàn)，被一舉終結(jié)了！

英特爾最新發(fā)布的至強(qiáng)®6性能核處理器（P-core系列），超越了過去單一維度的競爭，通過“升維”定義了新的游戲規(guī)則：

>算力、存力，要全方位提升。不能做到這一點的CPU，不是智算時代的好U。

在過去，CPU升級換代往往要在單個芯片上集成更多的核心，但這難免會受到工藝和芯片尺寸的限制，更別提與IO和內(nèi)存的匹配難題。

這一次，至強(qiáng)®6性能核處理器采用了計算芯片單元與I/O芯片單元解耦的分離式模塊化設(shè)計，可以靈活組合不同數(shù)量的計算單元，實現(xiàn)核心數(shù)量的擴(kuò)展及內(nèi)存和IO的同步強(qiáng)化，保證更優(yōu)的整體性能和能效。

用最直觀的方式感受一下：

2023年12月15日，英特爾數(shù)據(jù)中心與人工智能集團(tuán)副總裁陳葆立從褲兜里掏出第五代至強(qiáng)®可擴(kuò)展處理器，還只有64個核心。

2024年9月26日，還是陳葆立，同樣從褲兜里掏出至強(qiáng)®6性能核處理器，卻直接翻倍到128核心。

兩款處理器外形大小相似，都能輕松放入口袋，但性能卻發(fā)生了質(zhì)的飛躍。

具體來說，剛剛登場的是至強(qiáng)®6性能核處理器大家族中的先鋒+頂級戰(zhàn)力——英特爾®至強(qiáng)®6900P系列。

擁有多達(dá)128個性能核和504MB的超大L3緩存，更大、更寬的內(nèi)存支持，更多、更快的IO能力。非常適用于各種數(shù)據(jù)和計算密集型應(yīng)用任務(wù)，比如科學(xué)計算、海量數(shù)據(jù)處理，還有AI。

看到這里，可能很多人會有疑問：你們又要說用CPU跑AI？是GPU它不香了么？

NoNoNo，我們是想說：有了這款CPU，你的GPU或其他的AI加速器，會更香！

談到這個話題，就要先說說AI服務(wù)器。

在生成式AI應(yīng)用百花齊放的當(dāng)下，AI服務(wù)器的重要性可謂是不言而喻，無論是對于大規(guī)模的訓(xùn)練、推理，亦或是RAG等任務(wù)，都對其提出了更高的要求。

也正如綜合市場預(yù)測數(shù)據(jù)從側(cè)面反應(yīng)出來的那般：

>AI服務(wù)器市場規(guī)模已經(jīng)達(dá)到了211億美元，預(yù)計2025年達(dá)到317.9億美元，2023-2025年的CAGR為22.7%。

我們都知道AI服務(wù)器里GPU或AI加速器很重要，卻很容易忽視其中CPU的作用。一個真正為AI服務(wù)器或AI數(shù)據(jù)中心基礎(chǔ)設(shè)施設(shè)計的出色的CPU，應(yīng)該是什么樣的？

英特爾®至強(qiáng)®6性能核處理器，可以說是給出了一個正解。

外媒甚至評測過后，對英特爾這次的新CPU給予了極高的評價：

>不僅僅是Xeon，更是XEON。

嗯，用中文來說的話，就是英特爾至強(qiáng)，這次是真的至強(qiáng)（達(dá)到最強(qiáng)）了。

那么英特爾®至強(qiáng)®6性能核處理器是如何解鎖這種認(rèn)同的呢？

至強(qiáng)，何以至強(qiáng)

首先要說的是算力。

英特爾®至強(qiáng)®6900P系列產(chǎn)品此次最亮眼的128核（三個計算芯片單元），這就是它看似符合此前游戲規(guī)則的一大技術(shù)亮點。

通過核心數(shù)量的不同排列組合方式，至強(qiáng)®6性能核處理器可以應(yīng)對不同的場景來提供不同核心的型號，除了最高128核的產(chǎn)品系列（6900P）外，還有最高86核（2個計算芯片單元），最高48核（1個計算芯片單元）和16核（1個計算芯片單元）的產(chǎn)品系列。

用來做這種排列組合的模塊中，計算芯片單元采用的是Intel 3制程，包含一體式網(wǎng)格、核心、緩存、內(nèi)存控制器等，可以保證數(shù)據(jù)傳輸?shù)囊恢滦浴?/p>

I/O芯片單元則是采用Intel 7制程，包含UPI、PCIe、CXL和加速器引擎等。

不同于第五代英特爾®至強(qiáng)®產(chǎn)品，至強(qiáng)®6是將I/O和計算兩個單元進(jìn)行了解耦，不僅易于做核數(shù)的擴(kuò)展，還有利于驗證、重復(fù)和靈活使用。

除此之外，英特爾®至強(qiáng)®6性能核處理器的亮點還包括：

6400 MT/s DDR5

8800 MT/s MRDIMM內(nèi)存

6條UPI 2.0鏈路；速率高達(dá)24 GT/s

96條PCIe 5.0/ 64條 CXL 2.0通道

L3緩存高達(dá)504MB

支持FP16數(shù)據(jù)格式的英特爾® AMX

接下來要說的是存力。

至強(qiáng)®6性能核處理器超脫此前游戲規(guī)則的亮點就藏在其中。

它同時支持了更快的DDR5內(nèi)存（6400MT/s）和更“寬”的MRDIMM內(nèi)存（8800MT/s）。

僅把前者替換成后者，就已經(jīng)能讓科學(xué)計算和AI場景的多項任務(wù)提升7%-33%不等了。而且相比此前至強(qiáng)® CPU Max采用的HBM，MRDIMM內(nèi)存的引入，不僅帶寬和速度優(yōu)勢更明顯，它與CPU解耦的型態(tài)，也更利于用戶的靈活采購、配置與升級。

存力除了內(nèi)存本身的性能，還包含CPU與內(nèi)存之間的互連技術(shù)，至強(qiáng)®6導(dǎo)入了最新的Compute Express Link 2.0 (CXL 2.0) 。

CXL 2.0支持多種設(shè)備類型，且可向后兼容，實現(xiàn)對內(nèi)存和存儲設(shè)備的靈活擴(kuò)展。

支持鏈路分叉、更強(qiáng)的CXL內(nèi)存分層支持，以及以受控?zé)岵灏蔚姆绞教砑?移除設(shè)備，為未來的數(shù)據(jù)中心架構(gòu)帶來了更多可能性。

更值得一提的是至強(qiáng)®6獨占的“Flat”內(nèi)存模式，CXL內(nèi)存和DRAM內(nèi)存被視為單一的內(nèi)存層，讓操作系統(tǒng)可以直接訪問這一統(tǒng)一的內(nèi)存地址空間。

這樣的分層管理可以確保最大限度地提升內(nèi)存使用效率，并且實現(xiàn)利用好CXL內(nèi)存擴(kuò)展而無需修改軟件。

如此這般能對內(nèi)存速度、帶寬、容量和可擴(kuò)展性全面兼顧，已經(jīng)形成了至強(qiáng)®6性能核處理器獨樹一幟的競爭力。

具體到服務(wù)器設(shè)計上，CLX2.0可以支持每機(jī)提供8TB內(nèi)存容量擴(kuò)展，同時提供384GB/s的內(nèi)存帶寬擴(kuò)展。

當(dāng)然，作為CPU的至強(qiáng)®6性能核處理器并沒有忘記自己的本份，把存力與算力的硬指標(biāo)優(yōu)勢結(jié)合起來，轉(zhuǎn)化成真正的優(yōu)勢，才是它被看好的底氣。

在算力方面，除了更多內(nèi)核，它還有內(nèi)置加速器與指令集更新帶來的加成。

主攻AI加速的英特爾®高級矩陣擴(kuò)展（Intel® AMX）新增對FP16數(shù)據(jù)類型的支持，現(xiàn)已全面覆蓋 int8、BF16和FP16數(shù)據(jù)類型。

其在每個內(nèi)核中的矩陣乘加（MAC）運算速度可達(dá) 2048 FLOPS（int8）和1024 FLOPS（BF16/FP16），能大幅提升 AI 推理和訓(xùn)練性能。

英特爾® 高級矢量擴(kuò)展 512（AVX-512）雖然是員老將了，但在得到如此豐沛的內(nèi)核資源支持后，也依然是科學(xué)計算、數(shù)據(jù)庫和 AI 任務(wù)中的矢量計算擔(dān)當(dāng)。

這些加速器的升級與煥新帶來的成果就是下圖這種多負(fù)載性能表現(xiàn)普遍倍增的現(xiàn)象，在AI領(lǐng)域，尤其是在Llama2-7B上的提升直接達(dá)到了前一代產(chǎn)品的3.08倍。

最后在硬件增強(qiáng)的安全特性方面，英特爾早期的方案為SGX，但從第五代至強(qiáng)® 開始新增了TDX方案。這些看似難以通過Benchmark數(shù)值來證明自身價值的技術(shù)，實則不可或缺，是確保關(guān)鍵數(shù)據(jù)和應(yīng)用更為安全可靠的壓艙石。

而安全，恰恰是目前AI數(shù)據(jù)中心或智算中心這種涉及海量數(shù)據(jù)、關(guān)系萬千機(jī)密和隱私的環(huán)境中較少提及，卻最應(yīng)補足和鞏固的一環(huán)。

說了這么多，如果要用一句話總結(jié)至強(qiáng)®6性能核處理器，尤其是6900P系列產(chǎn)品的定位，那就是“更強(qiáng)通用計算，兼顧AI加速”了。

那么新處理器具體都有哪些用法，表現(xiàn)又如何呢？

還請繼續(xù)往下看。

全能型CPU：加速AI推理，統(tǒng)領(lǐng)異構(gòu)計算

首先，至強(qiáng)®6性能核處理器可以做“獨行俠”，直接加速AI推理，助力AI應(yīng)用普及。

用CPU做AI推理加速，其意義并非在于與GPU或其他專用加速器競爭極致的速度或效率，而是要在一些成本、采購、環(huán)境等條件受限的情況下，借助CPU部署更廣泛、人才儲備更扎實和應(yīng)用更便捷的優(yōu)勢，讓AI能夠更快、更有效地落地。

帶著這樣的整體目標(biāo)，英特爾在軟件生態(tài)和工作負(fù)載優(yōu)化方面投入了大量精力，以確保用戶能夠充分發(fā)揮至強(qiáng)®6性能核處理器的潛力。

例如，英特爾與TensorFlow和PyTorch等主流深度學(xué)習(xí)框架進(jìn)行深度合作，將針對英特爾CPU的優(yōu)化集成到官方發(fā)行版中，從而使得在英特爾CPU上運行深度學(xué)習(xí)模型時，性能得到顯著提升。上文提到的Llama2-7B成績便是這些努力的成果之一。

另外，至強(qiáng)®6性能核處理器還可以做“指揮官”，強(qiáng)化AI系統(tǒng)整體實力。

這其實是很多用戶更為熟悉，也是至強(qiáng)®6性能核處理器更主打的應(yīng)用方式，所謂“指揮官”，另一個名稱就是機(jī)頭（head-node）CPU或主控CPU。

如果將至強(qiáng)®6性能核處理器用作AI服務(wù)器的機(jī)頭CPU，那么其在算力（更強(qiáng)的單線程性能）、存力（對MRDIMM內(nèi)存和CXL內(nèi)存擴(kuò)展能力的支持）以及 I/O（更多的PCIe 5.0通道）等方面的優(yōu)勢和潛能就能更加充分地發(fā)揮和釋放出來。

使其能夠與GPU或?qū)Ｓ玫腁I加速器高效協(xié)作，出色地處理數(shù)據(jù)預(yù)處理、數(shù)據(jù)傳輸分享和混合工作負(fù)載。

我們最初的設(shè)問，至此終于拼湊出了一個更為完整的答案，即為何至強(qiáng)®6性能核處理器能夠被稱作AI服務(wù)器或AI數(shù)據(jù)中心的“嚴(yán)選”，甚至是優(yōu)選CPU ？

這正是由于它既能夠單槍匹馬地加速AI推理，又可以居中協(xié)調(diào)以提升異構(gòu)系統(tǒng)的整體性能輸出。

更不必說，它還能夠兼顧眾多傳統(tǒng)但同樣不可或缺的應(yīng)用負(fù)載，例如前文提及的科學(xué)計算和數(shù)據(jù)庫，以及高性能云基礎(chǔ)設(shè)施構(gòu)建等任務(wù)。

以Flatiron Institute的案例來說，作為一家科研機(jī)構(gòu)，他們對科學(xué)計算有著強(qiáng)烈的需求。通過測試得知，至強(qiáng)®6性能核處理器在常見科學(xué)計算負(fù)載上表現(xiàn)優(yōu)異。

他們還覺得對MRDIMM內(nèi)存的支持將進(jìn)一步突破傳統(tǒng)DDR內(nèi)存的性能瓶頸，推動數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)。

在本次至強(qiáng)®6性能核處理器的發(fā)布會上，英特爾也展示了本地數(shù)據(jù)庫軟件合作伙伴——科藍(lán)軟件的成果。

英特爾市場營銷集團(tuán)副總裁、中國區(qū)&行業(yè)解決方案和數(shù)據(jù)中心銷售部總經(jīng)理梁雅莉在介紹生態(tài)系統(tǒng)支持狀況時表示：

>基于我們的新品，科藍(lán)軟件構(gòu)建了高性能國產(chǎn)分布式數(shù)據(jù)庫，其吞吐較第五代至強(qiáng)®可擴(kuò)展處理器提升達(dá)到 198%。

值得一提的是，在她分享中出現(xiàn)的中國合作伙伴數(shù)量眾多且都是各領(lǐng)域的核心力量，英特爾雖然在產(chǎn)品研發(fā)上有了更多創(chuàng)新，但在商業(yè)模式上仍然非常依賴開放架構(gòu)平臺之上的產(chǎn)業(yè)合力。

十?dāng)?shù)家OEM、ODM、OSV和ISV在至強(qiáng)®6性能核處理器發(fā)布時同步推出新產(chǎn)品，以及多家云服務(wù)提供商的支持，在英特爾看來，才是新品真正走近用戶和價值放大的基礎(chǔ)。

建好AI服務(wù)器，CPU不能是短板

從前面列舉的眾多數(shù)據(jù)和用例可以看出，在當(dāng)前AI應(yīng)用加速落地、新推理計算范式和合成數(shù)據(jù)等趨勢的推動下，AI算力需求越來越注重推理和復(fù)合工作負(fù)載。

在這之中GPU或?qū)Ｓ眉铀倨鞴倘恢匾?，但CPU作為整個系統(tǒng)的“指揮官”，絕不能成為短板。

大家需要真正兼顧通用計算，以及AI服務(wù)器及AI數(shù)據(jù)中心場景的CPU產(chǎn)品。它不僅能支持廣泛的第三方GPU及AI加速器，與它們組合形成強(qiáng)大的異構(gòu)計算平臺，還能在其中補足GPU或?qū)Ｓ眉铀倨鞲采w不到或不足的地方，為更多樣和復(fù)雜的場景提供靈活的算力選擇，并增強(qiáng)整個AI平臺的穩(wěn)定性、安全性和擴(kuò)展性。