1.什么是DPU
DPU(Data Processing Unit)是以數(shù)據(jù)為中心構(gòu)造的專用處理器,采用軟件定義技術(shù)路線支撐基礎(chǔ)設(shè)施層資源虛擬化,支持存儲(chǔ)、安全、服務(wù)質(zhì)量管理等 基礎(chǔ)設(shè)施層服務(wù)。2020年NVIDIA公司發(fā)布的DPU產(chǎn)品戰(zhàn)略中將其定位為數(shù)據(jù)中心繼CPU和GPU之后的“第三顆主力芯片”,掀起了一波行業(yè)熱潮。DPU的出現(xiàn)是異構(gòu)計(jì)算的一個(gè)階段性標(biāo)志。與GPU的發(fā)展類似,DPU是應(yīng)用驅(qū)動(dòng)的體系結(jié)構(gòu)設(shè)計(jì)的又一典型案例;但與GPU不同的是,DPU面向的應(yīng)用更加底層。DPU要解決的核心問題是基礎(chǔ)設(shè)施的“降本增效”,即將“CPU處理效率低 下、GPU處理不了”的負(fù)載卸載到專用DPU,提升整個(gè)計(jì)算系統(tǒng)的效率、降低 整體系統(tǒng)的總體擁有成本(TCO)。DPU的出現(xiàn)也許是體系結(jié)構(gòu)朝著專用化路線發(fā)展的又一個(gè)里程碑。
關(guān)于DPU中“D”的解釋
DPU中的“D”有三種解釋:
(1)Data Processing Unit,即數(shù)據(jù)處理器。這種解釋把“數(shù)據(jù)”放在核心 位置,區(qū)別于信號(hào)處理器、基帶處理器等通信相關(guān)的處理器對(duì)應(yīng)的“信號(hào)”, 也區(qū)別于GPU對(duì)應(yīng)的圖形圖像類數(shù)據(jù),這里的“數(shù)據(jù)”主要指數(shù)字化以后的各 種信息,特別是各種時(shí)序化、結(jié)構(gòu)化的數(shù)據(jù),比如大型的結(jié)構(gòu)化表格,網(wǎng)絡(luò)流 中的數(shù)據(jù)包,海量的文本等等。DPU就是處理這類數(shù)據(jù)的專用引擎。
(2)Datacenter Processing Unit,即數(shù)據(jù)中心處理器。這種解釋把數(shù)據(jù)中心作為DPU的應(yīng)用場(chǎng)景,特別是隨著WSC(Warehouse-scale Computer)的興起, 不同規(guī)模的數(shù)據(jù)中心成為了IT核心基礎(chǔ)設(shè)施。目前來看,DPU確實(shí)在數(shù)據(jù)中心 中使用前景非常廣闊。但是計(jì)算中心的三大部分:計(jì)算、網(wǎng)絡(luò)、存儲(chǔ),計(jì)算部分是CPU占主導(dǎo),GPU輔助;網(wǎng)絡(luò)部分是路由器和交換機(jī),存儲(chǔ)部分是高密度 磁盤構(gòu)成的的RAID系統(tǒng)和SSD為代表非易失性存儲(chǔ)系統(tǒng)。在計(jì)算和網(wǎng)絡(luò)中扮演 數(shù)據(jù)處理的芯片都可以稱之為Datacenter Processing Unit,所以這種說法相對(duì)比 較片面。
(3)Data-centric Processing Unit,即以數(shù)據(jù)為中心的處理器。Data-centric,即數(shù)據(jù)為中心,是處理器設(shè)計(jì)的一種理念,相對(duì)于“Control-centric”即控制為 中心。經(jīng)典的馮諾依曼體系結(jié)構(gòu)就是典型的控制為中心的結(jié)構(gòu),在馮諾依曼經(jīng) 典計(jì)算模型中有控制器、計(jì)算器、存儲(chǔ)器、輸入和輸出,在指令系統(tǒng)中的表現(xiàn) 是具有一系列非常復(fù)雜的條件跳轉(zhuǎn)和尋址指令。而數(shù)據(jù)為中心的理念與數(shù)據(jù)流 (Data Flow)計(jì)算一脈相承,是一種實(shí)現(xiàn)高效計(jì)算的方法。同時(shí),現(xiàn)在試圖打 破訪存墻(Memory Wall)的各種近存(Near-memory)計(jì)算、存內(nèi)(Inmemory)計(jì)算、存算一體等技術(shù)路線,也符合數(shù)據(jù)為中心的設(shè)計(jì)理念。
以上三種關(guān)于“D”的解釋,從不同角度反映DPU的特征,都有一定的可取之處,筆者認(rèn)為可以作為不同的三個(gè)維度來理解DPU的內(nèi)涵。
DPU的作用
DPU最直接的作用是作為CPU的卸載引擎,接管網(wǎng)絡(luò)虛擬化、硬件資源池 化等基礎(chǔ)設(shè)施層服務(wù),釋放CPU的算力到上層應(yīng)用。以網(wǎng)絡(luò)協(xié)議處理為例,要 線速處理10G的網(wǎng)絡(luò)需要的大約4個(gè)Xeon CPU的核,也就是說,單是做網(wǎng)絡(luò)數(shù)據(jù)包處理,就可以占去一個(gè)8核高端CPU一半的算力。如果考慮40G、100G的高速網(wǎng)絡(luò),性能的開銷就更加難以承受了。Amazon把這些開銷都稱之為 “Datacenter Tax”,即還未運(yùn)行業(yè)務(wù)程序,先接入網(wǎng)絡(luò)數(shù)據(jù)就要占去的計(jì)算資源。AWS Nitro產(chǎn)品家族旨在將數(shù)據(jù)中心開銷(為虛擬機(jī)提供遠(yuǎn)程資源,加密解密,故障跟蹤,安全策略等服務(wù)程序)全部從CPU卸載到Nitro加速卡上,將給上層應(yīng)用釋放30%的原本用于支付“Tax”的算力!
DPU可以成為新的數(shù)據(jù)網(wǎng)關(guān),將安全隱私提升到一個(gè)新的高度。在網(wǎng)絡(luò)環(huán)境下,網(wǎng)絡(luò)接口是理想的隱私的邊界,但是加密、解密算法開銷都很大,例如 國密標(biāo)準(zhǔn)的非對(duì)稱加密算法SM2、哈希算法SM3和對(duì)稱分組密碼算法SM4。如果用CPU來處理,就只能做少部分?jǐn)?shù)據(jù)量的加密。在未來,隨著區(qū)塊鏈承載的業(yè)務(wù)的逐漸成熟,運(yùn)行共識(shí)算法POW,驗(yàn)簽等也會(huì)消耗掉大量的CPU算力。而這些都可以通過將其固化在DPU中來實(shí)現(xiàn),甚至DPU將成為一個(gè)可信根。
DPU也可以成為存儲(chǔ)的入口,將分布式的存儲(chǔ)和遠(yuǎn)程訪問本地化。隨著 SSD性價(jià)比逐漸可接受,部分存儲(chǔ)遷移到SSD器件上已經(jīng)成為可能,傳統(tǒng)的面向 機(jī)械硬盤的SATA協(xié)議并不適用于SSD存儲(chǔ),所以,將SSD通過本地PCIe或高速 網(wǎng)絡(luò)接入系統(tǒng)就成為必選的技術(shù)路線。NVMe(Non Volatile Memory Express) 就是用于接入SSD存儲(chǔ)的高速接口標(biāo)準(zhǔn)協(xié)議,可以通過PCIe作為底層傳輸協(xié)議,將SSD的帶寬優(yōu)勢(shì)充分發(fā)揮出來。同時(shí),在分布式系統(tǒng)中,還可通過NVMe over Fabrics(NVMe-oF)協(xié)議擴(kuò)展到InfiniBand、Ethernet、或Fibre channel節(jié)點(diǎn)中,以RDMA的形式實(shí)現(xiàn)存儲(chǔ)的共享和遠(yuǎn)程訪問。這些新的協(xié)議處理都可以集成在DPU中以實(shí)現(xiàn)對(duì)CPU的透明處理。進(jìn)而,DPU將可能承接各種互連協(xié)議控制器的角色,在靈活性和性能方面達(dá)到一個(gè)更優(yōu)的平衡點(diǎn)。
DPU將成為算法加速的沙盒,成為最靈活的加速器載體。DPU不完全是一顆固化的ASIC,在CXL、CCIX等標(biāo)準(zhǔn)組織所倡導(dǎo)CPU、GPU與DPU等數(shù)據(jù)一致性訪問協(xié)議的鋪墊下,將更進(jìn)一步掃清DPU編程障礙,結(jié)合FPGA等可編程器件,可定制硬件將有更大的發(fā)揮空間,“軟件硬件化”將成為常態(tài),異構(gòu)計(jì)算 的潛能將因各種DPU的普及而徹底發(fā)揮出來。在出現(xiàn)“Killer Application”的領(lǐng)域都有可能出現(xiàn)與之相對(duì)應(yīng)的DPU,諸如傳統(tǒng)數(shù)據(jù)庫應(yīng)用如OLAP、OLTP, 5G 邊緣計(jì)算,智能駕駛V2X等等。
2.DPU的發(fā)展背景
DPU的出現(xiàn)是異構(gòu)計(jì)算的又一個(gè)階段性標(biāo)志。摩爾定律放緩使得通用CPU 性能增長的邊際成本迅速上升,數(shù)據(jù)表明現(xiàn)在CPU的性能年化增長(面積歸一 化之后)僅有3%左右1,但計(jì)算需求卻是爆發(fā)性增長,這幾乎是所有專用計(jì)算芯片得以發(fā)展的重要背景因素。以AI芯片為例,最新的GPT-3等千億級(jí)參數(shù)的超大型模型的出現(xiàn),將算力需求推向了一個(gè)新的高度。DPU也不例外。隨著2019年我國以信息網(wǎng)絡(luò)等新型基礎(chǔ)設(shè)施為代表的“新基建”戰(zhàn)略帷幕的拉開,5G、千兆光纖網(wǎng)絡(luò)建設(shè)發(fā)展迅速,移動(dòng)互聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)等領(lǐng)域發(fā)展日新月異。云計(jì)算、數(shù)據(jù)中心、智算中心等基礎(chǔ)設(shè)施快速擴(kuò)容。網(wǎng)絡(luò)帶寬從主流 10G朝著25G、40G、100G、200G甚至400G發(fā)展。網(wǎng)絡(luò)帶寬和連接數(shù)的劇增使得數(shù)據(jù)的通路更寬、更密,直接將處于端、邊、云各處的計(jì)算節(jié)點(diǎn)暴露在了劇增的數(shù)據(jù)量下,而CPU的性能增長率與數(shù)據(jù)量增長率出現(xiàn)了顯著的“剪刀差”現(xiàn)象。所以,尋求效率更高的計(jì)算芯片就成為了業(yè)界的共識(shí)。DPU芯片就是在這樣的趨勢(shì)下提出的。
帶寬增長率(RBP)不平衡
摩爾定律的放緩與全球數(shù)據(jù)量的爆炸式增長之間的矛盾正在迅速加劇,通常被視為處理器專業(yè)化的背景。雖然所謂的硅摩爾定律已經(jīng)明顯放緩,但“數(shù)據(jù)摩爾定律”已經(jīng)到來。IDC數(shù)據(jù)顯示,過去10年全球數(shù)據(jù)量年復(fù)合增長率接近50%,進(jìn)一步預(yù)測(cè)計(jì)算能力需求將每4個(gè)月翻一番。因此,有必要尋找能夠帶來比通用處理器更快的計(jì)算能力增長的新計(jì)算芯片,DPU應(yīng)運(yùn)而生。這個(gè)背景雖然在某種程度上是合理的,但還是太模糊,沒有回答DPU新的原因是什么,什么“量變”導(dǎo)致“質(zhì)變”?
從各種制造商公布的DPU架構(gòu)來看,雖然結(jié)構(gòu)不同,但都強(qiáng)調(diào)網(wǎng)絡(luò)處理能力。從這個(gè)角度來看,DPU是一個(gè)很強(qiáng)的IO芯片,這也是DPU和CPU最大的區(qū)別。CPU的IO性能主要體現(xiàn)在高速的前端總線(FSB,英特爾系統(tǒng)中的前端總線)。CPU通過FSB連接到北橋芯片組,再連接到主存系統(tǒng)和其他高速外設(shè)(主要是PCIe設(shè)備)。目前更新后的CPU通過集成內(nèi)存控制器等手段削弱了北橋芯片的功能,但其本質(zhì)保持不變。CPU處理網(wǎng)絡(luò)處理的能力體現(xiàn)在網(wǎng)卡訪問鏈路層的數(shù)據(jù)幀,然后通過操作系統(tǒng)(OS)的內(nèi)核模式發(fā)起DMA中斷響應(yīng),并調(diào)用相應(yīng)的協(xié)議解析器獲取網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)(雖然也有一些技術(shù)可以在用戶模式下通過輪詢直接獲取網(wǎng)絡(luò)數(shù)據(jù)而不需要內(nèi)核模式中斷,比如英特爾的DPDK、Xilinx的Onload等。但目的是減少中斷開銷和從內(nèi)核模式到用戶模式的切換開銷,這不是根本。可以看出,CPU通過非常間接的手段支持網(wǎng)絡(luò)IO,CPU的前端總線帶寬主要是為了匹配主存(尤其是DDR)的帶寬,而不是網(wǎng)絡(luò)IO的帶寬。
相比之下,DPU的IO帶寬幾乎可以和網(wǎng)絡(luò)帶寬持平。例如,如果網(wǎng)絡(luò)支持25G,那么DPU必須支持25G。從這個(gè)意義上說,DPU繼承了網(wǎng)卡芯片的一些特點(diǎn),但與網(wǎng)卡芯片不同的是,DPU不僅僅是對(duì)鏈路層的數(shù)據(jù)幀進(jìn)行分析,更是對(duì)數(shù)據(jù)內(nèi)容進(jìn)行直接的處理和復(fù)雜的計(jì)算。因此,DPU是在支持強(qiáng)IO的基礎(chǔ)上,擁有強(qiáng)大計(jì)算能力的芯片。簡而言之,DPU是一個(gè)IO密集型芯片;相比之下,DPU是一個(gè)計(jì)算密集型芯片。
此外,通過比較網(wǎng)絡(luò)帶寬與一般CPU的增長趨勢(shì),我們可以發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:帶寬與性能增長率之比的不平衡(RBP)。將RBP定義為網(wǎng)絡(luò)帶寬的增長率高于CPU性能的增長率,即RBP=BWGR/perf . gr如圖1-1說明將Mellanox的ConnectX系列網(wǎng)卡的帶寬作為網(wǎng)絡(luò)IO的情況,將英特爾系列產(chǎn)品的性能作為CPU的情況,定義了一個(gè)新的指標(biāo)“帶寬性能增長率”來反映趨勢(shì)變化。
2010年之前,網(wǎng)絡(luò)帶寬的年增長率在30%左右,2015年略微增長到35%,然后近幾年達(dá)到45%。相應(yīng)的,CPU的性能增長也從10年前的23%下降到了12%,最近幾年更是直接下降到了3%。在這三個(gè)時(shí)間段,RBP指數(shù)從1左右漲到了3,近幾年更是突破了10!如果網(wǎng)絡(luò)帶寬增長率幾乎等于CPU性能增長率,RGR ~ 1,IO壓力還沒有出現(xiàn),那么當(dāng)RBP目前達(dá)到10倍時(shí),CPU幾乎無法直接應(yīng)對(duì)網(wǎng)絡(luò)帶寬增長率。RBP指數(shù)近年來的大幅上漲,可能是DPU最終等待機(jī)會(huì)“誕生”的重要原因之一。
借助異構(gòu)計(jì)算發(fā)展趨勢(shì)
DPU首先充當(dāng)計(jì)算卸載的引擎,直接效果就是“減輕”CPU的負(fù)擔(dān)。DPU的部分功能可以在早期的TOE(TCP/IP卸載引擎)中看到。顧名思義,TOE就是把CPU處理TCP協(xié)議的任務(wù)“卸載”到網(wǎng)卡上。傳統(tǒng)的TCP軟件處理方式雖然層次清晰,但逐漸成為網(wǎng)絡(luò)帶寬和時(shí)延的瓶頸。軟件處理對(duì)CPU的占用也會(huì)影響CPU處理其他應(yīng)用的性能。TCP卸載引擎(TOE)技術(shù),通過將TCP和IP協(xié)議的處理過程移交給網(wǎng)絡(luò)接口控制器進(jìn)行處理,不僅通過硬件加速提高了網(wǎng)絡(luò)延遲和帶寬,還顯著降低了CPU處理協(xié)議的壓力。優(yōu)化有三個(gè)方面:1)隔離網(wǎng)絡(luò)中斷,2)減少內(nèi)存數(shù)據(jù)拷貝,3)基于硬件的協(xié)議分析。這三個(gè)技術(shù)點(diǎn)已經(jīng)逐漸發(fā)展成為數(shù)據(jù)平面計(jì)算的三大技術(shù),也是DPU普遍需要支持的技術(shù)點(diǎn)。比如NVMe協(xié)議用輪詢策略代替中斷策略,充分發(fā)揮高速存儲(chǔ)介質(zhì)的帶寬優(yōu)勢(shì);DPDK采用用戶模式調(diào)用,開發(fā)“Kernelbypassing”機(jī)制,實(shí)現(xiàn)零拷貝(ZEOR-copy);DPU特定應(yīng)用核心,如復(fù)雜校驗(yàn)和計(jì)算、數(shù)據(jù)包格式分析、查找表、IP安全(IPSec)支持等。可以看作是協(xié)議處理的硬件支持。所以,TOE基本上可以算是DPU的雛形。
延續(xù)TOE的思路,將更多的計(jì)算任務(wù)卸載到網(wǎng)卡端進(jìn)行處理,推動(dòng)了SmartNIC技術(shù)的發(fā)展。普通智能網(wǎng)卡的基本結(jié)構(gòu)是以高速網(wǎng)卡為基本功能,以高性能FPGA芯片為計(jì)算擴(kuò)展,實(shí)現(xiàn)用戶自定義的計(jì)算邏輯,達(dá)到計(jì)算加速的目的。然而,這種“網(wǎng)卡FPGA”模式并沒有把智能網(wǎng)卡變成絕對(duì)主流的計(jì)算設(shè)備。很多智能網(wǎng)卡產(chǎn)品都作為簡單的FPGA加速卡使用,既利用了FPGA的優(yōu)勢(shì),又繼承了所有FPGA的局限性。DPU是現(xiàn)有智能網(wǎng)卡的集成,可以看到以前智能網(wǎng)卡的很多影子,但明顯高于以前任何一個(gè)智能網(wǎng)卡的定位。
可見,DPU其實(shí)在業(yè)內(nèi)已經(jīng)孕育了很長時(shí)間。從早期的網(wǎng)絡(luò)協(xié)議處理和卸載到后續(xù)的網(wǎng)絡(luò)、存儲(chǔ)和虛擬化卸載,其作用仍然非常顯著。然而,在此之前,DPU只是“名義上的”,現(xiàn)在是時(shí)候邁出新的一步了。
3.3的發(fā)展歷史。公用事業(yè)局(Department of Public Utilities)
隨著云平臺(tái)虛擬化技術(shù)的發(fā)展,智能網(wǎng)卡的發(fā)展基本可以分為三個(gè)階段(如圖如圖1-2所示):
6999c1fa-3b8a-11ec-82a9-dac502259ad0.png
圖1-2智能卡開發(fā)的三個(gè)階段
階段:基本功能卡
基本網(wǎng)卡(即普通網(wǎng)卡)提供2x10G或2x25G帶寬吞吐量,硬件卸載能力較少,主要是Checksum、LRO/LSO、SR-IOV支持,多隊(duì)列能力有限。云平臺(tái)虛擬化網(wǎng)絡(luò)中,基本功能網(wǎng)卡提供虛擬機(jī)(VM)網(wǎng)絡(luò)訪問的方式主要有三種:操作系統(tǒng)內(nèi)核驅(qū)動(dòng)接管網(wǎng)卡,將網(wǎng)絡(luò)流量分配給VM;OVS-DPDK接管網(wǎng)卡,將網(wǎng)絡(luò)流量分配給虛擬機(jī)(VM);并在高性能場(chǎng)景中通過SR-IOV為虛擬機(jī)提供網(wǎng)絡(luò)訪問能力。
階段:硬件卸載卡
可以認(rèn)為是第一代智能網(wǎng)卡,具有豐富的硬件卸載能力,典型的有OVS Fastpath硬件卸載、基于RoCEv1和RoCEv2的RDMA網(wǎng)絡(luò)硬件卸載、無損網(wǎng)絡(luò)能力(PFC、ECN、ETS等)的硬件卸載。)在融合網(wǎng)絡(luò)中,NVMe-oF存儲(chǔ)域的硬件卸載,以及安全傳輸?shù)臄?shù)據(jù)平面卸載等。在此期間,智能網(wǎng)卡主要卸載數(shù)據(jù)平面。
第三階段:DPU智能卡
可以認(rèn)為是第二代智能網(wǎng)卡。在第一代智能網(wǎng)卡上增加CPU可以用來卸載控制平面的任務(wù)和數(shù)據(jù)平面的一些靈活復(fù)雜的任務(wù)。目前,DPU智能網(wǎng)卡的特點(diǎn)首先是支持PCIe根聯(lián)合體模式和端點(diǎn)模式。配置為PCIe根聯(lián)合體模式時(shí),可實(shí)現(xiàn)NVMe存儲(chǔ)控制器,與NVMe SSD磁盤一起搭建存儲(chǔ)服務(wù)器。
此外,由于大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)的需求,對(duì)無損網(wǎng)絡(luò)的要求更加嚴(yán)格,需要解決數(shù)據(jù)中心網(wǎng)絡(luò)中流量和大象流帶來的網(wǎng)絡(luò)擁塞和延遲問題。各大云廠商都提出了自己的對(duì)策,如阿里巴巴云的高精度擁塞控制(HPCC,高精度共識(shí)控制),AWS的可伸縮可靠數(shù)據(jù)報(bào)(SRD)等。
DPU智能網(wǎng)卡將會(huì)引入更先進(jìn)的方法來解決這類問題,比如DPU智能網(wǎng)卡上的全新解決方案——可替換的TrueFabric。此外,業(yè)界在Hypervisor中提出了網(wǎng)絡(luò)、存儲(chǔ)、安全全棧卸載的發(fā)展方向,以英特爾為代表提出了IPU,將基礎(chǔ)設(shè)施的所有功能卸載到智能網(wǎng)卡上,可以充分釋放之前用于Hypervisor管理的CPU功率。
基于的未來DPU智能卡硬件形式
隨著越來越多的功能被添加到智能網(wǎng)卡中,它的功率將很難被限制在75W,這就需要一個(gè)獨(dú)立的供電系統(tǒng)。因此,未來智能網(wǎng)卡可能有三種形式:
(1)對(duì)于獨(dú)立供電的智能網(wǎng)卡,需要考慮網(wǎng)卡狀態(tài)與計(jì)算服務(wù)之間的低級(jí)信號(hào)識(shí)別,以及智能網(wǎng)卡在計(jì)算系統(tǒng)啟動(dòng)期間或啟動(dòng)后是否已經(jīng)進(jìn)入服務(wù)狀態(tài),這些都需要探索解決。
(2)沒有PCIe接口的DPU智能網(wǎng)卡可以組成DPU資源池,負(fù)責(zé)網(wǎng)絡(luò)功能,如負(fù)載均衡、訪問控制、防火墻設(shè)備等。管理軟件可以通過智能網(wǎng)卡管理接口直接定義相應(yīng)的網(wǎng)絡(luò)功能,作為一個(gè)沒有PCIe接口的虛擬化網(wǎng)絡(luò)功能集群提供相應(yīng)的網(wǎng)絡(luò)能力。
(3)具有多個(gè)PCIe接口和多個(gè)網(wǎng)絡(luò)端口的DPU芯片。例如,F(xiàn)ungible F1芯片支持16個(gè)雙模PCIe控制器,可以配置為Root Complex模式或Endpoint模式以及8x100G網(wǎng)絡(luò)接口。PCIe Gen3 x8接口可支持8臺(tái)Dual-Socket計(jì)算服務(wù)器,網(wǎng)絡(luò)側(cè)提供8x100G帶寬網(wǎng)絡(luò)端口。
作為一種新型專用處理器,隨著需求側(cè)的變化,DPU將成為未來計(jì)算系統(tǒng)的重要組成部分,對(duì)支撐下一代數(shù)據(jù)中心將起到至關(guān)重要的作用。
4.4之間的關(guān)系。DPU和中央處理器和圖形處理器
CPU是整個(gè)IT生態(tài)系統(tǒng)的定義者。無論是服務(wù)器端的x86,還是移動(dòng)端的ARM,都各自構(gòu)建了穩(wěn)定的生態(tài)系統(tǒng),既形成了技術(shù)生態(tài)系統(tǒng),又形成了封閉的價(jià)值鏈。
GPU是執(zhí)行規(guī)則計(jì)算、如圖-shaped渲染的主要芯片。隨著NVIDIA對(duì)通用GPGPU)和CUDA編程框架的推廣,GPU已經(jīng)成為如圖圖像、深度學(xué)習(xí)、矩陣運(yùn)算等數(shù)據(jù)并行任務(wù)中的主計(jì)算引擎,也是高性能計(jì)算中最重要的輔助計(jì)算單元。在2021年6月公布的Top500高性能計(jì)算機(jī)(超級(jí)計(jì)算機(jī))前10名中,有6臺(tái)(第2、3、5、6、8、9)搭載了NVIDIA的GPU。
數(shù)據(jù)中心不同于超極計(jì)算機(jī),其主要面向科學(xué)計(jì)算,如大型飛機(jī)研制、石油勘探、新藥研發(fā)、天氣預(yù)報(bào)、電磁環(huán)境計(jì)算等應(yīng)用,其性能是主要指標(biāo),對(duì)接入帶寬要求不高。但數(shù)據(jù)中心面臨云計(jì)算的商業(yè)應(yīng)用,對(duì)接入帶寬、可靠性、容災(zāi)、靈活擴(kuò)展等有更高的要求。以及虛擬機(jī)、容器云、并行編程框架、內(nèi)容分發(fā)網(wǎng)絡(luò)等技術(shù)。與之配套開發(fā)的,都是為了更好地支持電子商務(wù)、支付、視頻流、網(wǎng)盤、辦公OA等上層商業(yè)應(yīng)用。然而,這些IaaS和PaaS層的服務(wù)成本極高。亞馬遜曾宣布AWS的系統(tǒng)成本超過30%。如果需要更好的服務(wù)質(zhì)量,網(wǎng)絡(luò)、存儲(chǔ)和安全等基礎(chǔ)設(shè)施服務(wù)的成本將會(huì)更高。
這些基礎(chǔ)層的應(yīng)用類型與CPU架構(gòu)匹配度低,導(dǎo)致計(jì)算效率低。現(xiàn)有的CPU架構(gòu)有兩類:多核架構(gòu)(幾個(gè)或幾十個(gè)內(nèi)核)和眾核架構(gòu)(幾百個(gè)或更多內(nèi)核),每種架構(gòu)都支持唯一的標(biāo)準(zhǔn)通用指令集之一,如x86、ARM等。以指令集為邊界,軟硬件分開獨(dú)立開發(fā),迅速推動(dòng)了軟件產(chǎn)業(yè)與微處理器產(chǎn)業(yè)的協(xié)同發(fā)展。然而,隨著軟件復(fù)雜性的增加,軟件的生產(chǎn)力越來越受到重視,軟件工程學(xué)科也更加關(guān)注如何高效地構(gòu)建大規(guī)模軟件系統(tǒng),而不是如何用更少的硬件資源獲得盡可能高的執(zhí)行性能。業(yè)內(nèi)有個(gè)綽號(hào)叫“安迪比爾定律”。它的內(nèi)容是“安迪給的,比爾拿走的”。安迪指的是英特爾前CEO安迪格羅夫,比爾指的是微軟前CEO比爾蓋茨,意思是硬件性能的提升很快被軟件消耗掉。
就像CPU在圖像處理上不夠高效一樣,還有大量的基礎(chǔ)層應(yīng)用在CPU處理上也是低效的,比如網(wǎng)絡(luò)協(xié)議處理、交換路由計(jì)算、加解密、數(shù)據(jù)壓縮等計(jì)算密集型任務(wù),以及支持分布式處理的數(shù)據(jù)一致性協(xié)議,比如RAFT等。這些數(shù)據(jù)或者通過網(wǎng)絡(luò)IO或者通過板級(jí)高速PCIe總線接入系統(tǒng),然后通過共享主存通過DMA機(jī)制提供給CPU或GPU。要處理大量的上層應(yīng)用,要維護(hù)底層軟件的基礎(chǔ)設(shè)施,還要處理各種特殊的IO協(xié)議,復(fù)雜的計(jì)算任務(wù)讓CPU不堪重負(fù)。
5.工業(yè)化的機(jī)會(huì)。公用事業(yè)局(Department of Public Utilities)
數(shù)據(jù)中心作為IT基礎(chǔ)設(shè)施最重要的組成部分,近十年來成為各大高端芯片廠商關(guān)注的焦點(diǎn)。各大廠商用全新的DPU理念重新包裝后,將原有的產(chǎn)品和技術(shù)投放市場(chǎng)。
與此同時(shí),一些互聯(lián)網(wǎng)廠商,如海外的谷歌、亞馬遜、國內(nèi)的阿里巴巴等巨頭紛紛啟動(dòng)了自研芯片計(jì)劃,研發(fā)重點(diǎn)放在數(shù)據(jù)處理器的高性能專用處理器芯片上,希望改善云端服務(wù)器的成本結(jié)構(gòu)和單位能耗的性能水平。數(shù)據(jù)預(yù)測(cè),DPU在云計(jì)算市場(chǎng)的應(yīng)用需求最大,市場(chǎng)規(guī)模將隨著云計(jì)算數(shù)據(jù)中心的迭代而增大。到2025年,僅中國的市場(chǎng)容量就將達(dá)到40億美元。