2
Infiniband 是一種高性能的服務(wù)器連接轉(zhuǎn)換的標(biāo)準(zhǔn)。它的技術(shù)已經(jīng)在全球范圍展開(kāi),能夠把服務(wù)器串列起來(lái),形成數(shù)以千計(jì)的端點(diǎn)。從Prudential Financial 到Sandia National Laboratories, Ifiniband 已經(jīng)成為HPC相互連接選擇的標(biāo)準(zhǔn),並且很快將成為高端企業(yè)數(shù)據(jù)中心的首選標(biāo)準(zhǔn)。
5
InfiniBand是一種交換結(jié)構(gòu)I/O技術(shù),其設(shè)計(jì)思路是通過(guò)一套中心機(jī)構(gòu)(中心InfiniBand交換機(jī))在遠(yuǎn)程存貯器、網(wǎng)絡(luò)以及服務(wù)器等設(shè)備之間建立一個(gè)單一的連接鏈路,并由中心InfiniBand交換機(jī)來(lái)指揮流量,它的結(jié)構(gòu)設(shè)計(jì)得非常緊密,大大提高了系統(tǒng)的性能、可靠性和有效性,能緩解各硬件設(shè)備之間的數(shù)據(jù)流量擁塞。而這是許多共享總線式技術(shù)沒(méi)有解決好的問(wèn)題,例如這是基于PCI的機(jī)器最頭疼的問(wèn)題,甚至最新的PCI-X也存在這個(gè)問(wèn)題,因?yàn)樵诠蚕砜偩環(huán)境中,設(shè)備之間的連接都必須通過(guò)指定的端口建立單獨(dú)的鏈路。
InfiniBand的設(shè)計(jì)主要是圍繞著點(diǎn)對(duì)點(diǎn)以及交換結(jié)構(gòu)I/O技術(shù),這樣,從簡(jiǎn)單廉價(jià)的I/O設(shè)備到復(fù)雜的主機(jī)設(shè)備都能被堆疊的交換設(shè)備連接起來(lái)。如果帶寬、距離等條件適宜,InfiniBand主要支持兩種環(huán)境:模塊對(duì)模塊的計(jì)算機(jī)系統(tǒng)(支持I/O 模塊附加插槽);在數(shù)據(jù)中心環(huán)境中的機(jī)箱對(duì)機(jī)箱的互連系統(tǒng)、外部存儲(chǔ)系統(tǒng)和外部LAN/WAN訪問(wèn)設(shè)備。InfiniBand支持的帶寬比現(xiàn)在主流的I/O載體(如SCSI、Fibre Channel、Ethernet)還要高,此外,由于使用IPv6的報(bào)頭,InfiniBand還支持與傳統(tǒng)Internet/Intranet設(shè)施的有效連接。用InfiniBand技術(shù)替代總線結(jié)構(gòu)所帶來(lái)的最重要的變化就是建立了一個(gè)靈活、高效的數(shù)據(jù)中心,省去了服務(wù)器復(fù)雜的I/O部分。
另外,使用InfiniBand技術(shù)的服務(wù)器可以無(wú)縫地連接到現(xiàn)存的Ethernet LAN和基于通道的光纖存儲(chǔ)網(wǎng)絡(luò)中,而通,F(xiàn)存的服務(wù)器是通過(guò)每個(gè)專用的I/O子系統(tǒng)與LAN、SAN(存儲(chǔ)區(qū)域網(wǎng)絡(luò))直接連接的。這種專用子系統(tǒng)是由冗余的PCI總線、網(wǎng)卡等組成的。在下一代的InfiniBand服務(wù)器與SAN/LAN設(shè)施中,一個(gè)新“層”將會(huì)插進(jìn)來(lái),這一層是由智能交換機(jī)組成,并與服務(wù)器、網(wǎng)絡(luò)模塊(路由器)和存儲(chǔ)模塊互連。
由于服務(wù)器的處理器速度已加速到2GHz,用戶期望獲得更高的服務(wù)器帶寬以應(yīng)對(duì)Web深入的應(yīng)用。但現(xiàn)有的外設(shè)部件互連總線(PCI)明顯造成了I/O瓶頸。
這時(shí)InfiniBand登場(chǎng)了。這
| <OBJECT codeBase=http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=4,0,2,0 height=300 width=360 classid=clsid:D27CDB6E-AE6D-11cf-96B8-444553540000> </OBJECT> |
交換式的I/O技術(shù)
InfiniBand規(guī)范定義了三種連接速度,分別提供2.5 Gbps(1倍速)/10 Gbps(4倍速)/30 Gbps(12倍速)數(shù)據(jù)傳輸能力,雙向能力則達(dá)到5Gbps/20Gbps/60 Gbps,由于采用了8B/10B編碼,有效數(shù)據(jù)通信能力為4Gbps/16Gbps/48Gbps。
其實(shí),InfiniBand的高速實(shí)現(xiàn)道理非常簡(jiǎn)單,即在串行結(jié)構(gòu)中利用了并行——并行銅線越多(多達(dá)48條,12倍速下),你能獲得的帶寬也就越高。在整個(gè)體系結(jié)構(gòu)上,InfiniBand的初始設(shè)計(jì)在拓?fù)浣Y(jié)構(gòu)上類似光纖通道,將通過(guò)InfiniBand中間交換機(jī),利用嵌入式目標(biāo)通道適配器(TCA)把服務(wù)器內(nèi)的主機(jī)通道適配器(HCA)與其他設(shè)備連接起來(lái)。
InfiniBand標(biāo)準(zhǔn)定義了一套用于系統(tǒng)通信的多種設(shè)備,包括通道適配器、交換機(jī)和路由器。 其中,HCA提供了一個(gè)主CPU和存儲(chǔ)器子系統(tǒng)的接口,并支持InfiniBand結(jié)構(gòu)所定義的所有“軟件動(dòng)詞”(Verb)。這里所說(shuō)的“軟件動(dòng)詞”是定義了操作系統(tǒng)廠商可能用來(lái)開(kāi)發(fā)適用API的操作。而TCA則提供InfiniBand到I/O設(shè)備的連接。這種I/O卡可能是一種網(wǎng)絡(luò)接口卡(NIC),它包含了每種設(shè)備特定操作所必需的部分功能。
交換機(jī)是InfiniBand結(jié)構(gòu)中的基本組件。一個(gè)交換機(jī)中有多個(gè)InfiniBand端口,它能根據(jù)本地路由器包頭中所含的第二層地址將數(shù)據(jù)包從其一個(gè)端口送到另外一個(gè)端口。交換機(jī)只是對(duì)數(shù)據(jù)包進(jìn)行管理,并不生成或使用數(shù)據(jù)包。同通道適配器一樣,交換機(jī)也需要實(shí)現(xiàn)子網(wǎng)管理代理(SMA)以響應(yīng)子網(wǎng)管理數(shù)據(jù)包。交換機(jī)可通過(guò)配置來(lái)實(shí)現(xiàn)數(shù)據(jù)包的點(diǎn)播或組播。
InfiniBand路由器用于將數(shù)據(jù)包從一個(gè)子網(wǎng)傳送到另一子網(wǎng),其間數(shù)據(jù)包的數(shù)量不會(huì)變化。與交換機(jī)不同,路由器讀出第三層的全局路由頭并根據(jù)其IPv6網(wǎng)絡(luò)層地址來(lái)進(jìn)行數(shù)據(jù)包發(fā)送。
從上面簡(jiǎn)單介紹可以看出,InfiniBand協(xié)議是一種分層結(jié)構(gòu)。首先是物理層,它允許多路連接直到獲得30Gbps的連接速度。由于采用全雙工串行通信方式,單速的雙向連接只需要4根電纜,在采用12速方式時(shí),只需要48根電纜線,這是非常具有吸引力的,特別是和采用背板連接的90針PCI-X體系結(jié)構(gòu)相比。
鏈路層和傳輸層是其體系結(jié)構(gòu)中最重要的方面。在包通信一級(jí),指定了兩種特殊的包類型,分別代表數(shù)據(jù)傳輸和網(wǎng)絡(luò)管理數(shù)據(jù)包,管理數(shù)據(jù)包提供了設(shè)備枚舉的操作控制、子網(wǎng)指示、容錯(cuò)等功能。數(shù)據(jù)包用來(lái)傳送實(shí)際的數(shù)據(jù)信息,每個(gè)包的最大長(zhǎng)度為4KB,在每個(gè)特定的設(shè)備子網(wǎng)內(nèi),每個(gè)數(shù)據(jù)包的方向和交換通過(guò)本地的16位標(biāo)識(shí)地址的子網(wǎng)管理器完成。
鏈路層可提供InfiniBand架構(gòu)QoS功能的支持。主要的QoS功能是采用虛通道用于互連,即使是單個(gè)數(shù)據(jù)通道也可以定義在硬件級(jí)別,虛通道方式允許16個(gè)邏輯鏈路,15個(gè)獨(dú)立通道和一個(gè)管理通道。因?yàn)楣芾硇枰罡叩膬?yōu)先級(jí),所以可以設(shè)置管理通道具有最高優(yōu)先級(jí)。
InfiniBand的網(wǎng)絡(luò)層提供了包從一個(gè)子網(wǎng)到另一個(gè)子網(wǎng)的路由能力。源和目的節(jié)點(diǎn)的每個(gè)路由包有一個(gè)全局路由頭和一個(gè)128位IPv6地址。網(wǎng)絡(luò)層也嵌入了一個(gè)標(biāo)準(zhǔn)的全局64位標(biāo)識(shí),這個(gè)標(biāo)識(shí)在所有的子網(wǎng)中都是惟一的。通過(guò)這些標(biāo)識(shí)值之間錯(cuò)綜復(fù)雜的交換,允許數(shù)據(jù)跨越多個(gè)子網(wǎng)傳輸。
最后的一層就是數(shù)據(jù)傳輸層,負(fù)責(zé)數(shù)據(jù)包的實(shí)際傳送。傳輸層的功能包括了幾個(gè)關(guān)鍵的方面,如數(shù)據(jù)包分送、通道復(fù)用、基本的傳輸服務(wù);镜木W(wǎng)絡(luò)構(gòu)造特征,如最大串?dāng)?shù)字節(jié)(MTU)和基本傳輸頭(BTH)導(dǎo)向也是隱含在傳輸層的處理之中。
網(wǎng)絡(luò)化的I/O技術(shù)
InfiniBand結(jié)構(gòu)的關(guān)鍵在于通過(guò)采用點(diǎn)到點(diǎn)的交換結(jié)構(gòu)解決共享總線的瓶頸問(wèn)題,這種交換結(jié)構(gòu)專門用于解決容錯(cuò)性和可擴(kuò)展性問(wèn)題。共享總線結(jié)構(gòu)中多個(gè)設(shè)備與總線之間是被動(dòng)連接的,而InfiniBand采用了點(diǎn)到點(diǎn)的連接方式,它通過(guò)一個(gè)帶有有源元件的結(jié)構(gòu)與各個(gè)設(shè)備連接,所有的連接都是點(diǎn)到點(diǎn)的連接,一個(gè)設(shè)備對(duì)應(yīng)一個(gè)終端。因此,同傳統(tǒng)的PCI總線結(jié)構(gòu)不同,InfiniBand結(jié)構(gòu)中鏈路的建立和終止能得到很好的控制。這樣,采用此結(jié)構(gòu)后,通信系統(tǒng)的性能得以優(yōu)化。
InfiniBand本質(zhì)在于把網(wǎng)絡(luò)技術(shù)引入I/O體系之中,形成一個(gè)“I/O交換網(wǎng)”。主機(jī)系統(tǒng)通過(guò)一個(gè)或多個(gè)HCA連接到I/O交換網(wǎng)上。存儲(chǔ)器、網(wǎng)絡(luò)控制器等設(shè)備通過(guò)TCA連接到這個(gè)交換網(wǎng)上。所有InfiniBand適配器用IPv6地址尋址,這一點(diǎn)與所有其他的網(wǎng)絡(luò)節(jié)點(diǎn)一樣。采用IPv6尋址將使其與Internet路由器和網(wǎng)關(guān)的連接更容易、更直接。
另外,應(yīng)該說(shuō)InfiniBand也是一種基于通道的I/O標(biāo)準(zhǔn)。但I(xiàn)nfiniBand沒(méi)有采用類似于PCI的內(nèi)存映像“裝載/存儲(chǔ)”,而是使用了消息傳送的“發(fā)送/接收”模型。其中的端點(diǎn)可尋址能力對(duì)于可靠性是很重要的。適配器負(fù)責(zé)處理傳輸協(xié)議,而InfiniBand 交換機(jī)則負(fù)責(zé)保證信息包到達(dá)其應(yīng)該到達(dá)的地方。這種方式在大型主機(jī)中是十分常見(jiàn)的,如在S/390大型主機(jī)中就有這樣的做法。
InfiniBand的設(shè)計(jì)思想使得“CPU可直接對(duì)網(wǎng)絡(luò)進(jìn)行I /O操作”,并最終到達(dá)直接操作Internet的便利。這樣一套靈活的方法可能會(huì)引發(fā)許多新思路。比如,交換式的設(shè)計(jì)、消息/信息包、寬闊的傳輸通道和延伸的控制機(jī)制,所有這些在今后10年內(nèi)將會(huì)成為增強(qiáng)體系結(jié)構(gòu)和網(wǎng)絡(luò)模式的基礎(chǔ)。
總線技術(shù)規(guī)范演進(jìn)
| PCI | PCI-X* | InfiniBand | |
| 最高I/O性能 | 500Mbps | 1Gbps | 雙線鏈路500Mbps(單向250Mbps);12條鏈路高達(dá)6Gbps |
| 時(shí)延 | 高 | 高 | 非常低 |
| 可伸縮性 | 局限于內(nèi)部現(xiàn)有插槽 | 局限于內(nèi)部現(xiàn)有插槽 | 可在服務(wù)器外擴(kuò)展,每個(gè)子網(wǎng)最多可以支持64000個(gè)設(shè)備 |
| 評(píng)價(jià) | 歷史遺留的總線技術(shù) | 速度更快的PCI并行總線架構(gòu) | 為外部I/O連接而設(shè)計(jì)的高速串行總線架構(gòu) |
*注:最近宣布的PCI-X 2.0規(guī)范的速度可高達(dá)2Gbps。
與3GIO互補(bǔ)
3GIO公布于去年3月的Intel開(kāi)發(fā)商論壇,它最初被稱為NGIO,后又被稱為Arapahoe,今年4月, Intel將3GIO 1.0的技術(shù)規(guī)范移交給PCI-SIG審核,并且被這個(gè)組織正式命名為PCI Express。
3GIO與Infini Band都號(hào)稱下一代的I/O技術(shù),這很容易引起誤會(huì),認(rèn)為兩者是競(jìng)爭(zhēng)取代的。其實(shí)不然。技術(shù)上看,3GIO也是一種串行高速連接,單根3GIO線纜的速度可以達(dá)到206MB/s,32線的速度就是6.4GB/s,大約是PCI-X技術(shù)的6倍。3GIO要到2004年底才會(huì)問(wèn)世。另外,消息傳送技術(shù)是PCI、3GIO及InfiniBand之間的重大區(qū)別。PCI與3GIO采用了裝入并存儲(chǔ)體系結(jié)構(gòu)。數(shù)據(jù)裝入到總線上后,微處理器實(shí)際上要等I/O設(shè)備來(lái)取信息,此后它才可以繼續(xù)處理其他工作。這就好比郵遞員把郵件投入你的郵箱,等你取走郵件他才能離開(kāi)。InfiniBand則采用信息傳送,這好比郵遞員把郵件丟到你的郵箱,等你方便的時(shí)候再去取信。同時(shí),郵遞員可以去投其他信件。因而效率即性能高得多。
就分工而言,我們看到了兩種不同的意見(jiàn)。據(jù)國(guó)外報(bào)道,InfiniBand行業(yè)協(xié)會(huì)認(rèn)為,3GIO專注于芯片間連接技術(shù)。InfiniBand是一種盒子外面(outside the box)的互連,而3GIO是盒子里面(inside the box)的互連,專為內(nèi)存等高速芯片和處理器連接而設(shè)計(jì)的。當(dāng)然,刀片服務(wù)器的背板需要InfiniBand,而這是唯一“盒子里”的應(yīng)用。所以兩者分工明確,共同為服務(wù)器及其應(yīng)用系統(tǒng)提供高通道。
另外一種意見(jiàn)則認(rèn)為,3GIO在視頻外設(shè)、智能輸入等低端應(yīng)用上與InfiniBand確有沖突,但因?yàn)樗鼪](méi)有InfiniBand“組網(wǎng)”的強(qiáng)大功能,所以群集、SAN等高端應(yīng)用方面只是InfiniBand的天下。看來(lái)兩者的高下如何最終還得看市場(chǎng)推廣及用戶應(yīng)用的反應(yīng)。
應(yīng)用目標(biāo)
InfiniBand的應(yīng)用目標(biāo)有三大方面: 直接連接存儲(chǔ)、群集以及刀片式服務(wù)器等新興領(lǐng)域。DAS領(lǐng)域本身就是InfiniBand的設(shè)計(jì)目的。只要存儲(chǔ)設(shè)備支持InfiniBand協(xié)議(通常是加一個(gè)InfiniBand控制器),即可實(shí)現(xiàn)與服務(wù)器的直接連接存儲(chǔ)。但事實(shí)是InfiniBand在網(wǎng)絡(luò)存儲(chǔ)領(lǐng)域發(fā)揮的作用要大得多。比如,博科對(duì)InfiniBand的承諾意味著SAN領(lǐng)域兩種網(wǎng)絡(luò)技術(shù)的交融前景。
利用InfiniBand實(shí)現(xiàn)群集的好處在于低時(shí)延、高性能。群集一般采用以太網(wǎng),如果是高性能計(jì)算機(jī),內(nèi)部也通常采用HIPPI或Myrinet網(wǎng)絡(luò),后兩者的競(jìng)爭(zhēng)力表現(xiàn)在可靠性、可用性上。現(xiàn)在InfiniBand在這方面同樣有出色表現(xiàn)。InfiniBand網(wǎng)可大量擴(kuò)充I/O控制器(大多數(shù)都位于服務(wù)器外部),消除了單點(diǎn)故障。InfiniBand在消息傳送協(xié)議之中還融入了差錯(cuò)管理功能,具有設(shè)備熱增加能力(Hot-Addability),包括設(shè)備查找和注冊(cè)功能,這樣就可以動(dòng)態(tài)管理、修改和擴(kuò)充網(wǎng)絡(luò)。另外,InfiniBand的可層疊交換技術(shù)把集群送到了一條更寬廣的通路上,極大地突破了水平伸縮性。通俗地說(shuō),即它支持“網(wǎng)中套網(wǎng)”,通過(guò)多層InfiniBand網(wǎng)絡(luò)的結(jié)合,主機(jī)內(nèi)存、I/O和其他資源將在不同的InfiniBand子網(wǎng)中實(shí)現(xiàn)共享,一起在集群環(huán)境中發(fā)揮作用。
刀片服務(wù)器應(yīng)用InfiniBand技術(shù),是因?yàn)槿藗兿M袸/O部分移到服務(wù)器外部。如果我們做到這點(diǎn),服務(wù)器會(huì)更薄、更緊湊,這樣我們就能把更多服務(wù)器堆放在一塊,從而獲得更高的密度。技術(shù)上,刀片式架構(gòu)也恰好與InfiniBand架構(gòu)相匹配,兩者的思路都是采用交換式的網(wǎng)絡(luò)通信結(jié)構(gòu),而利用InfiniBand的通信機(jī)制,我們還可以同時(shí)管理刀片服務(wù)器內(nèi)部網(wǎng)絡(luò)以及外連的存儲(chǔ)單元。
產(chǎn)品計(jì)劃
其實(shí)現(xiàn)在談?wù)揑nfiniBand的產(chǎn)品為時(shí)尚早。由于Intel計(jì)劃推遲的原因,比較完備的產(chǎn)品可能得到2004年初面市。但自InfiniBand提出后,許多業(yè)界重要廠商紛紛表示擁護(hù)。據(jù)統(tǒng)計(jì),現(xiàn)有200余家供應(yīng)商聲稱支持InfiniBand,而宣布計(jì)劃推出產(chǎn)品的寥寥無(wú)幾。
一項(xiàng)新技術(shù)的產(chǎn)品計(jì)劃是非常重要的,尤其對(duì)于類似網(wǎng)絡(luò)架構(gòu)的InfiniBand來(lái)說(shuō)。單單InfiniBand沒(méi)法與服務(wù)器協(xié)同工作,這種架構(gòu)包括交換機(jī)、服務(wù)器的HCA和用于I/O設(shè)備如存儲(chǔ)服務(wù)器陣列的TCA。此外,為了連接系統(tǒng)與非InfiniBand資源,也可能需要網(wǎng)關(guān)設(shè)備。
該技術(shù)將最先出現(xiàn)在IA服務(wù)器設(shè)計(jì)上,但應(yīng)該會(huì)遷移至中高檔系統(tǒng)。供應(yīng)商計(jì)劃推出直接連接至服務(wù)器的CPU和內(nèi)存子系統(tǒng)的InfiniBand產(chǎn)品,但這類服務(wù)器的開(kāi)發(fā)工作落后于計(jì)劃。
服務(wù)器 今年晚些時(shí)候,包括戴爾、康柏和IBM在內(nèi)的供應(yīng)商計(jì)劃為一些基于PCI的架構(gòu)服務(wù)器系列提供附加的InfiniBand HBA。板上設(shè)計(jì)定于2003年或2004年推出。到時(shí)也有可能會(huì)出現(xiàn)采用高速InfiniBand背板的刀片式服務(wù)器。IBM稱,它計(jì)劃將這項(xiàng)技術(shù)遷移至中高檔系統(tǒng)。
HCA InfiniBand HCA有望改進(jìn)現(xiàn)有的服務(wù)器群集。重要玩家包括Intel、IBM和Mellanox科技公司。
交換機(jī)和網(wǎng)關(guān) 首批交換機(jī)將來(lái)自InfiniSwitch等新興公司及Brocade和Qlogic等老牌光纖通道設(shè)備供應(yīng)商。Voltaire和Omegaband等新興公司則將提供IP網(wǎng)絡(luò)網(wǎng)關(guān)。
管理軟件 如果沒(méi)有用于網(wǎng)絡(luò)結(jié)構(gòu)的管理軟件,Infini Band就無(wú)法工作。Lane 15軟件公司和VIEO公司是兩家主要開(kāi)發(fā)商。
目標(biāo)設(shè)備 首批InfiniBand存儲(chǔ)設(shè)備可能會(huì)來(lái)自EMC、富士通和IBM公司。
6
InfiniBand是一種交換結(jié)構(gòu)I/O技術(shù),其設(shè)計(jì)思路是通過(guò)一套中心機(jī)構(gòu)(中心InfiniBand交換機(jī))在遠(yuǎn)程存貯器、網(wǎng)絡(luò)以及服務(wù)器等設(shè)備之間建立一個(gè)單一的連接鏈路,并由中心InfiniBand交換機(jī)來(lái)指揮流量,它的結(jié)構(gòu)設(shè)計(jì)得非常緊密,大大提高了系統(tǒng)的性能、可靠性和有效性,能緩解各硬件設(shè)備之間的數(shù)據(jù)流量擁塞。而這是許多共享總線式技術(shù)沒(méi)有解決好的問(wèn)題,例如這是基于PCI的機(jī)器最頭疼的問(wèn)題,甚至最新的PCI-X也存在這個(gè)問(wèn)題,因?yàn)樵诠蚕砜偩環(huán)境中,設(shè)備之間的連接都必須通過(guò)指定的端口建立單獨(dú)的鏈路。
InfiniBand的設(shè)計(jì)主要是圍繞著點(diǎn)對(duì)點(diǎn)以及交換結(jié)構(gòu)I/O技術(shù),這樣,從簡(jiǎn)單廉價(jià)的I/O設(shè)備到復(fù)雜的主機(jī)設(shè)備都能被堆疊的交換設(shè)備連接起來(lái)。如果帶寬、距離等條件適宜,InfiniBand主要支持兩種環(huán)境:模塊對(duì)模塊的計(jì)算機(jī)系統(tǒng)(支持I/O 模塊附加插槽);在數(shù)據(jù)中心環(huán)境中的機(jī)箱對(duì)機(jī)箱的互連系統(tǒng)、外部存儲(chǔ)系統(tǒng)和外部LAN/WAN訪問(wèn)設(shè)備。InfiniBand支持的帶寬比現(xiàn)在主流的I/O載體(如SCSI、Fibre Channel、Ethernet)還要高,此外,由于使用IPv6的報(bào)頭,InfiniBand還支持與傳統(tǒng)Internet/Intranet設(shè)施的有效連接。用InfiniBand技術(shù)替代總線結(jié)構(gòu)所帶來(lái)的最重要的變化就是建立了一個(gè)靈活、高效的數(shù)據(jù)中心,省去了服務(wù)器復(fù)雜的I/O部分。
另外,使用InfiniBand技術(shù)的服務(wù)器可以無(wú)縫地連接到現(xiàn)存的Ethernet LAN和基于通道的光纖存儲(chǔ)網(wǎng)絡(luò)中,而通,F(xiàn)存的服務(wù)器是通過(guò)每個(gè)專用的I/O子系統(tǒng)與LAN、SAN(存儲(chǔ)區(qū)域網(wǎng)絡(luò))直接連接的。這種專用子系統(tǒng)是由冗余的PCI總線、網(wǎng)卡等組成的。在下一代的InfiniBand服務(wù)器與SAN/LAN設(shè)施中,一個(gè)新“層”將會(huì)插進(jìn)來(lái),這一層是由智能交換機(jī)組成,并與服務(wù)器、網(wǎng)絡(luò)模塊(路由器)和存儲(chǔ)模塊互連。
由于服務(wù)器的處理器速度已加速到2GHz,用戶期望獲得更高的服務(wù)器帶寬以應(yīng)對(duì)Web深入的應(yīng)用。但現(xiàn)有的外設(shè)部件互連總線(PCI)明顯造成了I/O瓶頸。
這時(shí)InfiniBand登場(chǎng)了。這
| <OBJECT codeBase=http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=4,0,2,0 height=300 width=360 classid=clsid:D27CDB6E-AE6D-11cf-96B8-444553540000> </OBJECT> |
交換式的I/O技術(shù)
InfiniBand規(guī)范定義了三種連接速度,分別提供2.5 Gbps(1倍速)/10 Gbps(4倍速)/30 Gbps(12倍速)數(shù)據(jù)傳輸能力,雙向能力則達(dá)到5Gbps/20Gbps/60 Gbps,由于采用了8B/10B編碼,有效數(shù)據(jù)通信能力為4Gbps/16Gbps/48Gbps。
其實(shí),InfiniBand的高速實(shí)現(xiàn)道理非常簡(jiǎn)單,即在串行結(jié)構(gòu)中利用了并行——并行銅線越多(多達(dá)48條,12倍速下),你能獲得的帶寬也就越高。在整個(gè)體系結(jié)構(gòu)上,InfiniBand的初始設(shè)計(jì)在拓?fù)浣Y(jié)構(gòu)上類似光纖通道,將通過(guò)InfiniBand中間交換機(jī),利用嵌入式目標(biāo)通道適配器(TCA)把服務(wù)器內(nèi)的主機(jī)通道適配器(HCA)與其他設(shè)備連接起來(lái)。
InfiniBand標(biāo)準(zhǔn)定義了一套用于系統(tǒng)通信的多種設(shè)備,包括通道適配器、交換機(jī)和路由器。 其中,HCA提供了一個(gè)主CPU和存儲(chǔ)器子系統(tǒng)的接口,并支持InfiniBand結(jié)構(gòu)所定義的所有“軟件動(dòng)詞”(Verb)。這里所說(shuō)的“軟件動(dòng)詞”是定義了操作系統(tǒng)廠商可能用來(lái)開(kāi)發(fā)適用API的操作。而TCA則提供InfiniBand到I/O設(shè)備的連接。這種I/O卡可能是一種網(wǎng)絡(luò)接口卡(NIC),它包含了每種設(shè)備特定操作所必需的部分功能。
交換機(jī)是InfiniBand結(jié)構(gòu)中的基本組件。一個(gè)交換機(jī)中有多個(gè)InfiniBand端口,它能根據(jù)本地路由器包頭中所含的第二層地址將數(shù)據(jù)包從其一個(gè)端口送到另外一個(gè)端口。交換機(jī)只是對(duì)數(shù)據(jù)包進(jìn)行管理,并不生成或使用數(shù)據(jù)包。同通道適配器一樣,交換機(jī)也需要實(shí)現(xiàn)子網(wǎng)管理代理(SMA)以響應(yīng)子網(wǎng)管理數(shù)據(jù)包。交換機(jī)可通過(guò)配置來(lái)實(shí)現(xiàn)數(shù)據(jù)包的點(diǎn)播或組播。
InfiniBand路由器用于將數(shù)據(jù)包從一個(gè)子網(wǎng)傳送到另一子網(wǎng),其間數(shù)據(jù)包的數(shù)量不會(huì)變化。與交換機(jī)不同,路由器讀出第三層的全局路由頭并根據(jù)其IPv6網(wǎng)絡(luò)層地址來(lái)進(jìn)行數(shù)據(jù)包發(fā)送。
從上面簡(jiǎn)單介紹可以看出,InfiniBand協(xié)議是一種分層結(jié)構(gòu)。首先是物理層,它允許多路連接直到獲得30Gbps的連接速度。由于采用全雙工串行通信方式,單速的雙向連接只需要4根電纜,在采用12速方式時(shí),只需要48根電纜線,這是非常具有吸引力的,特別是和采用背板連接的90針PCI-X體系結(jié)構(gòu)相比。
鏈路層和傳輸層是其體系結(jié)構(gòu)中最重要的方面。在包通信一級(jí),指定了兩種特殊的包類型,分別代表數(shù)據(jù)傳輸和網(wǎng)絡(luò)管理數(shù)據(jù)包,管理數(shù)據(jù)包提供了設(shè)備枚舉的操作控制、子網(wǎng)指示、容錯(cuò)等功能。數(shù)據(jù)包用來(lái)傳送實(shí)際的數(shù)據(jù)信息,每個(gè)包的最大長(zhǎng)度為4KB,在每個(gè)特定的設(shè)備子網(wǎng)內(nèi),每個(gè)數(shù)據(jù)包的方向和交換通過(guò)本地的16位標(biāo)識(shí)地址的子網(wǎng)管理器完成。
鏈路層可提供InfiniBand架構(gòu)QoS功能的支持。主要的QoS功能是采用虛通道用于互連,即使是單個(gè)數(shù)據(jù)通道也可以定義在硬件級(jí)別,虛通道方式允許16個(gè)邏輯鏈路,15個(gè)獨(dú)立通道和一個(gè)管理通道。因?yàn)楣芾硇枰罡叩膬?yōu)先級(jí),所以可以設(shè)置管理通道具有最高優(yōu)先級(jí)。
InfiniBand的網(wǎng)絡(luò)層提供了包從一個(gè)子網(wǎng)到另一個(gè)子網(wǎng)的路由能力。源和目的節(jié)點(diǎn)的每個(gè)路由包有一個(gè)全局路由頭和一個(gè)128位IPv6地址。網(wǎng)絡(luò)層也嵌入了一個(gè)標(biāo)準(zhǔn)的全局64位標(biāo)識(shí),這個(gè)標(biāo)識(shí)在所有的子網(wǎng)中都是惟一的。通過(guò)這些標(biāo)識(shí)值之間錯(cuò)綜復(fù)雜的交換,允許數(shù)據(jù)跨越多個(gè)子網(wǎng)傳輸。
最后的一層就是數(shù)據(jù)傳輸層,負(fù)責(zé)數(shù)據(jù)包的實(shí)際傳送。傳輸層的功能包括了幾個(gè)關(guān)鍵的方面,如數(shù)據(jù)包分送、通道復(fù)用、基本的傳輸服務(wù)。基本的網(wǎng)絡(luò)構(gòu)造特征,如最大串?dāng)?shù)字節(jié)(MTU)和基本傳輸頭(BTH)導(dǎo)向也是隱含在傳輸層的處理之中。
網(wǎng)絡(luò)化的I/O技術(shù)
InfiniBand結(jié)構(gòu)的關(guān)鍵在于通過(guò)采用點(diǎn)到點(diǎn)的交換結(jié)構(gòu)解決共享總線的瓶頸問(wèn)題,這種交換結(jié)構(gòu)專門用于解決容錯(cuò)性和可擴(kuò)展性問(wèn)題。共享總線結(jié)構(gòu)中多個(gè)設(shè)備與總線之間是被動(dòng)連接的,而InfiniBand采用了點(diǎn)到點(diǎn)的連接方式,它通過(guò)一個(gè)帶有有源元件的結(jié)構(gòu)與各個(gè)設(shè)備連接,所有的連接都是點(diǎn)到點(diǎn)的連接,一個(gè)設(shè)備對(duì)應(yīng)一個(gè)終端。因此,同傳統(tǒng)的PCI總線結(jié)構(gòu)不同,InfiniBand結(jié)構(gòu)中鏈路的建立和終止能得到很好的控制。這樣,采用此結(jié)構(gòu)后,通信系統(tǒng)的性能得以優(yōu)化。
InfiniBand本質(zhì)在于把網(wǎng)絡(luò)技術(shù)引入I/O體系之中,形成一個(gè)“I/O交換網(wǎng)”。主機(jī)系統(tǒng)通過(guò)一個(gè)或多個(gè)HCA連接到I/O交換網(wǎng)上。存儲(chǔ)器、網(wǎng)絡(luò)控制器等設(shè)備通過(guò)TCA連接到這個(gè)交換網(wǎng)上。所有InfiniBand適配器用IPv6地址尋址,這一點(diǎn)與所有其他的網(wǎng)絡(luò)節(jié)點(diǎn)一樣。采用IPv6尋址將使其與Internet路由器和網(wǎng)關(guān)的連接更容易、更直接。
另外,應(yīng)該說(shuō)InfiniBand也是一種基于通道的I/O標(biāo)準(zhǔn)。但I(xiàn)nfiniBand沒(méi)有采用類似于PCI的內(nèi)存映像“裝載/存儲(chǔ)”,而是使用了消息傳送的“發(fā)送/接收”模型。其中的端點(diǎn)可尋址能力對(duì)于可靠性是很重要的。適配器負(fù)責(zé)處理傳輸協(xié)議,而InfiniBand 交換機(jī)則負(fù)責(zé)保證信息包到達(dá)其應(yīng)該到達(dá)的地方。這種方式在大型主機(jī)中是十分常見(jiàn)的,如在S/390大型主機(jī)中就有這樣的做法。
InfiniBand的設(shè)計(jì)思想使得“CPU可直接對(duì)網(wǎng)絡(luò)進(jìn)行I /O操作”,并最終到達(dá)直接操作Internet的便利。這樣一套靈活的方法可能會(huì)引發(fā)許多新思路。比如,交換式的設(shè)計(jì)、消息/信息包、寬闊的傳輸通道和延伸的控制機(jī)制,所有這些在今后10年內(nèi)將會(huì)成為增強(qiáng)體系結(jié)構(gòu)和網(wǎng)絡(luò)模式的基礎(chǔ)。
總線技術(shù)規(guī)范演進(jìn)
| PCI | PCI-X* | InfiniBand | |
| 最高I/O性能 | 500Mbps | 1Gbps | 雙線鏈路500Mbps(單向250Mbps);12條鏈路高達(dá)6Gbps |
| 時(shí)延 | 高 | 高 | 非常低 |
| 可伸縮性 | 局限于內(nèi)部現(xiàn)有插槽 | 局限于內(nèi)部現(xiàn)有插槽 | 可在服務(wù)器外擴(kuò)展,每個(gè)子網(wǎng)最多可以支持64000個(gè)設(shè)備 |
| 評(píng)價(jià) | 歷史遺留的總線技術(shù) | 速度更快的PCI并行總線架構(gòu) | 為外部I/O連接而設(shè)計(jì)的高速串行總線架構(gòu) |
*注:最近宣布的PCI-X 2.0規(guī)范的速度可高達(dá)2Gbps。
與3GIO互補(bǔ)
3GIO公布于去年3月的Intel開(kāi)發(fā)商論壇,它最初被稱為NGIO,后又被稱為Arapahoe,今年4月, Intel將3GIO 1.0的技術(shù)規(guī)范移交給PCI-SIG審核,并且被這個(gè)組織正式命名為PCI Express。
3GIO與Infini Band都號(hào)稱下一代的I/O技術(shù),這很容易引起誤會(huì),認(rèn)為兩者是競(jìng)爭(zhēng)取代的。其實(shí)不然。技術(shù)上看,3GIO也是一種串行高速連接,單根3GIO線纜的速度可以達(dá)到206MB/s,32線的速度就是6.4GB/s,大約是PCI-X技術(shù)的6倍。3GIO要到2004年底才會(huì)問(wèn)世。另外,消息傳送技術(shù)是PCI、3GIO及InfiniBand之間的重大區(qū)別。PCI與3GIO采用了裝入并存儲(chǔ)體系結(jié)構(gòu)。數(shù)據(jù)裝入到總線上后,微處理器實(shí)際上要等I/O設(shè)備來(lái)取信息,此后它才可以繼續(xù)處理其他工作。這就好比郵遞員把郵件投入你的郵箱,等你取走郵件他才能離開(kāi)。InfiniBand則采用信息傳送,這好比郵遞員把郵件丟到你的郵箱,等你方便的時(shí)候再去取信。同時(shí),郵遞員可以去投其他信件。因而效率即性能高得多。
就分工而言,我們看到了兩種不同的意見(jiàn)。據(jù)國(guó)外報(bào)道,InfiniBand行業(yè)協(xié)會(huì)認(rèn)為,3GIO專注于芯片間連接技術(shù)。InfiniBand是一種盒子外面(outside the box)的互連,而3GIO是盒子里面(inside the box)的互連,專為內(nèi)存等高速芯片和處理器連接而設(shè)計(jì)的。當(dāng)然,刀片服務(wù)器的背板需要InfiniBand,而這是唯一“盒子里”的應(yīng)用。所以兩者分工明確,共同為服務(wù)器及其應(yīng)用系統(tǒng)提供高通道。
另外一種意見(jiàn)則認(rèn)為,3GIO在視頻外設(shè)、智能輸入等低端應(yīng)用上與InfiniBand確有沖突,但因?yàn)樗鼪](méi)有InfiniBand“組網(wǎng)”的強(qiáng)大功能,所以群集、SAN等高端應(yīng)用方面只是InfiniBand的天下?磥(lái)兩者的高下如何最終還得看市場(chǎng)推廣及用戶應(yīng)用的反應(yīng)。
應(yīng)用目標(biāo)
InfiniBand的應(yīng)用目標(biāo)有三大方面: 直接連接存儲(chǔ)、群集以及刀片式服務(wù)器等新興領(lǐng)域。DAS領(lǐng)域本身就是InfiniBand的設(shè)計(jì)目的。只要存儲(chǔ)設(shè)備支持InfiniBand協(xié)議(通常是加一個(gè)InfiniBand控制器),即可實(shí)現(xiàn)與服務(wù)器的直接連接存儲(chǔ)。但事實(shí)是InfiniBand在網(wǎng)絡(luò)存儲(chǔ)領(lǐng)域發(fā)揮的作用要大得多。比如,博科對(duì)InfiniBand的承諾意味著SAN領(lǐng)域兩種網(wǎng)絡(luò)技術(shù)的交融前景。
利用InfiniBand實(shí)現(xiàn)群集的好處在于低時(shí)延、高性能。群集一般采用以太網(wǎng),如果是高性能計(jì)算機(jī),內(nèi)部也通常采用HIPPI或Myrinet網(wǎng)絡(luò),后兩者的競(jìng)爭(zhēng)力表現(xiàn)在可靠性、可用性上。現(xiàn)在InfiniBand在這方面同樣有出色表現(xiàn)。InfiniBand網(wǎng)可大量擴(kuò)充I/O控制器(大多數(shù)都位于服務(wù)器外部),消除了單點(diǎn)故障。InfiniBand在消息傳送協(xié)議之中還融入了差錯(cuò)管理功能,具有設(shè)備熱增加能力(Hot-Addability),包括設(shè)備查找和注冊(cè)功能,這樣就可以動(dòng)態(tài)管理、修改和擴(kuò)充網(wǎng)絡(luò)。另外,InfiniBand的可層疊交換技術(shù)把集群送到了一條更寬廣的通路上,極大地突破了水平伸縮性。通俗地說(shuō),即它支持“網(wǎng)中套網(wǎng)”,通過(guò)多層InfiniBand網(wǎng)絡(luò)的結(jié)合,主機(jī)內(nèi)存、I/O和其他資源將在不同的InfiniBand子網(wǎng)中實(shí)現(xiàn)共享,一起在集群環(huán)境中發(fā)揮作用。
刀片服務(wù)器應(yīng)用InfiniBand技術(shù),是因?yàn)槿藗兿M袸/O部分移到服務(wù)器外部。如果我們做到這點(diǎn),服務(wù)器會(huì)更薄、更緊湊,這樣我們就能把更多服務(wù)器堆放在一塊,從而獲得更高的密度。技術(shù)上,刀片式架構(gòu)也恰好與InfiniBand架構(gòu)相匹配,兩者的思路都是采用交換式的網(wǎng)絡(luò)通信結(jié)構(gòu),而利用InfiniBand的通信機(jī)制,我們還可以同時(shí)管理刀片服務(wù)器內(nèi)部網(wǎng)絡(luò)以及外連的存儲(chǔ)單元。
產(chǎn)品計(jì)劃
其實(shí)現(xiàn)在談?wù)揑nfiniBand的產(chǎn)品為時(shí)尚早。由于Intel計(jì)劃推遲的原因,比較完備的產(chǎn)品可能得到2004年初面市。但自InfiniBand提出后,許多業(yè)界重要廠商紛紛表示擁護(hù)。據(jù)統(tǒng)計(jì),現(xiàn)有200余家供應(yīng)商聲稱支持InfiniBand,而宣布計(jì)劃推出產(chǎn)品的寥寥無(wú)幾。
一項(xiàng)新技術(shù)的產(chǎn)品計(jì)劃是非常重要的,尤其對(duì)于類似網(wǎng)絡(luò)架構(gòu)的InfiniBand來(lái)說(shuō)。單單InfiniBand沒(méi)法與服務(wù)器協(xié)同工作,這種架構(gòu)包括交換機(jī)、服務(wù)器的HCA和用于I/O設(shè)備如存儲(chǔ)服務(wù)器陣列的TCA。此外,為了連接系統(tǒng)與非InfiniBand資源,也可能需要網(wǎng)關(guān)設(shè)備。
該技術(shù)將最先出現(xiàn)在IA服務(wù)器設(shè)計(jì)上,但應(yīng)該會(huì)遷移至中高檔系統(tǒng)。供應(yīng)商計(jì)劃推出直接連接至服務(wù)器的CPU和內(nèi)存子系統(tǒng)的InfiniBand產(chǎn)品,但這類服務(wù)器的開(kāi)發(fā)工作落后于計(jì)劃。
服務(wù)器 今年晚些時(shí)候,包括戴爾、康柏和IBM在內(nèi)的供應(yīng)商計(jì)劃為一些基于PCI的架構(gòu)服務(wù)器系列提供附加的InfiniBand HBA。板上設(shè)計(jì)定于2003年或2004年推出。到時(shí)也有可能會(huì)出現(xiàn)采用高速InfiniBand背板的刀片式服務(wù)器。IBM稱,它計(jì)劃將這項(xiàng)技術(shù)遷移至中高檔系統(tǒng)。
HCA InfiniBand HCA有望改進(jìn)現(xiàn)有的服務(wù)器群集。重要玩家包括Intel、IBM和Mellanox科技公司。
交換機(jī)和網(wǎng)關(guān) 首批交換機(jī)將來(lái)自InfiniSwitch等新興公司及Brocade和Qlogic等老牌光纖通道設(shè)備供應(yīng)商。Voltaire和Omegaband等新興公司則將提供IP網(wǎng)絡(luò)網(wǎng)關(guān)。
管理軟件 如果沒(méi)有用于網(wǎng)絡(luò)結(jié)構(gòu)的管理軟件,Infini Band就無(wú)法工作。Lane 15軟件公司和VIEO公司是兩家主要開(kāi)發(fā)商。
目標(biāo)設(shè)備 首批InfiniBand存儲(chǔ)設(shè)備可能會(huì)來(lái)自EMC、富士通和IBM公司。
