2
Infiniband 是一種高性能的服務(wù)器連接轉(zhuǎn)換的標(biāo)準(zhǔn)。它的技術(shù)已經(jīng)在全球范圍展開,能夠把服務(wù)器串列起來,形成數(shù)以千計的端點。從Prudential Financial 到Sandia National Laboratories, Ifiniband 已經(jīng)成為HPC相互連接選擇的標(biāo)準(zhǔn),並且很快將成為高端企業(yè)數(shù)據(jù)中心的首選標(biāo)準(zhǔn)。
5
InfiniBand是一種交換結(jié)構(gòu)I/O技術(shù),其設(shè)計思路是通過一套中心機構(gòu)(中心InfiniBand交換機)在遠(yuǎn)程存貯器、網(wǎng)絡(luò)以及服務(wù)器等設(shè)備之間建立一個單一的連接鏈路,并由中心InfiniBand交換機來指揮流量,它的結(jié)構(gòu)設(shè)計得非常緊密,大大提高了系統(tǒng)的性能、可靠性和有效性,能緩解各硬件設(shè)備之間的數(shù)據(jù)流量擁塞。而這是許多共享總線式技術(shù)沒有解決好的問題,例如這是基于PCI的機器最頭疼的問題,甚至最新的PCI-X也存在這個問題,因為在共享總線環(huán)境中,設(shè)備之間的連接都必須通過指定的端口建立單獨的鏈路。
InfiniBand的設(shè)計主要是圍繞著點對點以及交換結(jié)構(gòu)I/O技術(shù),這樣,從簡單廉價的I/O設(shè)備到復(fù)雜的主機設(shè)備都能被堆疊的交換設(shè)備連接起來。如果帶寬、距離等條件適宜,InfiniBand主要支持兩種環(huán)境:模塊對模塊的計算機系統(tǒng)(支持I/O 模塊附加插槽);在數(shù)據(jù)中心環(huán)境中的機箱對機箱的互連系統(tǒng)、外部存儲系統(tǒng)和外部LAN/WAN訪問設(shè)備。InfiniBand支持的帶寬比現(xiàn)在主流的I/O載體(如SCSI、Fibre Channel、Ethernet)還要高,此外,由于使用IPv6的報頭,InfiniBand還支持與傳統(tǒng)Internet/Intranet設(shè)施的有效連接。用InfiniBand技術(shù)替代總線結(jié)構(gòu)所帶來的最重要的變化就是建立了一個靈活、高效的數(shù)據(jù)中心,省去了服務(wù)器復(fù)雜的I/O部分。
另外,使用InfiniBand技術(shù)的服務(wù)器可以無縫地連接到現(xiàn)存的Ethernet LAN和基于通道的光纖存儲網(wǎng)絡(luò)中,而通,F(xiàn)存的服務(wù)器是通過每個專用的I/O子系統(tǒng)與LAN、SAN(存儲區(qū)域網(wǎng)絡(luò))直接連接的。這種專用子系統(tǒng)是由冗余的PCI總線、網(wǎng)卡等組成的。在下一代的InfiniBand服務(wù)器與SAN/LAN設(shè)施中,一個新“層”將會插進來,這一層是由智能交換機組成,并與服務(wù)器、網(wǎng)絡(luò)模塊(路由器)和存儲模塊互連。
由于服務(wù)器的處理器速度已加速到2GHz,用戶期望獲得更高的服務(wù)器帶寬以應(yīng)對Web深入的應(yīng)用。但現(xiàn)有的外設(shè)部件互連總線(PCI)明顯造成了I/O瓶頸。
這時InfiniBand登場了。這
| <OBJECT codeBase=http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=4,0,2,0 height=300 width=360 classid=clsid:D27CDB6E-AE6D-11cf-96B8-444553540000> </OBJECT> |
交換式的I/O技術(shù)
InfiniBand規(guī)范定義了三種連接速度,分別提供2.5 Gbps(1倍速)/10 Gbps(4倍速)/30 Gbps(12倍速)數(shù)據(jù)傳輸能力,雙向能力則達(dá)到5Gbps/20Gbps/60 Gbps,由于采用了8B/10B編碼,有效數(shù)據(jù)通信能力為4Gbps/16Gbps/48Gbps。
其實,InfiniBand的高速實現(xiàn)道理非常簡單,即在串行結(jié)構(gòu)中利用了并行——并行銅線越多(多達(dá)48條,12倍速下),你能獲得的帶寬也就越高。在整個體系結(jié)構(gòu)上,InfiniBand的初始設(shè)計在拓?fù)浣Y(jié)構(gòu)上類似光纖通道,將通過InfiniBand中間交換機,利用嵌入式目標(biāo)通道適配器(TCA)把服務(wù)器內(nèi)的主機通道適配器(HCA)與其他設(shè)備連接起來。
InfiniBand標(biāo)準(zhǔn)定義了一套用于系統(tǒng)通信的多種設(shè)備,包括通道適配器、交換機和路由器。 其中,HCA提供了一個主CPU和存儲器子系統(tǒng)的接口,并支持InfiniBand結(jié)構(gòu)所定義的所有“軟件動詞”(Verb)。這里所說的“軟件動詞”是定義了操作系統(tǒng)廠商可能用來開發(fā)適用API的操作。而TCA則提供InfiniBand到I/O設(shè)備的連接。這種I/O卡可能是一種網(wǎng)絡(luò)接口卡(NIC),它包含了每種設(shè)備特定操作所必需的部分功能。
交換機是InfiniBand結(jié)構(gòu)中的基本組件。一個交換機中有多個InfiniBand端口,它能根據(jù)本地路由器包頭中所含的第二層地址將數(shù)據(jù)包從其一個端口送到另外一個端口。交換機只是對數(shù)據(jù)包進行管理,并不生成或使用數(shù)據(jù)包。同通道適配器一樣,交換機也需要實現(xiàn)子網(wǎng)管理代理(SMA)以響應(yīng)子網(wǎng)管理數(shù)據(jù)包。交換機可通過配置來實現(xiàn)數(shù)據(jù)包的點播或組播。
InfiniBand路由器用于將數(shù)據(jù)包從一個子網(wǎng)傳送到另一子網(wǎng),其間數(shù)據(jù)包的數(shù)量不會變化。與交換機不同,路由器讀出第三層的全局路由頭并根據(jù)其IPv6網(wǎng)絡(luò)層地址來進行數(shù)據(jù)包發(fā)送。
從上面簡單介紹可以看出,InfiniBand協(xié)議是一種分層結(jié)構(gòu)。首先是物理層,它允許多路連接直到獲得30Gbps的連接速度。由于采用全雙工串行通信方式,單速的雙向連接只需要4根電纜,在采用12速方式時,只需要48根電纜線,這是非常具有吸引力的,特別是和采用背板連接的90針PCI-X體系結(jié)構(gòu)相比。
鏈路層和傳輸層是其體系結(jié)構(gòu)中最重要的方面。在包通信一級,指定了兩種特殊的包類型,分別代表數(shù)據(jù)傳輸和網(wǎng)絡(luò)管理數(shù)據(jù)包,管理數(shù)據(jù)包提供了設(shè)備枚舉的操作控制、子網(wǎng)指示、容錯等功能。數(shù)據(jù)包用來傳送實際的數(shù)據(jù)信息,每個包的最大長度為4KB,在每個特定的設(shè)備子網(wǎng)內(nèi),每個數(shù)據(jù)包的方向和交換通過本地的16位標(biāo)識地址的子網(wǎng)管理器完成。
鏈路層可提供InfiniBand架構(gòu)QoS功能的支持。主要的QoS功能是采用虛通道用于互連,即使是單個數(shù)據(jù)通道也可以定義在硬件級別,虛通道方式允許16個邏輯鏈路,15個獨立通道和一個管理通道。因為管理需要最高的優(yōu)先級,所以可以設(shè)置管理通道具有最高優(yōu)先級。
InfiniBand的網(wǎng)絡(luò)層提供了包從一個子網(wǎng)到另一個子網(wǎng)的路由能力。源和目的節(jié)點的每個路由包有一個全局路由頭和一個128位IPv6地址。網(wǎng)絡(luò)層也嵌入了一個標(biāo)準(zhǔn)的全局64位標(biāo)識,這個標(biāo)識在所有的子網(wǎng)中都是惟一的。通過這些標(biāo)識值之間錯綜復(fù)雜的交換,允許數(shù)據(jù)跨越多個子網(wǎng)傳輸。
最后的一層就是數(shù)據(jù)傳輸層,負(fù)責(zé)數(shù)據(jù)包的實際傳送。傳輸層的功能包括了幾個關(guān)鍵的方面,如數(shù)據(jù)包分送、通道復(fù)用、基本的傳輸服務(wù);镜木W(wǎng)絡(luò)構(gòu)造特征,如最大串?dāng)?shù)字節(jié)(MTU)和基本傳輸頭(BTH)導(dǎo)向也是隱含在傳輸層的處理之中。
網(wǎng)絡(luò)化的I/O技術(shù)
InfiniBand結(jié)構(gòu)的關(guān)鍵在于通過采用點到點的交換結(jié)構(gòu)解決共享總線的瓶頸問題,這種交換結(jié)構(gòu)專門用于解決容錯性和可擴展性問題。共享總線結(jié)構(gòu)中多個設(shè)備與總線之間是被動連接的,而InfiniBand采用了點到點的連接方式,它通過一個帶有有源元件的結(jié)構(gòu)與各個設(shè)備連接,所有的連接都是點到點的連接,一個設(shè)備對應(yīng)一個終端。因此,同傳統(tǒng)的PCI總線結(jié)構(gòu)不同,InfiniBand結(jié)構(gòu)中鏈路的建立和終止能得到很好的控制。這樣,采用此結(jié)構(gòu)后,通信系統(tǒng)的性能得以優(yōu)化。
InfiniBand本質(zhì)在于把網(wǎng)絡(luò)技術(shù)引入I/O體系之中,形成一個“I/O交換網(wǎng)”。主機系統(tǒng)通過一個或多個HCA連接到I/O交換網(wǎng)上。存儲器、網(wǎng)絡(luò)控制器等設(shè)備通過TCA連接到這個交換網(wǎng)上。所有InfiniBand適配器用IPv6地址尋址,這一點與所有其他的網(wǎng)絡(luò)節(jié)點一樣。采用IPv6尋址將使其與Internet路由器和網(wǎng)關(guān)的連接更容易、更直接。
另外,應(yīng)該說InfiniBand也是一種基于通道的I/O標(biāo)準(zhǔn)。但I(xiàn)nfiniBand沒有采用類似于PCI的內(nèi)存映像“裝載/存儲”,而是使用了消息傳送的“發(fā)送/接收”模型。其中的端點可尋址能力對于可靠性是很重要的。適配器負(fù)責(zé)處理傳輸協(xié)議,而InfiniBand 交換機則負(fù)責(zé)保證信息包到達(dá)其應(yīng)該到達(dá)的地方。這種方式在大型主機中是十分常見的,如在S/390大型主機中就有這樣的做法。
InfiniBand的設(shè)計思想使得“CPU可直接對網(wǎng)絡(luò)進行I /O操作”,并最終到達(dá)直接操作Internet的便利。這樣一套靈活的方法可能會引發(fā)許多新思路。比如,交換式的設(shè)計、消息/信息包、寬闊的傳輸通道和延伸的控制機制,所有這些在今后10年內(nèi)將會成為增強體系結(jié)構(gòu)和網(wǎng)絡(luò)模式的基礎(chǔ)。
總線技術(shù)規(guī)范演進
| PCI | PCI-X* | InfiniBand | |
| 最高I/O性能 | 500Mbps | 1Gbps | 雙線鏈路500Mbps(單向250Mbps);12條鏈路高達(dá)6Gbps |
| 時延 | 高 | 高 | 非常低 |
| 可伸縮性 | 局限于內(nèi)部現(xiàn)有插槽 | 局限于內(nèi)部現(xiàn)有插槽 | 可在服務(wù)器外擴展,每個子網(wǎng)最多可以支持64000個設(shè)備 |
| 評價 | 歷史遺留的總線技術(shù) | 速度更快的PCI并行總線架構(gòu) | 為外部I/O連接而設(shè)計的高速串行總線架構(gòu) |
*注:最近宣布的PCI-X 2.0規(guī)范的速度可高達(dá)2Gbps。
與3GIO互補
3GIO公布于去年3月的Intel開發(fā)商論壇,它最初被稱為NGIO,后又被稱為Arapahoe,今年4月, Intel將3GIO 1.0的技術(shù)規(guī)范移交給PCI-SIG審核,并且被這個組織正式命名為PCI Express。
3GIO與Infini Band都號稱下一代的I/O技術(shù),這很容易引起誤會,認(rèn)為兩者是競爭取代的。其實不然。技術(shù)上看,3GIO也是一種串行高速連接,單根3GIO線纜的速度可以達(dá)到206MB/s,32線的速度就是6.4GB/s,大約是PCI-X技術(shù)的6倍。3GIO要到2004年底才會問世。另外,消息傳送技術(shù)是PCI、3GIO及InfiniBand之間的重大區(qū)別。PCI與3GIO采用了裝入并存儲體系結(jié)構(gòu)。數(shù)據(jù)裝入到總線上后,微處理器實際上要等I/O設(shè)備來取信息,此后它才可以繼續(xù)處理其他工作。這就好比郵遞員把郵件投入你的郵箱,等你取走郵件他才能離開。InfiniBand則采用信息傳送,這好比郵遞員把郵件丟到你的郵箱,等你方便的時候再去取信。同時,郵遞員可以去投其他信件。因而效率即性能高得多。
就分工而言,我們看到了兩種不同的意見。據(jù)國外報道,InfiniBand行業(yè)協(xié)會認(rèn)為,3GIO專注于芯片間連接技術(shù)。InfiniBand是一種盒子外面(outside the box)的互連,而3GIO是盒子里面(inside the box)的互連,專為內(nèi)存等高速芯片和處理器連接而設(shè)計的。當(dāng)然,刀片服務(wù)器的背板需要InfiniBand,而這是唯一“盒子里”的應(yīng)用。所以兩者分工明確,共同為服務(wù)器及其應(yīng)用系統(tǒng)提供高通道。
另外一種意見則認(rèn)為,3GIO在視頻外設(shè)、智能輸入等低端應(yīng)用上與InfiniBand確有沖突,但因為它沒有InfiniBand“組網(wǎng)”的強大功能,所以群集、SAN等高端應(yīng)用方面只是InfiniBand的天下?磥韮烧叩母呦氯绾巫罱K還得看市場推廣及用戶應(yīng)用的反應(yīng)。
應(yīng)用目標(biāo)
InfiniBand的應(yīng)用目標(biāo)有三大方面: 直接連接存儲、群集以及刀片式服務(wù)器等新興領(lǐng)域。DAS領(lǐng)域本身就是InfiniBand的設(shè)計目的。只要存儲設(shè)備支持InfiniBand協(xié)議(通常是加一個InfiniBand控制器),即可實現(xiàn)與服務(wù)器的直接連接存儲。但事實是InfiniBand在網(wǎng)絡(luò)存儲領(lǐng)域發(fā)揮的作用要大得多。比如,博科對InfiniBand的承諾意味著SAN領(lǐng)域兩種網(wǎng)絡(luò)技術(shù)的交融前景。
利用InfiniBand實現(xiàn)群集的好處在于低時延、高性能。群集一般采用以太網(wǎng),如果是高性能計算機,內(nèi)部也通常采用HIPPI或Myrinet網(wǎng)絡(luò),后兩者的競爭力表現(xiàn)在可靠性、可用性上,F(xiàn)在InfiniBand在這方面同樣有出色表現(xiàn)。InfiniBand網(wǎng)可大量擴充I/O控制器(大多數(shù)都位于服務(wù)器外部),消除了單點故障。InfiniBand在消息傳送協(xié)議之中還融入了差錯管理功能,具有設(shè)備熱增加能力(Hot-Addability),包括設(shè)備查找和注冊功能,這樣就可以動態(tài)管理、修改和擴充網(wǎng)絡(luò)。另外,InfiniBand的可層疊交換技術(shù)把集群送到了一條更寬廣的通路上,極大地突破了水平伸縮性。通俗地說,即它支持“網(wǎng)中套網(wǎng)”,通過多層InfiniBand網(wǎng)絡(luò)的結(jié)合,主機內(nèi)存、I/O和其他資源將在不同的InfiniBand子網(wǎng)中實現(xiàn)共享,一起在集群環(huán)境中發(fā)揮作用。
刀片服務(wù)器應(yīng)用InfiniBand技術(shù),是因為人們希望把I/O部分移到服務(wù)器外部。如果我們做到這點,服務(wù)器會更薄、更緊湊,這樣我們就能把更多服務(wù)器堆放在一塊,從而獲得更高的密度。技術(shù)上,刀片式架構(gòu)也恰好與InfiniBand架構(gòu)相匹配,兩者的思路都是采用交換式的網(wǎng)絡(luò)通信結(jié)構(gòu),而利用InfiniBand的通信機制,我們還可以同時管理刀片服務(wù)器內(nèi)部網(wǎng)絡(luò)以及外連的存儲單元。
產(chǎn)品計劃
其實現(xiàn)在談?wù)揑nfiniBand的產(chǎn)品為時尚早。由于Intel計劃推遲的原因,比較完備的產(chǎn)品可能得到2004年初面市。但自InfiniBand提出后,許多業(yè)界重要廠商紛紛表示擁護。據(jù)統(tǒng)計,現(xiàn)有200余家供應(yīng)商聲稱支持InfiniBand,而宣布計劃推出產(chǎn)品的寥寥無幾。
一項新技術(shù)的產(chǎn)品計劃是非常重要的,尤其對于類似網(wǎng)絡(luò)架構(gòu)的InfiniBand來說。單單InfiniBand沒法與服務(wù)器協(xié)同工作,這種架構(gòu)包括交換機、服務(wù)器的HCA和用于I/O設(shè)備如存儲服務(wù)器陣列的TCA。此外,為了連接系統(tǒng)與非InfiniBand資源,也可能需要網(wǎng)關(guān)設(shè)備。
該技術(shù)將最先出現(xiàn)在IA服務(wù)器設(shè)計上,但應(yīng)該會遷移至中高檔系統(tǒng)。供應(yīng)商計劃推出直接連接至服務(wù)器的CPU和內(nèi)存子系統(tǒng)的InfiniBand產(chǎn)品,但這類服務(wù)器的開發(fā)工作落后于計劃。
服務(wù)器 今年晚些時候,包括戴爾、康柏和IBM在內(nèi)的供應(yīng)商計劃為一些基于PCI的架構(gòu)服務(wù)器系列提供附加的InfiniBand HBA。板上設(shè)計定于2003年或2004年推出。到時也有可能會出現(xiàn)采用高速InfiniBand背板的刀片式服務(wù)器。IBM稱,它計劃將這項技術(shù)遷移至中高檔系統(tǒng)。
HCA InfiniBand HCA有望改進現(xiàn)有的服務(wù)器群集。重要玩家包括Intel、IBM和Mellanox科技公司。
交換機和網(wǎng)關(guān) 首批交換機將來自InfiniSwitch等新興公司及Brocade和Qlogic等老牌光纖通道設(shè)備供應(yīng)商。Voltaire和Omegaband等新興公司則將提供IP網(wǎng)絡(luò)網(wǎng)關(guān)。
管理軟件 如果沒有用于網(wǎng)絡(luò)結(jié)構(gòu)的管理軟件,Infini Band就無法工作。Lane 15軟件公司和VIEO公司是兩家主要開發(fā)商。
目標(biāo)設(shè)備 首批InfiniBand存儲設(shè)備可能會來自EMC、富士通和IBM公司。
6
InfiniBand是一種交換結(jié)構(gòu)I/O技術(shù),其設(shè)計思路是通過一套中心機構(gòu)(中心InfiniBand交換機)在遠(yuǎn)程存貯器、網(wǎng)絡(luò)以及服務(wù)器等設(shè)備之間建立一個單一的連接鏈路,并由中心InfiniBand交換機來指揮流量,它的結(jié)構(gòu)設(shè)計得非常緊密,大大提高了系統(tǒng)的性能、可靠性和有效性,能緩解各硬件設(shè)備之間的數(shù)據(jù)流量擁塞。而這是許多共享總線式技術(shù)沒有解決好的問題,例如這是基于PCI的機器最頭疼的問題,甚至最新的PCI-X也存在這個問題,因為在共享總線環(huán)境中,設(shè)備之間的連接都必須通過指定的端口建立單獨的鏈路。
InfiniBand的設(shè)計主要是圍繞著點對點以及交換結(jié)構(gòu)I/O技術(shù),這樣,從簡單廉價的I/O設(shè)備到復(fù)雜的主機設(shè)備都能被堆疊的交換設(shè)備連接起來。如果帶寬、距離等條件適宜,InfiniBand主要支持兩種環(huán)境:模塊對模塊的計算機系統(tǒng)(支持I/O 模塊附加插槽);在數(shù)據(jù)中心環(huán)境中的機箱對機箱的互連系統(tǒng)、外部存儲系統(tǒng)和外部LAN/WAN訪問設(shè)備。InfiniBand支持的帶寬比現(xiàn)在主流的I/O載體(如SCSI、Fibre Channel、Ethernet)還要高,此外,由于使用IPv6的報頭,InfiniBand還支持與傳統(tǒng)Internet/Intranet設(shè)施的有效連接。用InfiniBand技術(shù)替代總線結(jié)構(gòu)所帶來的最重要的變化就是建立了一個靈活、高效的數(shù)據(jù)中心,省去了服務(wù)器復(fù)雜的I/O部分。
另外,使用InfiniBand技術(shù)的服務(wù)器可以無縫地連接到現(xiàn)存的Ethernet LAN和基于通道的光纖存儲網(wǎng)絡(luò)中,而通,F(xiàn)存的服務(wù)器是通過每個專用的I/O子系統(tǒng)與LAN、SAN(存儲區(qū)域網(wǎng)絡(luò))直接連接的。這種專用子系統(tǒng)是由冗余的PCI總線、網(wǎng)卡等組成的。在下一代的InfiniBand服務(wù)器與SAN/LAN設(shè)施中,一個新“層”將會插進來,這一層是由智能交換機組成,并與服務(wù)器、網(wǎng)絡(luò)模塊(路由器)和存儲模塊互連。
由于服務(wù)器的處理器速度已加速到2GHz,用戶期望獲得更高的服務(wù)器帶寬以應(yīng)對Web深入的應(yīng)用。但現(xiàn)有的外設(shè)部件互連總線(PCI)明顯造成了I/O瓶頸。
這時InfiniBand登場了。這
| <OBJECT codeBase=http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=4,0,2,0 height=300 width=360 classid=clsid:D27CDB6E-AE6D-11cf-96B8-444553540000> </OBJECT> |
交換式的I/O技術(shù)
InfiniBand規(guī)范定義了三種連接速度,分別提供2.5 Gbps(1倍速)/10 Gbps(4倍速)/30 Gbps(12倍速)數(shù)據(jù)傳輸能力,雙向能力則達(dá)到5Gbps/20Gbps/60 Gbps,由于采用了8B/10B編碼,有效數(shù)據(jù)通信能力為4Gbps/16Gbps/48Gbps。
其實,InfiniBand的高速實現(xiàn)道理非常簡單,即在串行結(jié)構(gòu)中利用了并行——并行銅線越多(多達(dá)48條,12倍速下),你能獲得的帶寬也就越高。在整個體系結(jié)構(gòu)上,InfiniBand的初始設(shè)計在拓?fù)浣Y(jié)構(gòu)上類似光纖通道,將通過InfiniBand中間交換機,利用嵌入式目標(biāo)通道適配器(TCA)把服務(wù)器內(nèi)的主機通道適配器(HCA)與其他設(shè)備連接起來。
InfiniBand標(biāo)準(zhǔn)定義了一套用于系統(tǒng)通信的多種設(shè)備,包括通道適配器、交換機和路由器。 其中,HCA提供了一個主CPU和存儲器子系統(tǒng)的接口,并支持InfiniBand結(jié)構(gòu)所定義的所有“軟件動詞”(Verb)。這里所說的“軟件動詞”是定義了操作系統(tǒng)廠商可能用來開發(fā)適用API的操作。而TCA則提供InfiniBand到I/O設(shè)備的連接。這種I/O卡可能是一種網(wǎng)絡(luò)接口卡(NIC),它包含了每種設(shè)備特定操作所必需的部分功能。
交換機是InfiniBand結(jié)構(gòu)中的基本組件。一個交換機中有多個InfiniBand端口,它能根據(jù)本地路由器包頭中所含的第二層地址將數(shù)據(jù)包從其一個端口送到另外一個端口。交換機只是對數(shù)據(jù)包進行管理,并不生成或使用數(shù)據(jù)包。同通道適配器一樣,交換機也需要實現(xiàn)子網(wǎng)管理代理(SMA)以響應(yīng)子網(wǎng)管理數(shù)據(jù)包。交換機可通過配置來實現(xiàn)數(shù)據(jù)包的點播或組播。
InfiniBand路由器用于將數(shù)據(jù)包從一個子網(wǎng)傳送到另一子網(wǎng),其間數(shù)據(jù)包的數(shù)量不會變化。與交換機不同,路由器讀出第三層的全局路由頭并根據(jù)其IPv6網(wǎng)絡(luò)層地址來進行數(shù)據(jù)包發(fā)送。
從上面簡單介紹可以看出,InfiniBand協(xié)議是一種分層結(jié)構(gòu)。首先是物理層,它允許多路連接直到獲得30Gbps的連接速度。由于采用全雙工串行通信方式,單速的雙向連接只需要4根電纜,在采用12速方式時,只需要48根電纜線,這是非常具有吸引力的,特別是和采用背板連接的90針PCI-X體系結(jié)構(gòu)相比。
鏈路層和傳輸層是其體系結(jié)構(gòu)中最重要的方面。在包通信一級,指定了兩種特殊的包類型,分別代表數(shù)據(jù)傳輸和網(wǎng)絡(luò)管理數(shù)據(jù)包,管理數(shù)據(jù)包提供了設(shè)備枚舉的操作控制、子網(wǎng)指示、容錯等功能。數(shù)據(jù)包用來傳送實際的數(shù)據(jù)信息,每個包的最大長度為4KB,在每個特定的設(shè)備子網(wǎng)內(nèi),每個數(shù)據(jù)包的方向和交換通過本地的16位標(biāo)識地址的子網(wǎng)管理器完成。
鏈路層可提供InfiniBand架構(gòu)QoS功能的支持。主要的QoS功能是采用虛通道用于互連,即使是單個數(shù)據(jù)通道也可以定義在硬件級別,虛通道方式允許16個邏輯鏈路,15個獨立通道和一個管理通道。因為管理需要最高的優(yōu)先級,所以可以設(shè)置管理通道具有最高優(yōu)先級。
InfiniBand的網(wǎng)絡(luò)層提供了包從一個子網(wǎng)到另一個子網(wǎng)的路由能力。源和目的節(jié)點的每個路由包有一個全局路由頭和一個128位IPv6地址。網(wǎng)絡(luò)層也嵌入了一個標(biāo)準(zhǔn)的全局64位標(biāo)識,這個標(biāo)識在所有的子網(wǎng)中都是惟一的。通過這些標(biāo)識值之間錯綜復(fù)雜的交換,允許數(shù)據(jù)跨越多個子網(wǎng)傳輸。
最后的一層就是數(shù)據(jù)傳輸層,負(fù)責(zé)數(shù)據(jù)包的實際傳送。傳輸層的功能包括了幾個關(guān)鍵的方面,如數(shù)據(jù)包分送、通道復(fù)用、基本的傳輸服務(wù);镜木W(wǎng)絡(luò)構(gòu)造特征,如最大串?dāng)?shù)字節(jié)(MTU)和基本傳輸頭(BTH)導(dǎo)向也是隱含在傳輸層的處理之中。
網(wǎng)絡(luò)化的I/O技術(shù)
InfiniBand結(jié)構(gòu)的關(guān)鍵在于通過采用點到點的交換結(jié)構(gòu)解決共享總線的瓶頸問題,這種交換結(jié)構(gòu)專門用于解決容錯性和可擴展性問題。共享總線結(jié)構(gòu)中多個設(shè)備與總線之間是被動連接的,而InfiniBand采用了點到點的連接方式,它通過一個帶有有源元件的結(jié)構(gòu)與各個設(shè)備連接,所有的連接都是點到點的連接,一個設(shè)備對應(yīng)一個終端。因此,同傳統(tǒng)的PCI總線結(jié)構(gòu)不同,InfiniBand結(jié)構(gòu)中鏈路的建立和終止能得到很好的控制。這樣,采用此結(jié)構(gòu)后,通信系統(tǒng)的性能得以優(yōu)化。
InfiniBand本質(zhì)在于把網(wǎng)絡(luò)技術(shù)引入I/O體系之中,形成一個“I/O交換網(wǎng)”。主機系統(tǒng)通過一個或多個HCA連接到I/O交換網(wǎng)上。存儲器、網(wǎng)絡(luò)控制器等設(shè)備通過TCA連接到這個交換網(wǎng)上。所有InfiniBand適配器用IPv6地址尋址,這一點與所有其他的網(wǎng)絡(luò)節(jié)點一樣。采用IPv6尋址將使其與Internet路由器和網(wǎng)關(guān)的連接更容易、更直接。
另外,應(yīng)該說InfiniBand也是一種基于通道的I/O標(biāo)準(zhǔn)。但I(xiàn)nfiniBand沒有采用類似于PCI的內(nèi)存映像“裝載/存儲”,而是使用了消息傳送的“發(fā)送/接收”模型。其中的端點可尋址能力對于可靠性是很重要的。適配器負(fù)責(zé)處理傳輸協(xié)議,而InfiniBand 交換機則負(fù)責(zé)保證信息包到達(dá)其應(yīng)該到達(dá)的地方。這種方式在大型主機中是十分常見的,如在S/390大型主機中就有這樣的做法。
InfiniBand的設(shè)計思想使得“CPU可直接對網(wǎng)絡(luò)進行I /O操作”,并最終到達(dá)直接操作Internet的便利。這樣一套靈活的方法可能會引發(fā)許多新思路。比如,交換式的設(shè)計、消息/信息包、寬闊的傳輸通道和延伸的控制機制,所有這些在今后10年內(nèi)將會成為增強體系結(jié)構(gòu)和網(wǎng)絡(luò)模式的基礎(chǔ)。
總線技術(shù)規(guī)范演進
| PCI | PCI-X* | InfiniBand | |
| 最高I/O性能 | 500Mbps | 1Gbps | 雙線鏈路500Mbps(單向250Mbps);12條鏈路高達(dá)6Gbps |
| 時延 | 高 | 高 | 非常低 |
| 可伸縮性 | 局限于內(nèi)部現(xiàn)有插槽 | 局限于內(nèi)部現(xiàn)有插槽 | 可在服務(wù)器外擴展,每個子網(wǎng)最多可以支持64000個設(shè)備 |
| 評價 | 歷史遺留的總線技術(shù) | 速度更快的PCI并行總線架構(gòu) | 為外部I/O連接而設(shè)計的高速串行總線架構(gòu) |
*注:最近宣布的PCI-X 2.0規(guī)范的速度可高達(dá)2Gbps。
與3GIO互補
3GIO公布于去年3月的Intel開發(fā)商論壇,它最初被稱為NGIO,后又被稱為Arapahoe,今年4月, Intel將3GIO 1.0的技術(shù)規(guī)范移交給PCI-SIG審核,并且被這個組織正式命名為PCI Express。
3GIO與Infini Band都號稱下一代的I/O技術(shù),這很容易引起誤會,認(rèn)為兩者是競爭取代的。其實不然。技術(shù)上看,3GIO也是一種串行高速連接,單根3GIO線纜的速度可以達(dá)到206MB/s,32線的速度就是6.4GB/s,大約是PCI-X技術(shù)的6倍。3GIO要到2004年底才會問世。另外,消息傳送技術(shù)是PCI、3GIO及InfiniBand之間的重大區(qū)別。PCI與3GIO采用了裝入并存儲體系結(jié)構(gòu)。數(shù)據(jù)裝入到總線上后,微處理器實際上要等I/O設(shè)備來取信息,此后它才可以繼續(xù)處理其他工作。這就好比郵遞員把郵件投入你的郵箱,等你取走郵件他才能離開。InfiniBand則采用信息傳送,這好比郵遞員把郵件丟到你的郵箱,等你方便的時候再去取信。同時,郵遞員可以去投其他信件。因而效率即性能高得多。
就分工而言,我們看到了兩種不同的意見。據(jù)國外報道,InfiniBand行業(yè)協(xié)會認(rèn)為,3GIO專注于芯片間連接技術(shù)。InfiniBand是一種盒子外面(outside the box)的互連,而3GIO是盒子里面(inside the box)的互連,專為內(nèi)存等高速芯片和處理器連接而設(shè)計的。當(dāng)然,刀片服務(wù)器的背板需要InfiniBand,而這是唯一“盒子里”的應(yīng)用。所以兩者分工明確,共同為服務(wù)器及其應(yīng)用系統(tǒng)提供高通道。
另外一種意見則認(rèn)為,3GIO在視頻外設(shè)、智能輸入等低端應(yīng)用上與InfiniBand確有沖突,但因為它沒有InfiniBand“組網(wǎng)”的強大功能,所以群集、SAN等高端應(yīng)用方面只是InfiniBand的天下?磥韮烧叩母呦氯绾巫罱K還得看市場推廣及用戶應(yīng)用的反應(yīng)。
應(yīng)用目標(biāo)
InfiniBand的應(yīng)用目標(biāo)有三大方面: 直接連接存儲、群集以及刀片式服務(wù)器等新興領(lǐng)域。DAS領(lǐng)域本身就是InfiniBand的設(shè)計目的。只要存儲設(shè)備支持InfiniBand協(xié)議(通常是加一個InfiniBand控制器),即可實現(xiàn)與服務(wù)器的直接連接存儲。但事實是InfiniBand在網(wǎng)絡(luò)存儲領(lǐng)域發(fā)揮的作用要大得多。比如,博科對InfiniBand的承諾意味著SAN領(lǐng)域兩種網(wǎng)絡(luò)技術(shù)的交融前景。
利用InfiniBand實現(xiàn)群集的好處在于低時延、高性能。群集一般采用以太網(wǎng),如果是高性能計算機,內(nèi)部也通常采用HIPPI或Myrinet網(wǎng)絡(luò),后兩者的競爭力表現(xiàn)在可靠性、可用性上,F(xiàn)在InfiniBand在這方面同樣有出色表現(xiàn)。InfiniBand網(wǎng)可大量擴充I/O控制器(大多數(shù)都位于服務(wù)器外部),消除了單點故障。InfiniBand在消息傳送協(xié)議之中還融入了差錯管理功能,具有設(shè)備熱增加能力(Hot-Addability),包括設(shè)備查找和注冊功能,這樣就可以動態(tài)管理、修改和擴充網(wǎng)絡(luò)。另外,InfiniBand的可層疊交換技術(shù)把集群送到了一條更寬廣的通路上,極大地突破了水平伸縮性。通俗地說,即它支持“網(wǎng)中套網(wǎng)”,通過多層InfiniBand網(wǎng)絡(luò)的結(jié)合,主機內(nèi)存、I/O和其他資源將在不同的InfiniBand子網(wǎng)中實現(xiàn)共享,一起在集群環(huán)境中發(fā)揮作用。
刀片服務(wù)器應(yīng)用InfiniBand技術(shù),是因為人們希望把I/O部分移到服務(wù)器外部。如果我們做到這點,服務(wù)器會更薄、更緊湊,這樣我們就能把更多服務(wù)器堆放在一塊,從而獲得更高的密度。技術(shù)上,刀片式架構(gòu)也恰好與InfiniBand架構(gòu)相匹配,兩者的思路都是采用交換式的網(wǎng)絡(luò)通信結(jié)構(gòu),而利用InfiniBand的通信機制,我們還可以同時管理刀片服務(wù)器內(nèi)部網(wǎng)絡(luò)以及外連的存儲單元。
產(chǎn)品計劃
其實現(xiàn)在談?wù)揑nfiniBand的產(chǎn)品為時尚早。由于Intel計劃推遲的原因,比較完備的產(chǎn)品可能得到2004年初面市。但自InfiniBand提出后,許多業(yè)界重要廠商紛紛表示擁護。據(jù)統(tǒng)計,現(xiàn)有200余家供應(yīng)商聲稱支持InfiniBand,而宣布計劃推出產(chǎn)品的寥寥無幾。
一項新技術(shù)的產(chǎn)品計劃是非常重要的,尤其對于類似網(wǎng)絡(luò)架構(gòu)的InfiniBand來說。單單InfiniBand沒法與服務(wù)器協(xié)同工作,這種架構(gòu)包括交換機、服務(wù)器的HCA和用于I/O設(shè)備如存儲服務(wù)器陣列的TCA。此外,為了連接系統(tǒng)與非InfiniBand資源,也可能需要網(wǎng)關(guān)設(shè)備。
該技術(shù)將最先出現(xiàn)在IA服務(wù)器設(shè)計上,但應(yīng)該會遷移至中高檔系統(tǒng)。供應(yīng)商計劃推出直接連接至服務(wù)器的CPU和內(nèi)存子系統(tǒng)的InfiniBand產(chǎn)品,但這類服務(wù)器的開發(fā)工作落后于計劃。
服務(wù)器 今年晚些時候,包括戴爾、康柏和IBM在內(nèi)的供應(yīng)商計劃為一些基于PCI的架構(gòu)服務(wù)器系列提供附加的InfiniBand HBA。板上設(shè)計定于2003年或2004年推出。到時也有可能會出現(xiàn)采用高速InfiniBand背板的刀片式服務(wù)器。IBM稱,它計劃將這項技術(shù)遷移至中高檔系統(tǒng)。
HCA InfiniBand HCA有望改進現(xiàn)有的服務(wù)器群集。重要玩家包括Intel、IBM和Mellanox科技公司。
交換機和網(wǎng)關(guān) 首批交換機將來自InfiniSwitch等新興公司及Brocade和Qlogic等老牌光纖通道設(shè)備供應(yīng)商。Voltaire和Omegaband等新興公司則將提供IP網(wǎng)絡(luò)網(wǎng)關(guān)。
管理軟件 如果沒有用于網(wǎng)絡(luò)結(jié)構(gòu)的管理軟件,Infini Band就無法工作。Lane 15軟件公司和VIEO公司是兩家主要開發(fā)商。
目標(biāo)設(shè)備 首批InfiniBand存儲設(shè)備可能會來自EMC、富士通和IBM公司。
