1.1 二層網(wǎng)絡(luò)規(guī)劃(Layer2)通常部署相同應(yīng)用的服務(wù)器要求在同二層廣播域內(nèi)。方便業(yè)務(wù)的部署,擴展和搬遷,要求數(shù)據(jù)中心之間服務(wù)器盡量二層可達。如上面所述,傳統(tǒng)的數(shù)據(jù)中心通常通過按照分區(qū)劃分二層網(wǎng)絡(luò),即每個分區(qū)是一個二層廣播域。 云計算在數(shù)據(jù)中心廣泛應(yīng)用,要求服務(wù)器資源大范圍資源共享、虛擬機大范圍遷移。因此數(shù)據(jù)中心的網(wǎng)絡(luò)具備靈活的二層擴展能力。但基于xSTP的二層網(wǎng)絡(luò)網(wǎng)絡(luò)技術(shù)在擴展和可靠性存在很多缺陷。很多解決二層擴展能力技術(shù)出現(xiàn),包括基于設(shè)備的虛擬化的CSS/iStack, 基于傳統(tǒng)以太擴展的TRILL,基于IP的overlay技術(shù)vxlan等。 二層網(wǎng)絡(luò)范圍和采用什么二層技術(shù),是數(shù)據(jù)中心基礎(chǔ)網(wǎng)絡(luò)的關(guān)鍵。
1.1.1 二層部署規(guī)劃建議從業(yè)務(wù)發(fā)展的趨勢看,數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)必須具備靈活的二層擴展能力。保證業(yè)務(wù)靈活部署和擴展,以及資源的更大范圍共享。 二層網(wǎng)絡(luò)設(shè)計需要綜合考慮設(shè)備能力,可靠性,業(yè)務(wù)安全。因此二層網(wǎng)絡(luò)規(guī)模不能太大。建議大型數(shù)據(jù)中心劃分為少量幾個大型業(yè)務(wù)分區(qū)。以業(yè)務(wù)分區(qū)為單位構(gòu)建二層網(wǎng)絡(luò)區(qū)域,業(yè)務(wù)分區(qū)之間按需實現(xiàn)二層連接。典型組網(wǎng)如下圖所示: 業(yè)務(wù)分區(qū)內(nèi)部二層構(gòu)建方案詳見下面的幾節(jié)。分區(qū)間之間二層可以應(yīng)用VXLAN或者EVN等技術(shù)。 1.1.2 二層技術(shù)比較
1.2 設(shè)備虛擬化組網(wǎng)方案規(guī)劃1.2.1 跨設(shè)備鏈路聚合(M-LAG)組網(wǎng)方案
跨設(shè)備鏈路聚合即M-LAG,英文全稱(Multi-Chassis Link Aggregation Group),是一種跨網(wǎng)絡(luò)設(shè)備的二層端口虛擬化技術(shù),兩個設(shè)備有獨立的控制平面,但支持把兩個設(shè)備的端口組成鏈路捆綁。
如上圖所示,M-LAG配對交換機對外提供M-LAG接口,用于接入二層業(yè)務(wù);M-LAG配對交換機之間部署Peer-Link,用于MC-LAG協(xié)議消息交互,以及設(shè)備間橫向業(yè)務(wù)流量轉(zhuǎn)發(fā);從三層視角看,M-LAG的配對設(shè)備又是兩個獨立的設(shè)備,可以支持獨立的網(wǎng)管,并作為獨立的OSPF路由節(jié)點。同時,M-LAG支持本地優(yōu)先轉(zhuǎn)發(fā),最大程度減少M-LAG配對設(shè)備之間的東西向流量。M-LAG支持雙主檢測,由于兩臺配對設(shè)備為獨立設(shè)備,因此通過帶內(nèi)或者帶外的IP可達檢測即可達到目的,不需要為此另外加線纜。 M-LAG組網(wǎng)建議
組網(wǎng)方案一:匯聚層使能M-LAG功能 通過跨設(shè)備端口虛擬化技術(shù)(M-LAG),實現(xiàn)匯聚層和接入層交換機之間的網(wǎng)絡(luò)邏輯無環(huán)化,取代STP。匯聚層兩臺交換機配對,匯聚交換機之間橫向鏈路配置為peer-link。兩臺匯聚交換機下行連接同一接入交換機的端口配置為跨框的ETH-trunk. 這種設(shè)計相對傳統(tǒng)的STP斷點保護,邏輯拓撲更加清晰、鏈路利用更加高效。M-LAG的配對設(shè)備,控制平面和管理平面獨立,只有協(xié)議面的耦合,理論上可靠性相對堆疊更高,還提供設(shè)備獨立升級的能力,帶來維護的方便性。
組網(wǎng)方案二:接入層使能M-LAG功能 同樣M-LAG技術(shù)適用于服務(wù)器雙網(wǎng)卡要求雙活接入的應(yīng)用場景。服務(wù)器雙活接入兩網(wǎng)卡共享MAC。雙網(wǎng)卡實現(xiàn)基于流的負載分擔策略。因此,通過M-LAG將服務(wù)器連接的端口配置為ETH-Trunk,兩個端口的MAC和ARP表項同步。M-LAG可以結(jié)合普通以太,TRILL,VXLAN等技術(shù)實現(xiàn)服務(wù)器雙活接入。 【M-LAG部署應(yīng)用限制: 組成M-LAG的兩端設(shè)備類型要保持一致。如一端是SVF系統(tǒng),另一端要求必須也是SVF系統(tǒng)。 組成M-LAG的兩端設(shè)備的橋ID要配置相同,根優(yōu)先級都配置為最高。 組成M-LAG的兩臺設(shè)備配置為SVF系統(tǒng)時CE必須同時接入父交換機或同時接入葉子交換機。 組成M-LAG的兩臺設(shè)備配置為SVF系統(tǒng)時peer-link接口必須配置在父交換機上。 組成M-LAG的兩臺設(shè)備配置為SVF系統(tǒng)時不支持跨SVF系統(tǒng)中葉子交換機創(chuàng)建Eth-trunk。 如果接入設(shè)備通過三層接入到組成M-LAG的兩端設(shè)備上,無論是雙歸接入還是單歸接入,必須通過VRRP/VRRP6虛擬網(wǎng)關(guān)的方式接入。必須在兩端設(shè)備上創(chuàng)建相同的VLAN,并在VLAN下啟用VLANIF接口,并且VLANIF接口上配置的IP地址不能相同,但網(wǎng)段和掩碼長度必須相同,否則掩碼過長的設(shè)備上的一部分主機可能無法訪問。 組成M-LAG的兩端設(shè)備上不同VLAN對應(yīng)的VLANIF三層接口不能配置相同的網(wǎng)段,也不允許兩個設(shè)備上的不同類型的兩個三層接口配置相同的網(wǎng)段。】 1.2.2 SVF組網(wǎng)方案SVF即是super virtual fabric超級虛擬交換網(wǎng)是一種設(shè)備間的虛擬化技術(shù)。SVF相比CSS/iStack支持不同類型設(shè)備虛擬化。SVF可實現(xiàn)不同層次間的設(shè)備擬為一臺設(shè)備進行集中管理,如匯聚和接入層之間,減少管理設(shè)備數(shù)量,簡化用戶運維場景,提高用戶運維效率。 在SVF虛擬化系統(tǒng)中,設(shè)備劃分為兩種角色,父交換機和葉子交換機。部署在上一層的設(shè)備稱為父交換機,父交換機扮演主控者角色,負責整個系統(tǒng)的控制和管理和轉(zhuǎn)發(fā)。部置下層設(shè)備設(shè)備,稱為葉子交換機。葉子交換機為縱向擴展設(shè)備,作為遠程接口板接入父交換機,相當于父交換機的端口拉遠,端口用于連接服務(wù)器。 SVF組網(wǎng)建議 SVF技術(shù)主要應(yīng)用于分區(qū)內(nèi)部簡化布線和管理。機架供電密度提升,單機架可部署的服務(wù)器的數(shù)量大幅增長。如果采用傳統(tǒng)的EoR或者MOR部署模式,布線密度太高,無法進行管理和維護。為解決這個問題必須引入ToR的布線模式,ToR解決了布線復雜度問題,但需要部署更多的設(shè)備,管理網(wǎng)元增多,引入網(wǎng)絡(luò)設(shè)備的管理和維護問題。SVF技術(shù)可以同時解決以上ToR和EoR部署面臨的問題。解決這個問題有兩種組網(wǎng)方案。 典型組網(wǎng)方案一 匯聚層和接入層之間增加匯接層。匯接層和接入層之間組成SVF虛擬化集群. 具體的物理組網(wǎng)如下圖所示,匯接層設(shè)備部署在列頭柜(EoR)或MoR網(wǎng)絡(luò)柜,接入層部署在服務(wù)器機架內(nèi)。 這種組網(wǎng)模式下,通過該組網(wǎng)方案兩臺匯接層交換機作為父交換機,服務(wù)器的架頂交換機作為葉子節(jié)點。 建議父交換機選擇CE6800和CE7800系列盒式設(shè)備。具體設(shè)備選型根椐服務(wù)器類型,規(guī)模和業(yè)務(wù)的流量收斂比等多個因素確定。千兆服務(wù)器的機架,葉子交換機采用CE5800系列交換機。萬兆服務(wù)器機架,葉子交換機建議采用CE6800系列交換機。 以CE6800/CE7800作為父交換機組網(wǎng),為保證組網(wǎng)的可靠性,建議兩臺父交換機間建立iStack集群。葉子節(jié)點雙歸到兩臺匯接交換機,匯接層和接入層整體形成一個SVF系統(tǒng)。
典型組網(wǎng)方案二 整個機房模塊內(nèi)部的匯聚層和接入層組成SVF子系統(tǒng),即整個POD或者分區(qū)內(nèi)部虛擬化為一臺邏輯交換機進行管理。具體物理部署結(jié)構(gòu)如下圖所示,接入交換機部署在服務(wù)器機架的架頂,匯聚層部署在機房的網(wǎng)絡(luò)區(qū)域機架。 匯聚層部署CE12800系列,匯聚層作為SVF系統(tǒng)的父交換機。接入交換機需根據(jù)服務(wù)器的類型選擇CE6800或者CE5800系列交換機。 整個機房模塊部署SVF系統(tǒng),因此父交換機出現(xiàn)故障直接影響機房模塊的業(yè)務(wù)服務(wù)。建議在兩臺匯聚交換機分別組成兩個獨立的SVF子系統(tǒng)。服務(wù)器雙網(wǎng)卡需要連接到屬于不同子系統(tǒng)的兩條接入交換機。具體拓撲如下圖所示。 兩個SVF系統(tǒng)之間配置跨子系統(tǒng)的ETH-TRUNK即M-LAG技術(shù),實現(xiàn)冗余備份。兩臺交換機通過10GE或者40GE鏈路連接。互連鏈路配置為ETH-TRUNK,作為M-LAG的peer-link。M-LAG 在為服務(wù)器流量提供負載分擔的同時,也通過鏈路備份保證了高可靠性。當某一側(cè)的鏈路或交換機故障時,服務(wù)器流量將切換至另一條鏈路。 注:使用SVF之后,可能導致部分業(yè)務(wù)特性,詳見SVF配置手冊和白皮書。CE12800交換機作為父交換機當前不支持葉子節(jié)點雙歸到兩臺CE12800設(shè)備。 1.2.3 CSS/iStack組網(wǎng)方案CSS(Cluster Switch System):集群交換機系統(tǒng),是網(wǎng)絡(luò)虛擬化的一種形態(tài)。其通過把多臺支持集群的交換機鏈接起來,從而組成一臺更大的交換機。 CSS的典型特征有: 1、 交換機多虛一:CSS對外表現(xiàn)為一臺邏輯交換機,控制平面合一,統(tǒng)一管理。 2、 轉(zhuǎn)發(fā)平面合一:CSS內(nèi)物理設(shè)備轉(zhuǎn)發(fā)平面合一,轉(zhuǎn)發(fā)信息共享并實時同步。 3、 跨設(shè)備鏈路聚合:跨CSS內(nèi)物理設(shè)備的鏈路被聚合成一個TRUNK端口,和下游設(shè)備實現(xiàn)互聯(lián)。
CSS/iStack組網(wǎng)建議 基于CSS/iStack典于組網(wǎng)結(jié)構(gòu)如下圖: 部署方案: l 通過堆疊(iStack)/集群(CSS,Cluster Switch System,交換機集群系統(tǒng) l 技術(shù)保證節(jié)點的可靠性;一臺設(shè)備故障后,另外一臺設(shè)備自動接管所有的業(yè)務(wù)。 l CSS LAG iStack 端到端可靠性架構(gòu)打造無間斷數(shù)據(jù)中心,保證業(yè)務(wù)持續(xù)運營。 l 多臺接入層堆疊,2臺匯聚層集群。 l 接入與匯聚間采用多條10GE或40GE鏈路全mesh連接,保障鏈路高可靠。 l 匯聚與核心間采用高速40GE鏈路全mesh連接,確保匯聚到核心無阻塞轉(zhuǎn)發(fā)。 方案特色: l 無環(huán)以太網(wǎng)簡化網(wǎng)絡(luò)架構(gòu),收斂時間遠優(yōu)于xSTP,收斂時間達到ms級。 l 提升鏈路利用率,采用逐流方式負載均衡,支持不同負載分擔方式,二層報文,IP報文。 l 轉(zhuǎn)發(fā)支持本地優(yōu)先轉(zhuǎn)發(fā)策略,減少設(shè)備間轉(zhuǎn)發(fā)。 l 配置簡單,不易引入配置故障,不需要配置多數(shù)可靠性的協(xié)議,如VRRP等,減化配置和維護工作量,減少出錯的機率。 l 鏈路的可靠性保證,通過Trunk技術(shù), 一條或多條鏈路故障后,流量自動切換到其他正常鏈路。
1.2.4 VS組網(wǎng)方案CE12800系列提供VS(Virtual System)功能,可以將單臺設(shè)備切分成多臺虛擬設(shè)備使用,這些虛擬設(shè)備共用整機基礎(chǔ)部件,但可以當作多臺真實的交換機來部署。通過對設(shè)備的靈活切分,可以通過一組設(shè)備構(gòu)建出多張邏輯網(wǎng)絡(luò),有效支持網(wǎng)絡(luò)的虛擬化。華為VS技術(shù)提供的1:8-1:16設(shè)備虛擬化能力,滿足多業(yè)務(wù)區(qū)(如生產(chǎn)區(qū)、辦公區(qū)、DMZ區(qū)等)或多租戶共享核心交換機的需求。
VS組網(wǎng)建議 在實際部署過程中,部分分區(qū)的網(wǎng)絡(luò)規(guī)模比較小,可以將核心層和匯聚層部署在VS系統(tǒng)上,共用一組物理交換機。這樣既不改動原有的分區(qū)結(jié)構(gòu)與業(yè)務(wù)結(jié)構(gòu),保留原有的網(wǎng)絡(luò)模型,又能減少網(wǎng)絡(luò)**,簡化運維。 圖表 3?5縱向核心匯聚融合組網(wǎng)圖 通常企業(yè)可能會有多張相互獨立的網(wǎng)絡(luò),分別運行不同的業(yè)務(wù)(例如生產(chǎn)網(wǎng)和辦公網(wǎng)) 。兩張網(wǎng)需要四臺核心交換機,**大,但資源利用率相對較低。部署VS 技術(shù),兩張網(wǎng)絡(luò)在核心層共用兩臺物理交換機、獨享不同的VS,既能實現(xiàn)網(wǎng)絡(luò)隔離,又能充分靈活利用設(shè)備資源。 圖表 3?6橫向多網(wǎng)核心融合組網(wǎng)圖
1.3 VXLAN組網(wǎng)方案規(guī)劃
1.3.1 VXLAN技術(shù)概述傳統(tǒng)的數(shù)據(jù)中心業(yè)務(wù)分區(qū)網(wǎng)絡(luò)一般采用匯聚-接入兩層架構(gòu),業(yè)務(wù)網(wǎng)關(guān)一般部署于匯聚設(shè)備,在傳統(tǒng)二層組網(wǎng)中,一般使用STP+VRRP的方案達到破環(huán)效果,但該方案有收斂速度慢,鏈路利用率低,配置復雜等問題,并且網(wǎng)絡(luò)規(guī)模受限。 為什么需要引入VXLAN技術(shù)? 第一、 應(yīng)用需要二層網(wǎng)絡(luò)。1)應(yīng)用節(jié)點沒有DNS和SNAT改造,所以一類應(yīng)用節(jié)點必須固定在一個二層網(wǎng)和Subnet下。如果不實施大二層,而改為一個TOR一個二層域,則每一類應(yīng)用節(jié)點必須限定在某一臺TOR上,且存在擴展上限。無法實現(xiàn)靈活部署、動態(tài)綁定。 2)虛擬機與物理機的HA,Oracle RAC雙活,虛擬機vMotion等業(yè)務(wù)都需要二層。 第二、 需要大二層:1)大二層主要來源于規(guī)模資源下應(yīng)用靈活彈性和充分共享的訴求,即當前分區(qū)過多,難以實現(xiàn)多個應(yīng)用系統(tǒng)資源共享。因此部署大二層可實現(xiàn)規(guī)模資源下應(yīng)用系統(tǒng)的靈活部署。2)大二層規(guī)模實踐經(jīng)驗是4000臺物理機(參考華為廊坊基地),因此共享資源的范圍不需要太大,一個網(wǎng)5000臺以內(nèi)即可。 第三、 為什么要引入VXLAN架構(gòu)。 (1)首先是扁平化、高可擴展性以及規(guī)模的組網(wǎng)能力訴求選取了Spine-leaf架構(gòu),由于網(wǎng)絡(luò)仍需二層網(wǎng)絡(luò)(無法像百度構(gòu)建三層的Spine-Leaf架構(gòu)),則在此類網(wǎng)絡(luò)架構(gòu)的技術(shù)目前只有TRILL和VXLAN。 此外,VXLAN技術(shù)本身具有下列特點: l 網(wǎng)絡(luò)依賴小,基于IP的overlay,僅需要邊界設(shè)備間IP可達。 l 環(huán)路避免,隧道間水平分割、IP overlay TTL避免環(huán)路。 l 高效轉(zhuǎn)發(fā),數(shù)據(jù)流量基于IP路由 SPF及ECMP快速轉(zhuǎn)發(fā)。 l 虛擬化,Overlay VNI構(gòu)建虛擬網(wǎng)絡(luò),支持多達16M的虛擬網(wǎng)絡(luò)。 l 物理設(shè)備、vSwitch均能夠部署,部署靈活。 1.3.2 VXLAN組網(wǎng)設(shè)計VXLAN技術(shù)的典型組網(wǎng)如下圖所示。基礎(chǔ)網(wǎng)絡(luò)骨干和葉子兩層架構(gòu)即spine-leaf架構(gòu),spine層和Leaf之間純IP的網(wǎng)絡(luò),通過IP的多鏈路負載均衡,可以實現(xiàn)低收斂比甚至無阻塞。 Leaf交換機部署為VTEP接入物理服務(wù)器或者虛擬化服務(wù)器。 VXLAN的部署范圍有兩種模式,整個數(shù)據(jù)中心或分區(qū)內(nèi)部。VXLAN域限制在物理分區(qū)內(nèi)部署,這種模式Board-Leaf連接核心交換機,分區(qū)之間通過IP直接通信。整個數(shù)據(jù)中心模式Board-Leaf直接接出口路由器。 網(wǎng)關(guān),防火墻,負載均衡等增值服務(wù)設(shè)備部署,可以靈活部署,可以在spine,Leaf層,獨立網(wǎng)絡(luò)服務(wù)區(qū)域等。
1.3.3 VXLAN網(wǎng)關(guān)設(shè)計建議網(wǎng)關(guān)獨立部署 網(wǎng)關(guān)與基礎(chǔ)網(wǎng)絡(luò)分離,基礎(chǔ)網(wǎng)絡(luò)內(nèi)部只作二層交換,部署獨立網(wǎng)關(guān)設(shè)備處理不同子網(wǎng)間和南北方向的流量。該模式網(wǎng)關(guān)水平擴展,提升網(wǎng)絡(luò)的彈性擴展能力。 典型組網(wǎng)如下圖所示,網(wǎng)關(guān),負載均衡(LB),防火墻(FW)等網(wǎng)絡(luò)增值服務(wù)部署在獨立的業(yè)務(wù)區(qū)域。網(wǎng)絡(luò)服務(wù)設(shè)備通過獨立的交換機連接VXLAN網(wǎng)絡(luò),這些交換機通常稱為Service Leaf。Service Leaf作為VXLAN的三層網(wǎng)關(guān),實現(xiàn)跨VXLAN的報文交換。該方案可以通過增加網(wǎng)關(guān)設(shè)備,解決網(wǎng)關(guān)設(shè)備ARP等表項的性能和容量。多對網(wǎng)關(guān)按照租戶或者VLAN/VNI進行業(yè)務(wù)劃分。
網(wǎng)關(guān)獨立部署方式另一典型組網(wǎng)如下圖所示,網(wǎng)關(guān)和邊界結(jié)點(BoarderLeaf)融合在同一設(shè)備。網(wǎng)關(guān)設(shè)備兼作南北和跨子網(wǎng)的業(yè)務(wù)網(wǎng)關(guān)。該組網(wǎng)方式適用于以向北流量為主的應(yīng)用場景。 網(wǎng)關(guān)獨立部署適用于可靠性要求高,Fabric網(wǎng)絡(luò)規(guī)模大,服務(wù)器接入數(shù)量有彈性增長需求的場景。 網(wǎng)關(guān)部署在SPINE節(jié)點
網(wǎng)關(guān)部署在骨干交換機(SPINE),與傳統(tǒng)服務(wù)器分區(qū)模式一致,網(wǎng)關(guān)集中部署在分區(qū)的匯聚點。這種模式下防火墻和LB等網(wǎng)絡(luò)服務(wù)設(shè)備通常旁掛骨干交換機。 適用場景: 適合于中小數(shù)據(jù)中心、接入服務(wù)器規(guī)模不大的場景,如管理分區(qū),開發(fā)測試區(qū)等。
網(wǎng)關(guān)部署在Leaf
所有的業(yè)務(wù)網(wǎng)關(guān)部署在就近的連接交換機上,實現(xiàn)業(yè)務(wù)就近選擇網(wǎng)關(guān)。同一Leaf節(jié)點下的主機通信都在Leaf節(jié)點本地交換,相比其他方案路徑最優(yōu)。但網(wǎng)關(guān)部署Leaf,對Leaf節(jié)點配置要求高.Leaf上要保保存業(yè)務(wù)的主機路由,需要設(shè)備支持更大的路由表規(guī)格和VXLAN三層網(wǎng)關(guān)功能。同一個子網(wǎng)的網(wǎng)關(guān)需要配置在多個設(shè)備上,虛擬機遷移需要同進遷移ACL,策略路由,包過濾配置等。配置和維護復雜,并且與傳統(tǒng)網(wǎng)絡(luò)運維模式不一樣。 網(wǎng)關(guān)部署在Leaf方案,適用于跨子網(wǎng)東西向流量大應(yīng)用場景如Headoop集群。
1.3.4 VTEP部署設(shè)計建議硬件交換機(Leaf)模式 VXLAN的VTEP部署在Leaf(TOR)上,實現(xiàn)VXLAN封裝與解封裝。物理服務(wù)器和虛擬化服務(wù)器都通過VLAN接入物理交換機,根椐Port和VLAN映射到VXLAN的VNI。同時VXLAN的三層網(wǎng)關(guān)部署在物理交換機上,這種方式俗稱為純硬模式。組網(wǎng)如下圖: VTEP部署在Leaf節(jié)點,可以兼容不同的虛擬化軟件廠商。運維模式與傳統(tǒng)網(wǎng)絡(luò)一致。 網(wǎng)絡(luò)性能相比軟件vSwitch作為VTEP性能高。
軟件vSwitch模式 虛擬化服務(wù)器直接在vSwitch作VXLAN的報文封裝,即vSwitch作為VTEP。只有物理服務(wù)器連接的硬件交換機實現(xiàn)VXLAN報文封裝功能。這種方式稱為混合模式。
VTEP部署在vSwitch上,可以兼容不同物理網(wǎng)絡(luò),可以支持傳統(tǒng)網(wǎng)絡(luò)演進到VXLAN組網(wǎng)。
VTEP部署在硬件交換機的方案適用于使用多虛擬化平臺應(yīng)用場景。VTEP部署在vSwitch適用于單一虛擬化平臺,或者利舊當前網(wǎng)絡(luò)設(shè)備的應(yīng)用場景。
1.3.5 服務(wù)器接入方案
物理服務(wù)器或者虛擬化服務(wù)器要求基于流的方式實現(xiàn)。服務(wù)器網(wǎng)卡雙歸到兩臺Leaf交換機。為保證兩臺Leaf交換機同步MAC和ARP表項。 方案一:Leaf交換機iStack堆疊,支持服務(wù)器主備/雙活方式接入,以簡化運維。 方案二:Leaf交換機配置M-LAG,支持服務(wù)器雙活和接入,詳見M-LAG的方案設(shè)計建議部分。
1.3.6 VXLAN控制面設(shè)計VXLAN標準對控制沒有統(tǒng)一規(guī)定,控制面可集中在SDN控制器或下沉到網(wǎng)絡(luò)設(shè)備。 1) 控制面下沉模式,參見下圖。 TOR收到免費ARP(Gratuitous ARP)后,進行頭端復制,網(wǎng)關(guān)收到GARP之后,觸發(fā)生成主機路由。 TOR(leaf)通過BGP同步網(wǎng)關(guān)生成的主機表項(ip mac vtep vni)。 TOR(VTEP)收到本地ARP請求,查看本地是否有ARP表項: 如果請求的是本地服務(wù)器(主機路由是本地生成),則在本地廣播。 如果請求的是遠端地服務(wù)器(主機路由是遠端生成),則封裝為VXLAN單播報文,發(fā)送到遠端NVE。 遠端設(shè)備收到ARP請求后在本地廣播。 如果找不到表項,根據(jù)設(shè)備隧道表(VNI,VTEP IP List)進行頭端復制廣播。
適用于私有云數(shù)據(jù)中心,對可靠性、運維要求高、服務(wù)器規(guī)模不大的場景。
2) 控制面集中模式,參見下圖。 采用overlay控制面全部提升到控制器上(即隧道表,ARP,MAC全部都由控制器下發(fā)),控制器具備帶內(nèi)(數(shù)據(jù)面)虛擬感知(MAC接入) 能力。適用于互聯(lián)網(wǎng)公有云、對服務(wù)器接入規(guī)模大的場景。
1.4 TRILL組網(wǎng)方案規(guī)劃1.4.1 TRILL技術(shù)概述傳統(tǒng)二層網(wǎng)絡(luò)需要配置MSTP、RRPP等破環(huán)協(xié)議阻斷環(huán)路,從而使大量冗余鏈路無法使用,對網(wǎng)絡(luò)帶寬形成浪費。TRILL(Transparent Interconnection of Lots of Links)是一種在二層網(wǎng)絡(luò)上基于鏈路狀態(tài)計算的路由協(xié)議,它通過擴展IS-IS協(xié)議來實現(xiàn)。 TRILL的部署既可以避免產(chǎn)生二層環(huán)路,又可以實現(xiàn)多鏈路的負載均衡。 TRILL的特點如下: l TRILL引入ISIS協(xié)議,生成分發(fā)樹,解決二層環(huán)路的問題,同時增加了二層網(wǎng)絡(luò)的靈活性 l 支持ECMP等價多路徑轉(zhuǎn)發(fā),任何一條路徑故障,流量均可以切換到其它路徑上去 l 快速收斂,可以達到毫秒級 l 高擴展性,網(wǎng)絡(luò)規(guī)模擴張容易,最大可以支持512臺網(wǎng)絡(luò)設(shè)備的網(wǎng)絡(luò)規(guī)模 l 簡化了配置,并且配置靈活
1.4.2 TRILL組網(wǎng)設(shè)計
TRILL技術(shù)可以應(yīng)用于以下幾個場景,分區(qū)的內(nèi)部的網(wǎng)絡(luò),實現(xiàn)分區(qū)間的二層連接。
業(yè)務(wù)區(qū)內(nèi)部構(gòu)建二層網(wǎng)絡(luò)
數(shù)據(jù)中心內(nèi)新建一個分區(qū),分區(qū)內(nèi)部服務(wù)器規(guī)模大,需要接入交換機數(shù)量較多。
采用TRILL等技術(shù)實現(xiàn)分區(qū)內(nèi)部大二層。首先應(yīng)將網(wǎng)關(guān)向上遷移至匯聚層,實現(xiàn)大范圍VLAN的接入。在匯聚和接入之間使能TRILL特性,在互聯(lián)鏈路上配置 為TRILL的Carrier VLAN。接入設(shè)備作為RB edge上配置CE VLAN 接入服務(wù)器。 匯聚交換機做RB spine,通過VS虛擬化為兩個設(shè)備,其中TRILL VS為TRILL終結(jié)設(shè)備,網(wǎng)關(guān)VS作為南北業(yè)務(wù)和跨VLAN業(yè)務(wù)的網(wǎng)關(guān)。如果跨VLAN流量不大,建議采用內(nèi)環(huán)網(wǎng)關(guān)方案,無需劃分網(wǎng)關(guān)VS與TRILL VS。 網(wǎng)關(guān)VS之間配置VRRP協(xié)議,實現(xiàn)業(yè)務(wù)冗余倒換。通常防火墻旁掛連接在匯聚交換機的上網(wǎng)關(guān)VS上。 TRILL技術(shù)可充分利用接入和匯聚之間鏈路帶寬,實現(xiàn)多路徑負載分擔。支持分區(qū)實現(xiàn)分區(qū)內(nèi)部的低收斂比。使用TRILL技術(shù)方便業(yè)務(wù)的帶寬擴展,可以支持將匯聚設(shè)備擴展為四臺甚至更多。
分區(qū)內(nèi)部二層擴展 在數(shù)據(jù)中心中,匯聚作為二三層的分界,匯聚到核心為三層連接。后期為了分區(qū)擴展的需要,需要在POD主業(yè)務(wù)區(qū)和POD副業(yè)務(wù)區(qū)連通一個二層的網(wǎng)絡(luò),則在原有的三層上運行TRILL的方式,提高線路的利用率和減少環(huán)路的產(chǎn)生。 圖1-1 TRILL二三層混合部署 具體部署如下: 1) 核心與匯聚之間不但要運行三層,同時還需要在它們之間部署TRILL,要求核心、匯聚設(shè)備支持TRILL功能; 2) 在需要二層互通的分區(qū)之間運行TRILL,不需要互通的則仍然運行三層。 3) 原有業(yè)務(wù)區(qū)為傳統(tǒng)二層區(qū)域,與TRILL域之間可能會存在環(huán)路,如果存在環(huán)路,需要使用前面介紹的TRILL與傳統(tǒng)二層融合的方法來避環(huán)。 4) 分區(qū)的擴展通常需要連接高帶寬的鏈路,并且需要劃分單獨的二層通道。 5) 二層擴展分區(qū)的網(wǎng)關(guān)通常選擇業(yè)務(wù)量較大的分區(qū)的匯聚設(shè)備上,可以采用集群 VS或者VS VRRP方式,推薦使用集群 VS方式,這樣可以避免使用VRRP,減少配置的復雜度。 6) 另外,分區(qū)和其它的分區(qū)間則通過三層互訪。
TRILL分區(qū)與傳統(tǒng)二層融合 原有二層分區(qū)為xSTP分區(qū),需要對該分區(qū)進行二層的擴展,而新的支持TRILL。對于這樣的場景可以采用三種方式來解決。 圖 4?33TRILL與傳統(tǒng)二層混合部署
方式1:邊緣節(jié)點堆疊方式
TRILL域邊緣節(jié)點設(shè)備是堆疊或者可改造為堆疊,如A、B,邏輯上形成一臺設(shè)備。接入TRILL網(wǎng)絡(luò)后,以堆疊設(shè)備為界,上面為TRILL網(wǎng)絡(luò),下面用MSTP以及堆疊技術(shù)破環(huán),整網(wǎng)無環(huán)。網(wǎng)絡(luò)鏈路/設(shè)備故障時,拓撲由TRILL或者MSTP計算自動收斂。 方式2:TRILL邊緣節(jié)點模擬xSTP根橋方式 原有二層網(wǎng)絡(luò)接入TRILL域,運行xSTP協(xié)議進行破環(huán),根橋設(shè)置在C(邊緣節(jié)點),局部破環(huán)。TRILL建立二層通路,導致新環(huán)路產(chǎn)生,如路徑1。 TRILL域邊緣節(jié)點設(shè)備為獨立設(shè)備,將設(shè)備D(邊緣節(jié)點)配置為模擬根橋,所有邊緣節(jié)點都作為根橋參與計算,新增阻塞點2,完全破環(huán)。 網(wǎng)絡(luò)鏈路/設(shè)備故障時,拓撲由TRILL或者MSTP計算自動收斂。 方式3:邊緣節(jié)點配置AF方式: 下行設(shè)備雙歸接入TRILL域,邊緣節(jié)點G和H之間設(shè)置優(yōu)先級(可依據(jù)VLAN設(shè)置),設(shè)置H的優(yōu)先級高于G,則新增阻塞點3,完全破除環(huán)。 H設(shè)備故障或者I到H的鏈路全部發(fā)生故障時,設(shè)備優(yōu)先級倒換。 下面表為這三種方式的比較: 圖 4?34TRILL三種部署綜合比較
1.4.3 NickName設(shè)計TRILL網(wǎng)絡(luò)中的RB以nickname進行標識,nickname是一個2字節(jié)數(shù)值;Nickname相當于IP地址,用來唯一標識一臺交換機。一臺RB僅支持配置一個nickname,且須保證nickname全網(wǎng)唯一。Nickname 可以手動配置,也可以設(shè)備自動生成。跟隨nickname的還有兩個屬性:priority(優(yōu)先級)、root priority(樹根優(yōu)先級),分別用于nickname沖突協(xié)商和分發(fā)樹樹根選舉。 1)Nickname生成 nickname是一個2字節(jié)數(shù)值,使用隨機算法生成2字節(jié)的隨機值。為保證不沖突,將生成值與當前設(shè)備學習到的nickname值以及nickname保留值比較,如果沖突就重新計算生成。 2)Nickname沖突協(xié)商 由于nickname可以自動生成,就可能出現(xiàn)兩臺RB產(chǎn)生相同的nickname,所以TRILL協(xié)議就提供了一個nickname優(yōu)先級字段用于解決沖突。對于新入網(wǎng)的RB,需等待同步完現(xiàn)有網(wǎng)絡(luò)LSDB后,確認本地Nickname和現(xiàn)網(wǎng)不沖突后再發(fā)布;如果沖突,則需要重新選取,避免影響現(xiàn)網(wǎng)中已有業(yè)務(wù)。 通常在TRILL組網(wǎng)設(shè)計中建議使用手動配置Nickname,方便管理和維護。建議核心交換機采用XX來做為NickName,例如:11,21等;匯聚交換機采用XXX來做為NickName,例如111,221等,其中第一個數(shù)字為核心的第一個數(shù)字,第二個數(shù)字為匯聚的編號,第三個則為具體的個數(shù);接入交換機則采用XXXX,例如1101,2201等,其中第一個數(shù)字為核心的第一個數(shù)字,第二個數(shù)字為匯聚的編號,第三、四個則為具體的個數(shù)。例如核心為11,12,第一個分區(qū)的匯聚為111,112,第一個分區(qū)的接入交換機為1101,1102等。
1.4.4 TRILL網(wǎng)關(guān)設(shè)計
目前,由于芯片的限制,導致TRILL報文只有在出接口才能進行報文的解封裝操作,所以到達三層網(wǎng)關(guān)接口需要外環(huán)。根據(jù)這樣的應(yīng)用方式,網(wǎng)關(guān)的部署方式大致為以下幾種方式。 l VS方式做網(wǎng)關(guān) 交換機可以通過VS一虛二的方式,一臺做TRILL的終結(jié),另外一臺做三層的網(wǎng)關(guān),通過這樣的方式解決TRILL網(wǎng)關(guān)部署的問題。 圖表 4?36VS方式做網(wǎng)關(guān) 具體部署如下: 1) 在圖中,在該圖中部署TRILL網(wǎng)絡(luò),把上面的兩臺匯聚交換機做VS一虛多,虛擬成兩臺設(shè)備VS1、VS2;VS2做TRILL網(wǎng)絡(luò)的終結(jié),VS1做網(wǎng)關(guān);目前華為支持該功能的設(shè)備為CE12800交換機;當然圖中的VS1也可以分別使用一臺單獨的路由器或者交換機代替; 2) 兩臺匯聚交換機之間不需要線路連接;其中兩臺VS1之間運行VRRP,VRRP的心跳通過TRILL網(wǎng)絡(luò)進行轉(zhuǎn)發(fā); 3) VS1和VS2之間需要根據(jù)實際應(yīng)用的出口帶寬和各VLAN互聯(lián)流量的大小進行設(shè)置,通常至少需要設(shè)置兩條甚至多臺鏈路捆綁; 4) 不同VLAN之間的數(shù)據(jù)互訪需要通過網(wǎng)關(guān)設(shè)備或者防火墻設(shè)備;而對外訪問的數(shù)據(jù)也需要經(jīng)過網(wǎng)關(guān)設(shè)備;網(wǎng)關(guān)的主備倒換主要依賴于VRRP的切換; 這種部署方式的特點是網(wǎng)關(guān)獨立部署,適用于較大的二層網(wǎng)絡(luò)規(guī)模,匯聚設(shè)備可以為獨立的兩臺或者多臺設(shè)備;而由于需要在網(wǎng)關(guān)之間運行VRRP協(xié)議,配置較為復雜,同時當匯聚設(shè)備較多時防火墻部署也較為復雜。 l CSS VS方式做網(wǎng)關(guān) 由于上面的網(wǎng)關(guān)部署中存在需要部署VRRP,導致配置稍顯復雜,而如果先通過CSS的方式虛擬化成一臺,然后再VS的方式,則最終出現(xiàn)一臺TRILL終結(jié)和一臺網(wǎng)關(guān)的情況,從而不需要再進行VRRP的部署。 圖表 4?37CSS VS方式做網(wǎng)關(guān) 具體部署如下: 1) 在圖中的TRILL網(wǎng)絡(luò)中,首先把兩臺匯聚交換機做多虛一CSS操作,虛擬成一臺邏輯交換機,然后對這臺邏輯交換機再做VS一虛多,每臺設(shè)備虛擬成兩臺設(shè)備VS1、VS2;其中VS2做TRILL網(wǎng)絡(luò)的終結(jié),VS1做網(wǎng)關(guān);這么做可以更加合理的利用交換機的資源,目前華為支持該功能的設(shè)備為CE12800交換機; 2) VS1和VS2之間需要根據(jù)實際應(yīng)用的出口帶寬和各VLAN互聯(lián)流量的大小進行設(shè)置,通常至少需要設(shè)置兩條鏈路捆綁;不同VLAN之間的數(shù)據(jù)互訪需要通過網(wǎng)關(guān)設(shè)備;對外訪問的數(shù)據(jù)也需要經(jīng)過網(wǎng)關(guān)設(shè)備; 這種組網(wǎng)的特點是資源重新進行分配,可以使分配的更加的合理,同時由于不需要再進行VRRP的部署,管理更加簡單;該種方式下防火墻部署也比較方便。但是CSS/堆疊設(shè)備數(shù)量受限,目前CSS僅支持兩臺,擴展性受影響。 l TRILL終結(jié)設(shè)備做網(wǎng)關(guān) 如果設(shè)備不能做VS虛擬化,則前面兩種情況均不適用,但是又會有一些只有盒式設(shè)備做TRILL組網(wǎng),需要這些設(shè)備做網(wǎng)關(guān),可以利用VLAN mapping的方式,進行外環(huán)做網(wǎng)關(guān)。 圖表 4?38TRILL終結(jié)設(shè)備做網(wǎng)關(guān) 具體部署如下: 1) 在圖中的TRILL網(wǎng)絡(luò)中,該匯聚交換機不做虛擬化設(shè)置,通過設(shè)置不同的VLAN,對接口進行外環(huán)操作,外環(huán)時可以使用多鏈路進行捆綁,以增加可靠性和帶寬;這樣對交換機的要求變低,使得目前華為CE交換機均可使用; 2) 根據(jù)圖中所示,TRILL報文經(jīng)過VLan100后,去掉TRILL頭,變成了普通的二層報文,發(fā)送到VLan101中,然后到達網(wǎng)關(guān),再經(jīng)過三層進行轉(zhuǎn)發(fā); 3) 三層報文經(jīng)Vlan101到達Vlan100后,通過TRILL發(fā)送給到相應(yīng)的設(shè)備; 4) 在兩臺設(shè)備之間需要使用VRRP協(xié)議,心跳報文仍然是需要經(jīng)過TRILL進行轉(zhuǎn)發(fā);同樣不同VLAN之間的數(shù)據(jù)互訪需要通過網(wǎng)關(guān)設(shè)備; 5) 對外訪問的數(shù)據(jù)也需要經(jīng)過網(wǎng)關(guān)設(shè)備;網(wǎng)關(guān)的主備倒換主要依賴與VRRP的切換; 這種組網(wǎng)方式的特點是不支持VS的交換機也可以做網(wǎng)關(guān),但是缺點是需要用掉幾乎一倍的VLAN,同時配置稍顯復雜,邏輯上清晰度不夠。 l 網(wǎng)關(guān)和RB設(shè)備合并部署(V1R510支持) DRB設(shè)備無需VS虛擬化,在DRB接口上配置CE VLAN的三層接口,承擔業(yè)務(wù)網(wǎng)關(guān)。
1.4.5 服務(wù)器接入設(shè)計
通常為了增加服務(wù)器的帶寬,采取對服務(wù)器的網(wǎng)卡進行綁定的方式接入到TRILL中。服務(wù)器雙活接入(使能nic teaming,基于MAC負載分擔),兩臺設(shè)備同時學到相同MAC,MAC漂移。這種MAC漂移一般被認為是網(wǎng)絡(luò)異常,可以通過改變接口MAC優(yōu)先級等方法來規(guī)避該問題,但這樣與VM遷移的要求矛盾;或者在MAC漂移后認為發(fā)生環(huán)路而關(guān)閉接口,與雙歸接入的要求矛盾。TRILL域以nickname做轉(zhuǎn)發(fā)標識,兩臺接入設(shè)備配置同一虛擬nickname,在TRILL轉(zhuǎn)發(fā)層面邏輯上形成一個轉(zhuǎn)發(fā)節(jié)點,鏈路1和鏈路2形成負載分擔鏈路。 圖表 4?39服務(wù)器雙歸接入到TRILL 雙活接入設(shè)備中間有以太鏈路連接,被稱為Peer-link。該鏈路實現(xiàn)兩臺設(shè)備之間傳遞協(xié)議報文,包括但不限于TRILL雙活配對報文、E-Trunk同步報文、MAC同步報文、組播信息同步報文,同時還承載部分數(shù)據(jù)報文。 雙歸接入設(shè)備采用虛擬nickname作為轉(zhuǎn)發(fā)標識,單歸接入設(shè)備采用物理nickname作為轉(zhuǎn)發(fā)標識(注:RB為CE128時,單歸設(shè)備轉(zhuǎn)發(fā)同樣采用虛擬nickname,此時轉(zhuǎn)發(fā)單歸設(shè)備轉(zhuǎn)發(fā)模型與雙歸設(shè)備相近。) |
|
來自: 梁APPLE > 《網(wǎng)絡(luò)》