過去十年是互聯網高速發展的十年,隨著產業不斷發展,應用種類極大豐富,用戶規模空前龐大,往往一個應用就擁有千萬級別用戶,上P數據量。在這樣的環境下,早期的單機或集群的計算模式已經無法滿足應用的發展要求,更大規模的云計算模式是互聯網持續發展的必經之路。受制于目前數據中心規模問題以及異地容災需求,往往一個應用會分布在多個數據中心之內,而用戶的交互行為,讓應用之間的交互流量凸顯,導致不同的云數據中心之間往往會產生幾十甚至上百G的帶寬需求。在這樣的背景下,光網絡開始逐漸走入了互聯網企業的視野。
云數據中心對于光網絡的需求
一直以來光網絡都是運營商的專利,其他行業鮮有涉足,近幾年才開始逐漸在互聯網行業開始應用。國外的谷歌、Facebook、微軟,國內的騰訊、百度、阿里巴巴都已經計劃或開始建設自己的傳輸網絡,用于搭建數據中心之間的高速通道。互聯網對于光網絡有著自己的獨特需求,以下為大家進行簡單的列舉:
超大帶寬
對于云數據中心來講,對于光網絡的第一需求就是提供超大容量帶寬管道。隨著云化的不斷深入和云規模的不斷擴張,物理邊界已經逐漸被抹平,一個應用可能分布在多個數據中心,但是從邏輯的角度又需要讓應用感覺不到物理的地域差異,這個時候就需要在不同數據中心之間提供足夠大的帶寬,來打平異地布局所帶來的不利因素。
簡單
這里提到的簡單包含了兩層含義。第一層含義是架構簡單:門檻低,可復制。互聯網企業內的網絡技術人員大多是IP網絡領域技術人員,對光網絡技術了解較少。復雜的架構、高門檻將會阻礙光網絡在互聯網企業中的建設落地和運營。第二層含義是運營簡單。互聯網企業的網絡運營團隊人數較少,且需要同時管理IP網絡和光網絡,這就要求光網絡的運營足夠簡單,能夠像IP網絡一樣快速定位故障和恢復業務。
敏捷能力
互聯網業務瞬息萬變,競爭激烈。一個業務晚上線一天就可能形成完全不一樣的市場格局。因此要求光網絡具備足夠的靈活性和彈性,能夠快速開通業務,靈活實現業務的遷移和調度。
極致化用戶體驗
互聯網追求極致化用戶體驗,這也是互聯網業務吸引用戶的核心競爭力之一,極致化的用戶體驗需要網絡提供高帶寬、低延遲,以及故障的快速收斂性能,這需要網絡的各個層面一起努力。
新的形勢下光網絡需要做出哪些轉變?
互聯網巨頭谷歌早在2005年就開始籌備組建其在美國境內的核心骨干光網絡,并在2010年底開始合作投資海纜,因而在互聯網企業的光網絡應用中走在了領先位置。
國內互聯網企業的傳輸網絡應用大致起步于2008~2009年,大型互聯網公司都在其核心節點城市建設了數據中心間的城域傳輸網絡,并且隨著核心數據中心節點的不斷擴張,開始嘗試組建城際傳輸干線。互聯網元素的注入對于光網絡提出了更高的要求。
騰訊的光傳輸網絡始建于2009年,并于2012年底開始進行100G傳輸的試點建設,2013年開始進行批量化100G傳輸建設,2014年實現了100G端到端業務開通。目前已經在全國多個城市部署了光網絡,提供數據中心間互聯帶寬超過15個T。同時,為了滿足區域一體化需求,騰訊在京津、廣深進行了城際光網絡建設嘗試。結合網絡發展步伐和上層業務實際需求,我們認為光網絡需要做以下優化:
更強的環境適應能力
以往的傳輸設備都是落地在運營商專用的傳輸機房,21英寸標準ETSI傳輸機柜,-48V直流供電,機房整體散熱。而互聯網使用的數據中心機房是PC 服務器的世界,19英寸標準機柜,220V交流或者240V高壓直流供電,機房冷熱通道隔離。在數據中心機房進行環境改造部署傳輸設備,涉及到供電、制冷、更換機柜等等環節,除去大的成本開銷外,至少需要3個月的時間。這對于以效率為生存準則的互聯網企業來講是難以接受的。更強的環境適應能力是光傳輸設備在非運營商環境下規模應用的重要前提。
更高速率的光網絡
互聯網產生的流量每天都在發生變化,年增率達到100%。IP網絡已經開始向40G/100G切換,大數據時代的到來不可逆轉。
光網絡已經開始進入了100G時代,但是對于更高速率的光網絡訴求依然是強烈的。目前200G/400G傳輸網絡技術已經逐漸成熟,并開始進行試商用。雖然進展喜人,但是前景依然不容樂觀。原因在于:
·技術路線尚未統一且存在一定缺陷:16QAM目前看是主流方向,但是傳輸性能比100G低7dB;奈奎斯特、4x100GQPSK方案雖然在傳輸性能上面有所提升,但是波特效率比100G系統并沒有顯著提升。
·與10G/40G/100G傳輸系統頻率間隔為固定的50GHz不同,200G/400G 16QAM系統的頻率間隔為37.5GHz,新系統如何從老系統平滑升級并與老系統并存,是一個重要的課題。
去電信化思維
在現有模式下,IP網絡和光網絡的規劃、建設、管理、運維都是分開的,我們在IP層進行了大量冗余設計的同時,在光層也進行了諸如光復用段、光通道層、環路保護等等諸多保護。犧牲了系統效率、浪費了大量資源。因此非常有必要把IP網絡和光網絡整合在一起考慮架構冗余問題。
我們知道IP網絡冗余除了要防備使用鏈路出現異常,還要考慮設備故障引發的問題。因此,雖然可以通過架構設計來提升IP網絡的利用率,但是IP網絡層面的冗余是不能減免的。而光網絡做為IP網絡的下一層網絡,可以利用IP網絡的冗余設計,取消光層的保護。
當然,這里的取消保護并不意味著光網絡就不需要考慮冗余設計,而是要將整個網絡捏合在一起進行考慮。一方面需要光網絡向IP網絡提供具有足夠多路徑的底層鏈路,使得當故障出現時只會出現部分鏈路異常;另一方面要充分考慮IP網絡的訴求,配合IP網絡實現快速的故障發現、收斂和恢復。
光層SDN[注]
前面提到,互聯網是追求效率的行業,競爭異常激烈,機會稍縱即逝,這就要求網絡層面具備足夠敏捷和靈活的能力。對光網絡來講,快速的開通,靈活的調整,敏捷的調度功能是必不可少的。需求很骨感,但是現實很殘酷。我們發現現有環境下光網絡的建設供給模式很難滿足互聯網的敏捷要求。目前運營商的傳輸擴容項目都是以半年為周期計算的(+本站微信networkworldweixin),即使在互聯網公司這一周期被大大縮減,也依然需要至少2個月周期。
看起來很難改變,那么如何滿足這里的需求呢?比較原始的辦法就是結合歷史發展趨勢,在建設過程中儲備一些備用資源,來滿足突發需求。但是由于預估資源可能不夠準確,且備用資源難以調整、靈活性不足,依然無法滿足全部需求。如何把備用資源靈活利用起來,做到可調度、可調整?這就需要通過SDN的思路來解決。
SDN的概念誕生于2006年,在短短的不到10年時間內不斷發展壯大,被越來越多的運營商和互聯網公司所接受。2012年,谷歌宣布其主干網絡已經全面運行在OpenFlow上,從而實現其廣域網鏈路利用率從30%提升到接近飽和。這也證明了OpenFlow已經具備了現網商用所需的技術成熟度。
雖然SDN的大部分成功案例都是在IP網絡上面實現的,但是我們認為,SDN實際上是一種思想,在光網絡也同樣適用。主流傳輸設備廠商都已經加入到了SDN光網絡的研發狂潮中,大多采用PCE技術來實現初期的SDN光網絡模型(如圖所示)。
PCE controller負責路徑計算,通過南向接口使用PCEP協議+私有協議來實現和底層傳輸設備的通信,實現拓撲感知,故障快速發現,下發指令等功能;通過東西向接口使用標準PCEP和其他PCE controller對接,實現跨域系統間的協商;通過北向接口和上層應用協商。通過這樣一個架構模型,可以實現路徑自動計算、通道快速建立、故障快速恢復等基本功能,很大程度上可以滿足對于光網絡敏捷度和靈活性的要求。
但是我們也看到,Openflow 1.4的標準中尚未對于光層場景進行定義,這也使得SDN光網絡目前依然處于前期實驗階段。線路側可調速率、可調中心頻率、可調頻寬、可調編碼方式,復用/解復用器可調柵格等技術都需要去研究和實現。光層SDN的道路依然長遠。
精細化運營需求
互聯網企業的運營團隊需要全面負責IP網絡和光網絡,技術人員大多是IP網絡技術人員,對光網絡知識了解較少。如果光網絡的可運維性還是停留在原來的水平,將大大阻礙光網絡在互聯網企業的落地和運營。因此光網絡可精細化運營能力的提升是不可或缺的。
最先需要優化的就是告警。現在大部分傳輸廠商的告警采用的是將各個板卡出現的告警全部上報的方式,但是光層設備的邏輯關聯關系是非常強的,往往一個板卡/模塊的故障,會連帶在下游的多個板卡和模塊上產生告警,現網核心間站點干路光纖的故障能夠產生上千條告警,大量告警為故障的定位和排查帶來極大困難。優化的思路就在于對告警進行關聯性分析,通過數據庫中業務的配置關系,用上層告警收斂下層的衍生告警,從而最終定位出根因告警。進而可以快速根據根因告警定位故障原因,使得整體排障效率大大提升。
其次就是監控能力的提升。光層設備雖然能夠實時了解所使用光纖的衰耗情況,但是依然較難對具體的光纖故障進行定位。當確認光路中斷后,還是需要到各個光纖跳接點掛表測試,使得光纖故障處理的效率難以得到提升。通過整合OTDR,可以使光層設備具備光纖在線實時監測能力。通過將1625nm的檢測光整合到復用段一起傳輸,利用檢測光的折射和反射可以實時定位每個跳接點間光纖的實時衰耗變化,這使得提前預判光纖的故障成為可能,這也是精細化運營能力的重要體現。
結語
互聯網產業高速發展的今天,數據中心之間的通信需求使得光網絡在互聯網企業得到大量的應用,而互聯網的特性也給光網絡提出了更高的要求。更高速率的帶寬、更大的容量,更強的環境適應能力,更強的可精細化運營能力,靈活敏捷的布局和可調度能力,都是光網絡需要去攻克的難關。而通過光層SDN的演進,通過IP網絡和光網絡更深層次的融合,相信光網絡的應用將會給未來互聯網的發展帶來更大的收益。