摘要:IP網絡故障定位的復雜程度,非一般運維人員所能掌握。如何讓運維人員追本溯源,了解IP故障發(fā)生的機理,掌握從現象到定位的過程,并順利排障?IP網絡故障管理難表現為兩點:第一,告警數量多,甚至是泛濫,每天告警工單數量很多,但一些告警定位后,又不需要作任何恢復動作,維護人員不堪重負。第二,故障發(fā)生卻無任何告警,只能摸索排查,
IP網絡故障定位的復雜程度,非一般運維人員所能掌握。如何讓運維人員追本溯源,了解IP故障發(fā)生的機理,掌握從現象到定位的過程,并順利排障?
IP網絡故障管理難表現為兩點:第一,告警數量多,甚至是泛濫,每天告警工單數量很多,但一些告警定位后,又不需要作任何恢復動作,維護人員不堪重負。第二,故障發(fā)生卻無任何告警,只能摸索排查,定位耗時長,非常依賴人的經驗。這兩種現象給故障管理工作帶來非常大的困擾,本文將深入診斷其發(fā)生的根源,并給出相應的治理辦法。
溯源
故障告警多
告警數量多的根源與IP網絡兩個特點相關,第一個特點是網絡層次多,例如一個VLL(Virtual Leased Line)業(yè)務在IP網絡上承載,要經過物理層、鏈路層、路由協(xié)議、MPLS、VLL等多層次處理,若某條物理光纖發(fā)生中斷,那么物理層、鏈路層、IP傳輸層、VLL管道層將全部受到影響,這些層次也將全部發(fā)送TRAP。第二個特點是協(xié)議關聯(lián)多,一般物理光纖的故障將引起路由協(xié)議的收斂,再引起MPLS LDP等協(xié)議的變化,這個過程中必然要發(fā)送大量的TRAP。
無告警
無告警的問題相對復雜。我們先回顧一下故障的定義,故障是產品或產品的一部分不能或將不能完成預期功能的事件或狀態(tài),簡單地說,就是現狀不符合預期。反之,如果沒有“預期”,則不會有“故障”。實際上,正是IP網絡上的預期無法清晰定義,才導致了“無告警”現象的發(fā)生。我們從控制平面和轉發(fā)平面的原理出發(fā),追溯無告警發(fā)生的根源。
控制平面決定源到目的地的業(yè)務路徑。在傳統(tǒng)的電路網絡上,管理員靜態(tài)指定主備路徑,每個業(yè)務的下一跳非主即備,預期非常清晰。而在IP網絡上,路由協(xié)議根據網絡實際情況選擇最優(yōu)路徑,單個路由器只知下一跳,并不掌握業(yè)務路徑。因此,當鏈路中斷產生路由收斂或者路徑計算錯誤,導致路徑發(fā)生變化時,路由器無法告警業(yè)務路徑切換。
華為曾遇到過這樣一個網上問題,NGN語音業(yè)務中斷40多分鐘而IP承載網無任何告警,排查中發(fā)現是LSP路徑計算錯誤,其結果與ISIS路徑不一致而導致業(yè)務中斷。在這個案例里,建立LSP的協(xié)議并不掌握路徑預期,因此無法發(fā)現LSP路徑計算錯誤,也就無法發(fā)出告警通知路徑錯誤。
在轉發(fā)平面上,IP網絡不是同步網絡,其轉發(fā)機制無法定義預期,比如,業(yè)務報文要經過路由器A、B順序轉發(fā),但是B完全不知道A是否有報文會送到,有報文送到是正常,沒有也是正常,因此當A路由器故障無法轉發(fā)報文時,B無法告警。
此類故障最常見的情況是路由器間的光纖劣化,光纖上發(fā)生了丟包,但路由器上無告警。對于這類故障的排查需要花費大量的時間,需要按照承載網的轉發(fā)路徑,逐個路由器、逐條鏈路去排查,最終才能發(fā)現是光纖故障導致丟包。
厘清IP網絡故障管理難的根源后,排障的思路和措施就比較明確了,下文將給出華為針對告警多和無告警故障的解決之道。
通信工程師備考資料免費領取
去領取