原標題:中國移動設計院:基于大數(shù)據(jù)的人工智能運維服務支撐方案 來源:移動labs
01 概述
在運營商傳統(tǒng)網(wǎng)絡運維中,巡檢、告警分析、故障處理等工作長期積累了豐富的經(jīng)驗,其價值并未被充分挖掘。同時,目前的人工運維存在系統(tǒng)復雜耦合度高、數(shù)據(jù)來源多種多樣、人工維護風險度高,修復間隔時間過長、人員培養(yǎng)難度大等現(xiàn)狀,導致了性能相關(guān)告警不明確、無效告警篩查規(guī)則缺失、故障維護只能被動解決,優(yōu)化/維護工單重復派發(fā)等問題,影響網(wǎng)絡運維的效率和成本。為了優(yōu)化網(wǎng)絡運維的工作模式,提升網(wǎng)絡運維準確性及效率性,提出集中維護支撐服務項目,基于人工智能(artificial intelligence)的運維解決方案旨在強調(diào)實現(xiàn)以維護為中心,依托大數(shù)據(jù)挖掘技術(shù)與深度學習算法, 實現(xiàn)問題早發(fā)現(xiàn),由被動處理問題改為積極預防問題,從而提高整體資源的利用率和維護效率。
02 基于人工智能(ai)核心算法
2.1 聚類算法(kmeans)
通過對多維度求歐拉距離(或余弦距離),不斷的迭代對隱患進行聚類,找到關(guān)鍵核心點的特性進行隱患挖掘。k-means算法是基于多維度距離的聚類算法,通過設置參數(shù)k,將樣本點分為k個緊湊且獨立的簇,每個簇由與簇的質(zhì)心歐拉距離靠近的樣本點組成。
計算步驟:
· 隨機選取k個中心點遍歷所有數(shù)據(jù),將每個數(shù)據(jù)劃分到最近的中心點中· 計算每個聚類的平均值,并作為新的中心點
· 重復2-3,直到這k個中線點不再變化(收斂了),或執(zhí)行了足夠多的迭代以每個基站作為樣本點,以其性能指標參數(shù)及歷史告警類別和頻次作為特征,對所有有告警基站進行k-means聚類,通過不斷迭代將將告警類型依據(jù)相似性能指標進行聚類,深入挖掘各類告警的關(guān)鍵核心特征,作為基站畫像、隱患挖掘與管理的基礎。
2.2 常規(guī)分類算法(邏輯回歸,knn,決策樹,隨機森林)通過把相似隱患進行歸并,可以對隱患進行分級,從而方便查找隱患的級別。常規(guī)分類算法是有監(jiān)督的機器學習算法,對于給定的目標類別,將樣本進行分類。
邏輯回歸:基于sigmoid函數(shù)的多特征的二分類/多分類廣義線性回歸。通過建立代價函數(shù)并利用梯度下降優(yōu)化的方法,實現(xiàn)多樣本的分類。
knn:k最近鄰(knn,k-nearestneighbor)分類算法是數(shù)據(jù)挖掘分類技術(shù)中最簡單的方法之一。所謂k最近鄰,就是將每個樣本分類為它最接近的k個樣本的類別均值。
決策樹:決策樹又稱為判定樹,是運用于分類的一種樹結(jié)構(gòu),其中的每個內(nèi)部節(jié)點代表對某一屬性的一次測試,每條邊代表一個測試結(jié)果,葉節(jié)點代表某個類或類的分布。決策樹的決策過程需要從決策樹的根節(jié)點開始,待測數(shù)據(jù)與決策樹中的特征節(jié)點進行比較,并按照比較結(jié)果選擇選擇下一比較分支,直到葉子節(jié)點作為最終的決策結(jié)果。
隨機森林:從樣本集中選取n個樣本,構(gòu)建決策樹,并重復這一步驟m次形成m個決策樹,通過投票表決決定樣本類別。
以基站作為樣本點,通過分類方法可以將基站分為隱患基站和非隱患基站。通過對隱患基站性能指標參數(shù)、資產(chǎn)信息、地理信息及告警類型級別作為特征,對基站告警隱患進行分級,確定基站隱患級別,實現(xiàn)對基站健康度打分。并可根據(jù)已訓練好的機器學習模型對新樣本進行健康度評估。實現(xiàn)設備狀態(tài)預判。對于隱患級別高的基站進行重點關(guān)注,并將其對應的性能參數(shù)指標作為隱患基因統(tǒng)計進入隱患管理庫。
2.3 異常檢測算法
核密度估計(kernel density estimation)是在概率論中用來估計未知的密度函數(shù),屬于非參數(shù)檢驗方法之一。所謂核密度估計,就是采用平滑的峰值函數(shù)(“核”)來擬合觀察到的數(shù)據(jù)點,從而對真實的概率分布曲線進行模擬。
核密度估計可用于進行異常檢測,計算正常樣本之外的異常分布可能性,用于異常數(shù)據(jù)分析、特殊場景分析。對于完成畫像的基站樣本點,對于未發(fā)生告警的基站進行異常檢測,可以發(fā)現(xiàn)性能指標相對于正常值(不會觸發(fā)告警的性能值)發(fā)生偏離的樣本點,動態(tài)自適應設定告警閥值,觸發(fā)維護工單。有效預警,降低站點告警故障。
2.4 深度置信網(wǎng)絡(dbn)
深度置信網(wǎng)絡是一個概率生成模型,與傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡相對,生成模型是建立一個觀察數(shù)據(jù)和標簽之間的聯(lián)合分布,對p(觀測值|標簽)和 p(標簽|觀測值)都做了評估。
dbns由多個受限玻爾茲曼機(restricted boltzmann machines)層組成,一個典型的神經(jīng)網(wǎng)絡類型如圖所示。這些網(wǎng)絡被“限制”為一個可視層和一個隱層,層間存在連接,但層內(nèi)的單元間不存在連接。隱層單元被訓練去捕捉在可視層表現(xiàn)出來的高階數(shù)據(jù)的相關(guān)性。深度置信網(wǎng)絡可以用于樣本目標的數(shù)值預測以及樣本類別的分類。
對于樣本類別的分類,與常規(guī)分類算法應用相似。實現(xiàn)基站告警隱患分級,康度打分。并可根據(jù)已訓練好的機器學習模型對新樣本進行健康度評估。實現(xiàn)設備狀態(tài)預判。
對于樣本目標的預測值,通過深度置信網(wǎng)絡實現(xiàn)基站特征異常概率分析等功能。針對網(wǎng)絡性能指標特征的異常情況,進行概率預判,即嘗試對“亞健康”網(wǎng)絡進行預判。預先判斷網(wǎng)絡問題,減少和性能告警、設備故障實際發(fā)生的概率。
2.5 堆疊自動編碼器(sae)
自編碼器(autoencoder)是一種無監(jiān)督的學習算法,主要用于數(shù)據(jù)的降維或者特征的抽取。autoencoder通過深度置信網(wǎng)絡進行預訓練,從而確定網(wǎng)絡權(quán)值的初始值。其目標是讓輸入值等于輸出值。首先用網(wǎng)絡權(quán)值矩陣對輸入進行編碼,經(jīng)過激活函數(shù)后,再用矩陣轉(zhuǎn)置進行解碼,從而使得輸出數(shù)據(jù)等于輸入。該過程可以看作是對輸入數(shù)據(jù)的壓縮編碼,將高維的原始數(shù)據(jù)用低維的向量表示,使壓縮后的低維向量能保留輸入數(shù)據(jù)的典型特征。
為實現(xiàn)智能站點畫像,需要對站點的性能指標,資產(chǎn)信息,地理信息,歷史告警信息等多維特征進行梳理。通過自編碼器可以對大量特征進行梳理并降維,最終形成構(gòu)成基站健康度指標的多維特征,可對后期的異常檢測,告警預測,隱患管理降低輸入數(shù)據(jù)維度,降低計算成本。
2.6 循環(huán)神經(jīng)網(wǎng)絡(rnn)
循環(huán)神經(jīng)網(wǎng)絡可用于時間序列相關(guān)的樣本取值預測。在傳統(tǒng)的神經(jīng)網(wǎng)絡模型中,是從輸入層到隱含層再到輸出層,層與層之間是全連接的,每層之間的節(jié)點是無連接的。rnns之所以稱為循環(huán)神經(jīng)網(wǎng)路,即一個序列當前的輸出與前面的輸出也有關(guān)。具體的表現(xiàn)形式為網(wǎng)絡會對前面的信息進行記憶并應用于當前輸出的計算中,即隱藏層之間的節(jié)點不再無連接而是有連接的,并且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理論上,rnns能夠?qū)θ魏伍L度的序列數(shù)據(jù)進行處理。
03 端到端運維功能架構(gòu)
3.1 網(wǎng)絡運營中心noc
端到端的運維架構(gòu)主要由兩大部分組成:網(wǎng)絡運營中心noc(network operation center)和現(xiàn)場外線。

figure 1. end to end operational architecture圖1.端到端運維功能架構(gòu)
noc(網(wǎng)絡運營中心)是實現(xiàn)遠程實時監(jiān)控服務運營和檢測設備狀況的網(wǎng)絡化中心,主要涉及運維設計、運維監(jiān)控、故障分析、診斷測試等幾大功能模塊,可結(jié)合運營商eoms(electric operation maintenance system)電子運維系統(tǒng)進行任務工單派發(fā),將noc嵌入現(xiàn)有運維流程可提高相關(guān)技術(shù)、流程、組織及管理效率,進而提升網(wǎng)絡與服務的穩(wěn)定性與可預見性。
現(xiàn)場外線主要是承載、處理、閉環(huán)emos電子運維系統(tǒng)所派發(fā)任務工單,包括現(xiàn)場維護人員的任務調(diào)度、資源調(diào)度及最終的排障巡檢。
3.1.1 運維設計功能
運維設計功能主要包括兩部分功能設計:運維規(guī)則設計與ai輔助規(guī)則設計。

figure 2. design function of operation and maintenance圖2.運維設計功能
其中運維規(guī)則設計主要來源于運營商長期積累的相關(guān)運維經(jīng)驗,制定分析規(guī)則、診斷規(guī)則、派發(fā)規(guī)則、調(diào)度規(guī)則、激活規(guī)則等,將上述規(guī)則應用于可視化設計分析中,為自動化運維提供快速設計能力。
ai輔助規(guī)則設計則是由傳統(tǒng)技術(shù)專家進行專業(yè)設計轉(zhuǎn)變?yōu)橥ㄟ^ai技術(shù)輔助進行根因規(guī)則設計。將相關(guān)網(wǎng)元類型、告警類型、告警信息、告警碼、位置信息等作為輸入項,通過神經(jīng)網(wǎng)絡相關(guān)算法最終輸出ai輔助規(guī)則。
3.1.2 運維監(jiān)控功能
通過對數(shù)據(jù)源、數(shù)據(jù)表等分析進行場景監(jiān)控設計,可視化呈現(xiàn)多系統(tǒng)、多界面的監(jiān)控。

figure 3. operation and maintenance monitoring function圖3.運維監(jiān)控功能
場景運維監(jiān)控可對網(wǎng)絡全景監(jiān)控,也可選擇性針對主題監(jiān)控,定制適合實際需求的個性化監(jiān)控功能。將之前被動運維、基本無故障預測轉(zhuǎn)變?yōu)殡[患故障可預測及規(guī)避。
3.1.3 故障分析功能
通過部署rca(rootcauseanalysis)根本原因分析規(guī)則挖掘工具,根據(jù)算法學習出固有規(guī)律,形成規(guī)則放入rca中進行告警根因查看和告警抑制壓減。

figure 4. fault analysis function
圖4.故障分析功能
再結(jié)合性能指標、參數(shù)配置、相關(guān)變更情況、問題日志等進行多源關(guān)聯(lián)分析,從而對故障進一步確認,提高故障分析的準確性及效率性。
3.1.4診斷測試功能
診斷測試功能主要包含人工診斷指令及自動診斷腳本兩部分。

figure 5. diagnostic test function
圖5.診斷測試功能
首先通過人工診斷指令下發(fā)至ems,再由ems反饋診斷結(jié)果至人工診斷指令部分;自動診斷腳本可批量生成指令,再由ems反饋上報相關(guān)診斷報告,將診斷結(jié)果或診斷報告中異常問題自動創(chuàng)建維護工單并指派現(xiàn)場處理,交由現(xiàn)場工單管理,進行后續(xù)流程處理。
3.1.5工單派發(fā)功能
工單關(guān)聯(lián)rca的關(guān)聯(lián)規(guī)則,進行根故障派單,子故障合并派單,綜合考慮網(wǎng)絡拓撲、運維經(jīng)驗等信息,例如同一基站下所有小區(qū)退服,則合并為一個業(yè)務工單,從源頭減少派單量,提高故障解決效率。

figure 6. distribution function of work lists圖6.工單派發(fā)功能
t1告警消除最大量時間點,t2為關(guān)聯(lián)指派時間點,t3為告警派發(fā)最長時限,通過分析歷史告警,給出最佳關(guān)聯(lián)時間點閾值,減少消除告警的無效派單量,通過關(guān)聯(lián)減少派單總量,提升運維效率,通過動態(tài)設置派單時間閾值,追加合并派單,減少無效派單、重復派單。
3.2 現(xiàn)場外線配合
3.2.1 故障單處理
集中故障告警平臺針對告警監(jiān)控進行結(jié)果輸出,在創(chuàng)建tt(trouble ticket)工單之前,需要等待一定告警清除時間,避免相關(guān)工單追回。當系統(tǒng)收到tt的告警清楚消息后,可以自動關(guān)閉tt單和相對應的wo(work order)單。

figure 7. fault single processing
圖7.故障單處理
通過運維經(jīng)驗和對歷史工單進行機器學習、挖掘工單相關(guān)性規(guī)則,啟動策略歸并重復工單,去除無效工單。
3.2.2 任務及資源調(diào)度
對于外部系統(tǒng)派發(fā)的tt單,在某些應用場景下,不需要相關(guān)分析處理,可以直接派發(fā)至外場工程師處進行解決。對于這種應用場景,系統(tǒng)提供tt單自動受理并派發(fā)子單的功能。當系統(tǒng)接收到tt單時,自動以系統(tǒng)超級用戶來受理tt單,然后進行處理,在處理該步驟時可自動選擇生成wo單,并生成子單。智能調(diào)度主要是將任務通過ai調(diào)度引擎進行工單計劃制訂、位置及路線規(guī)劃、員工能力及工具需求分析,把任務與資源相結(jié)合達到最佳匹配效果。通過人員調(diào)度、資源調(diào)度、路徑規(guī)劃等可實現(xiàn)工單“零”時間指派、合理安排人員工作任務量,提升派單準確率、提升平均工單響應時長及資源使用效率。
3.2.3 自動巡檢管理
自動巡檢管理主要涉及巡檢配置管理、巡檢規(guī)則管理、巡檢任務列表、指令適配/執(zhí)行及自動輸出巡檢報告功能。

figure 8. automatic inspection management
圖8.自動巡檢管理
巡檢配置管理包括基礎數(shù)據(jù)配置管理、設備網(wǎng)元配置管理、任務/方案管理及門限管理/通知管理。
巡檢規(guī)則管理是為制定相關(guān)巡檢規(guī)則(專業(yè)網(wǎng)信息、作業(yè)計劃)等以及配置解析規(guī)則。
巡檢任務列表可對巡檢計劃接口定義、巡檢定時任務、巡檢任務列表查看。
指令適配及執(zhí)行由自動巡檢功能發(fā)現(xiàn)維護類問題,通過模板初始化規(guī)則及指令創(chuàng)建規(guī)則生成巡檢測試工單,再與指令模板進行匹配映射創(chuàng)建巡檢任務,指令執(zhí)行后將指令結(jié)果反饋閉環(huán)輸出巡檢報告。

figure 9. automatic inspection process
圖9.自動巡檢流程
將相關(guān)維護要求結(jié)合站點資產(chǎn)信息;歷史數(shù)據(jù)包含告警次數(shù)、故障處理次數(shù)、站點話務量、數(shù)據(jù)量等信息;地理位置、區(qū)域、地形特征(高山、平原、河岸、洼地等)、耐候性;氣象機構(gòu)輸出的相關(guān)天氣數(shù)據(jù),共同制定動態(tài)巡檢計劃,聚焦故障高發(fā)站點,主動預防歷史故障重發(fā),減少維護資源的浪費。
3.2.4 隱患管理
隱患管理主要針對異常項目生成智能巡檢告警,自動完成對告警信息的分析,自動生成維護作業(yè)計劃告警工單,維護人員根據(jù)隱患工單來處理隱患問題。

figure 10. intelligent inspection
圖10.智能巡檢
在巡檢設備上(鐵塔、基站等),放置nfc(near field communication)標簽,通過近距離無線通訊技術(shù),巡檢人員按照路線的設置,依次到每個地點進行巡檢,自動顯示巡檢內(nèi)容并根據(jù)需求填寫巡檢的內(nèi)容。
04 端到端運維軟件架構(gòu)

figure 11. end to end operation software architecture圖11.端到端運維軟件架構(gòu)
端到端運維系統(tǒng)軟件架構(gòu)主要包括5個部分,原始數(shù)據(jù)、數(shù)據(jù)etl(extract-transform-load)、數(shù)據(jù)存儲和后臺業(yè)務處理、業(yè)務處理控制、業(yè)務展現(xiàn)層。
其中原始數(shù)據(jù)可通過北向平臺、eoms工單系統(tǒng)、代維資產(chǎn)管理系統(tǒng)、動環(huán)檢測系統(tǒng)及外部相關(guān)api接口數(shù)據(jù)(地理天氣數(shù)據(jù)信息)。通過數(shù)據(jù)etl處理用來將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、交互轉(zhuǎn)換(transform)、加載(load)至目的端,從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。將相關(guān)數(shù)據(jù)存儲至hadoop集群中,通過ai平臺算法及功能(聚類算法、常規(guī)分類算法、異常檢測算法、深度置信網(wǎng)絡、堆疊自動編碼器、循環(huán)神經(jīng)網(wǎng)絡等)結(jié)合專家知識庫進行智能任務調(diào)度及后臺業(yè)務處理。業(yè)務處理控制主要細化各模塊功能,通過相關(guān)業(yè)務邏輯中間件實現(xiàn)模塊功能。業(yè)務展現(xiàn)層,基于前端公共模塊相關(guān)技術(shù)對站點畫像、區(qū)域畫像、隱患管理、地理化分析等界面化呈現(xiàn)。
05 基于ai的運維實施應用
5.1 站點畫像
通過學習借鑒互聯(lián)網(wǎng)用戶畫像技術(shù),基于多維網(wǎng)絡運維數(shù)據(jù),引入ai特征畫像和異常檢測算法、輸出網(wǎng)絡特征的站點畫像,為智能運維各模塊提供全景式特征畫像和數(shù)據(jù)支撐,實現(xiàn)隱患站點分級標簽化。整合系統(tǒng)自身大量的多渠道、多維度的基礎數(shù)據(jù)作為輸入,通過無監(jiān)督學習算法進行聚類及異常檢測,輸出具有網(wǎng)絡特征的站點畫像標簽及指標異常站點列表。
(1)站點健康度評估
基于站點設備種類、性能情況結(jié)合站點環(huán)境、停電情況、備電時長、站點歷史故障等信息建立站點健康度評估指標體系,并設定告警閾值自動觸發(fā)維護工單,并有效預警,降低站點告警故障。

figure 12. site health assessment
圖12.站點健康度評估
(2)區(qū)域可視化
采用多種代維指標和站點客觀運行指標,可以實現(xiàn)區(qū)域綜合可視化,以區(qū)域為對象,提供整體指標統(tǒng)計分析,用于運維提升支撐。

figure 13. table evaluation of regional indicators圖13. 區(qū)域指標評估評估
(3)站點維護成本分析
通過對歷史故障維護數(shù)據(jù)包括維護人員、車輛、油機、故障發(fā)生頻率等信息提供站點維護成本數(shù)據(jù);為過程成本量化、站點維護預算及后續(xù)投標成本核算提供數(shù)據(jù)支撐。
利用ai算法實現(xiàn)告警智能分類,針對具體故障提供智能決策,指導運維人員故障處理,建立員工與工單之間的映射,實現(xiàn)工單精準指派,減少工單派發(fā)數(shù)量,提升工單派發(fā)質(zhì)量,同時關(guān)聯(lián)app,縮短故障恢復時長。達到“降本增效”的目的。

figure 14. maintenance process management
圖14 .維護過程管理
(4)制定站點維護計劃
基于站點重要級別、歷史故障信息、天氣狀況等制定維護計劃;對維護備件提供預測管理并減少站點故障率,降低單站維護成本。

figure 15. site maintenance plan management
圖15 .站點維護計劃管理
5.2運維效率分析
(1)gis資產(chǎn)全景圖
對資源信息(人員、車輛、站點、油機)進行實時位置展示,工單關(guān)聯(lián)、軌跡回放;實時了解資源狀況,方便調(diào)度管理。

figure 16.gis asset panorama
圖16.gis資產(chǎn)全景圖
(2)“賽馬”dashboard
通過現(xiàn)場大屏監(jiān)控對項目基礎維護信息、人員效率指標、車輛效率指標、油機效率指標進行實時和趨勢分析呈現(xiàn),監(jiān)控中心隨時了解項目整體效率情況及區(qū)域賽馬情況。

figure 17. monitoring information on large screen圖17.現(xiàn)場大屏監(jiān)控信息
(3)人員效率指標分析
對人員工單效率指標進行統(tǒng)計分析,包括上站任務詳細信息及工作時長信息;對車輛效率指標分析,包括上站里程、規(guī)劃里程分析;發(fā)現(xiàn)人員運維效率短板進行改進,提升效率。

table 1. overall statistical data for efficiency indicators表1. 效率指標總體統(tǒng)計數(shù)據(jù)
(4)app掌上運維
管理人員可通過移動app應用實時掌握了解項目運維情況及人員效率情況,并為管理人員提供實時運維決策效率數(shù)據(jù)支撐。

figure 18.app management cockpit
圖18.app掌上運維
(5)故障預測
過去運維工作都是在進行大量的事后處理工作,現(xiàn)在,通過運維專家梳理,選取動力環(huán)境、歷史工單、網(wǎng)絡性能、天氣停電、故常告警、綜合資管等多個維度特征,構(gòu)建訓練數(shù)據(jù)集。同時,我們選取了多種ai模型進行對比測試,最終確定選用多層lstm循環(huán)神經(jīng)網(wǎng)絡實現(xiàn)小區(qū)退服告警預測,以達到故障預警分析的目的,實現(xiàn)了變被動處理為主動預防的運維思路轉(zhuǎn)變,擺脫“救火隊員”的運維狀態(tài),達到對故障的事先預判。

figure 19. fault prediction
圖19.故障預測
06 總結(jié)
通過運營商網(wǎng)絡部、網(wǎng)管、分公司、縣公司一線維護人員目標使用者,基于人工智能(ai)的運維解決方案,可提高維護效率和能力,預防性主動運維能力、快速響應的報告能力、快速應急處理能力、自動化減少人為工作量、經(jīng)驗移植減低人員要求、支持市場前線的分級保障能力。使平臺融入運維生產(chǎn)中,實現(xiàn)商業(yè)目標。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“機電號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of JDZJ Hao, which is a social media platform and only provides information storage services.
