運維大數據與監控平臺
- 發布時間:2018-08-28
- 來源:
- 大 中 小
- 打印
銀行運維大數據監控平臺Sm@rtFinsight致力于全面采集銀行運維和運營過程中的軌跡數據,并將這一數據富礦作為銀行重要數據資產加以管理、分析和利用,助力銀行提高經營、運維和風險管理水平。
背景
隨著銀行IT系統越建越多,變化不斷,銀行在系統運維和業務監控方面面臨著各種各樣的問題:一方面系統運維的壓力增大。傳統的運維,一旦出現系統問題,只能一個個服務器排查,無法及時預判和快速定位,時效性差;普通的監控軟件只能監控網絡性能,無法真正梳理業務的訪問路徑;高峰交易時段,無法提前預判并改善用戶體驗;無法及時定位訪問路徑的各個節點的延遲。另一方面,銀行缺少對業務系統進行實時監控的IT手段,通常的T+1數據分析系統時效性差,無法滿足銀行領導隨時了解業務狀況,獲取決策支持的需求。多數風險案件需要回溯當時的網絡報文數據,業務系統無法辦到。
神州信息在充分理解銀行業務發展,銀行IT系統建設架構、業務服務標準和協議規范、業務邏輯處理等基礎上,利用實時和批量數據采集手段,獲取網絡流量、應用日志和業務數據的全面采集,并依托大數據實時分析、存儲技術及機器學習算法等技術,實現了以業務角度和場景化監控為基礎的數據可視化展示,為銀行IT運維和業務運營部門提供了完整的運維監控平臺。
目標與價值
銀行運維大數據監控平臺集全面運維數據采集、傳輸和存儲,實時數據加工與計算,大數據分析建模與機器學習算法,數據可視化展示和數據應用服務于一體,為銀行IT運維、業務穩定持續運營保駕護航。
● 建設目標
系統建設演進順序
銀行運維大數據監控平臺將網絡流量數據、業務報文數據、系統日志數據、應用日志數據以及業務交易數據等融于一體,構建多渠道、多維度的運維大數據平臺,利用先進的大數據技術,進行數據建模和數據挖掘,發現數據價值。該平臺既能滿足系統運維人員對網絡性能、應用性能的監控,又能為銀行的管理人員提供深度的業務洞察功能。它具有業務拓撲圖梳理、性能KPI指標監控和故障定位排除等功能,可對各類業務情況進行實時的分析和預測,提供系統性能和業務的監控和告警。為業務系統提供異常交易報表、實時審計報表、所見即所得的系統運維報表、業務運維大屏和運營監控大屏等數據展示服務。
● 業務價值
自主規劃業務監控場景主題。Sm@rtFinsight按照監控主題—監控指標—監控場景面板的結構,提供了靈活的監控指標展示方式,每一個監控指標都可獨立顯示,并通過自主布局的方式構建業務監控大屏。它將存量數據和實時采集數據相結合,為業務運維和IT運維提供實時監控、事件告警、安全審計、業務地圖、業務統計、行為分析、數據服務、異常檢查、日志查詢、故障排查、路徑關聯、性能分析、應用地圖等十多種應用服務。
從業務的視角而不是性能的視角提供監控數據服務。Sm@rtFinsight將各類方式采集到的業務監控數據存儲到大數據平臺,進行指標計算、業務關聯、分析建模、匯總統計、規則計算、特征計算等類加工處理,提供立體的運維大數據監控。
從專業角度建立銀行IT運維的健康指數。DC指數涵蓋了網絡性能監控、應用性能監控、業務性能監控、日志分析管理、動環監控等內容,提出了銀行IT及業務監控領域的關鍵考核指標。
整體架構
產品架構
邏輯架構
技術架構
系統支持前臺應用分布式部署,后臺數據集群部署,保證系統運行的穩定性和數據處理效率。
數據采集層:使用自有的網絡探針解碼TCP,HTTP協議;
數據管道層1:為了保證數據的安全性,所有數據先進入管道留存。通過網絡探針和寫入服務將數據導入管道層。
數據解析層:網絡報文經過探針解碼從二進制轉化為了字符串類型,我們還需要根據具體業務系統的報文協議解析報文頭和報文體。系統支持多種類型的報文協議,如核心系統內部、核心與ESB之間的業務報文、外圍系統和ESB之間的業務報文等。并解決了報文解析層分布式部署的問題。
數據管道層2:為了保證數據的安全性,解析層的數據會先在數據管道中留存。
數據存儲層:基于Hadoop分布式技術,滿足海量數據存儲。采用Hive數據存儲與列式關系型數據存儲相結合的方式,既滿足海量數據的歸檔存儲和離線分析,又滿足關系型數據聚合聚集的運算要求。
前端展示層:采用前端可視化展示組件進行數據展示。
產品特點
1、多種數據采集與融合
該平臺多渠道采集網絡數據、系統日志、應用端行為數據、業務數據進行線索關聯與數據融合,建立業務數據鏈路,形成數據全路徑鏈條,為業務分析、運營分析和運維分析等提供有效支持。
2、高速網絡旁路采集探針及協議解析
公司自有研發的旁路報文產品(SPAN/TAP/分光器的探針采集和解碼工具),是實現數據高速、實時采集和對數據進行網絡及應用協議解析的關鍵。旁路報文采集不影響生產環境,一個探針可以監控多個網段,并且部署方便靈活,相比其他采集方式,有著無可比擬的優勢。
3、大數據實時分析
它采用大數據技術構建實時分析平臺和多維展現平臺,為實時分析和歷史查詢提供數據支持。
4、建立多維性能監控體系
它對所有重要業務系統的應用性能實施監控,一旦故障發生能夠快速定位故障發生的業務組件,獲知影響范圍;并與基礎監控系統相結合,實現多維度監控;還可對關鍵性能指標進行多維分析。
5、實時掌握業務運行情況,提供洞察分析
該產品構建了業務可視化監控平臺,實現對關鍵業務系統運行狀況、上下游關聯系統運行狀況的統一展示,對業務量,交易額,渠道,地域等維度做對比分析,對各類業務情況和異常交易進行分析和預測。
6、監控主題—監控指標—監控場景面板立體監控
該產品提供15類監控場景、200多個監控指標和按照業務要求組合的監控場景面板,構成了較為全面的監控分析體系。通過監控指標的定義和擴展,整個監控的展示形式和內容都可以按需增加。
7、對運維風險和異常交易進行監控和告警
它可以及早發現全系統的性能和穩定性隱患;根據異常交易審計模型配置實時監控異常交易,并提供多渠道預警;支持各類所見即所得的報表。
8、基于機器學習和數據挖掘技術,助力業務運營、提升客戶體驗
該產品基于海量運維數據分析,利用機器學習(ML)算法和數學建模手段,對業務狀況、運維故障、交易風險進行預測和預判,助力業務運維和業務運營防范風險,提升客戶體驗。
產品功能
● 業務性能監控
業務性能分析是指依托對網絡性能和應用性能的監控和故障分析和定位,從業務視角分析問題。
1.業務健康視圖查看各業務系統的交易量,成功率和響應率內容,并可進行系統健康程度評分;
2.業務路徑拓撲圖可方便梳理分析業務系統路徑;
3.流量趨勢分析可提供系統的流量和容量的歷史情況,進行趨勢分析;
4.異常處理提供單筆交易追蹤和詳單查詢功能,進行故障的定位和故障鑒責。
5.性能KPI分析,包含交易量、成功率、交易渠道、交易延時、響應率、告警數據等指標的多維度分析。
業務流向、交易渠道、交易量、成功率、交易時長、響應率實時監控
● 業務洞察分析
業務洞察分析是實時業務監控分析的核心內容。它在協議解碼的基礎上對業務系統的各種類型規則進行業務解析,然后對關鍵業務類型進行計算并建模,實現分析預測,提供以下業務場景的多維度分析。
1.支付業務分析
提供交易量/交易額的統計和趨勢分析,渠道占比分析,業務種類占比分析,失敗類型/告警類型的占比分析,交易量/交易額的地區排名分析等。
2.柜臺業務分析
提供柜面業務的業務類型占比分析,存款/取款的交易量和交易額趨勢分析,新增客戶數量分行排名分析,新增網銀/手機銀行開戶數量分析,銷戶數和銷戶原因分析等。
3.電子銀行業務分析
提供電子銀行的交易量/交易額/開戶數統計,個人/企業網銀的交易量/交易額/開戶數統計,個人/企業手機銀行的交易量/交易額/開戶數統計,微信銀行的交易量/交易額/開戶數統計,手機系統類型占比和排名分析,電子銀行交易失敗類型占比分析等。
電子銀行交易監控
電子銀行交易渠道監控(大屏)
4.分行業務分析
提供分行交易量/交易額/開戶數排名,分行渠道交易量/交易額排名,分行渠道開戶排名(網上銀行,手機銀行等),分行新增存貸款額度排名,分行新增不良貸款額度排名等。
5.總行分行資金往來狀況
提供總行到支行資金轉入排名分析,支行到總行資金轉出排名分析、支行每日資金余額排名分析等。
6.異常交易分析
提供異常交易量/交易額統計,類型占比分析,交易量,渠道,時間,地區維度的頻繁交易分析、境外大額交易分析、異常時段交易分析,銀行卡異常交易的交易類型分析,電子銀行異常交易分析(異常交易類型、渠道別、趨勢分析)等。
7.歷史統計分析
提供本月/本年(新增)對公存款余額統計,(新增)個人存款余額統計,年(新增)對公貸款余額統計,(新增)個人貸款余額統計,(新增)對公客戶數量統計,(新增)個人客戶數量統計,(新增)個人網銀開戶數量統計,(新增)對公網銀開戶數量統計,(新增)同業存款余額統計,(新增)同業貸款余額統計,(新增)不良貸款額度統計等。
8. 業務量預測
提供本周/本月的新增對公存款余額預測,新增個人存款余額預測,新增對公貸款余額預測,新增個人貸款余額預測,新增對公客戶數量預測,新增個人客戶數量預測,新增個人網銀開戶數量預測,新增對公網銀開戶數量預測,新增同業存款余額預測,新增同業貸款余額預測,新增不良貸款額度預測等。
9. 自定義分析
多維度分析包括交易類型,交易量,交易金額,地區,渠道,成功率,失敗類型等占比、排名、地圖分析,并支持數據鉆取分析。
業務量監控指標
● 安全審計報表
安全審計報表包括系統運維報表、異常交易審計報表和根據用戶需求自由定義的報表。
信息科技系統事件是操作風險檢測的事件內容之一。系統運維報表是信息科技系統事件的重要展現,可以提供系統運行狀況,流量趨勢及系統出錯類型統計分析等各類報表。
異常交易審計報表是根據電子銀行(含個人/企業網銀,手機銀行等)和銀行卡等的審計模型進行告警設置,得到異常交易的數據和告警列表,可以進行告警分析也可以給業務提供數據服務。
系統支持所見即得的報表定義,可以選取任意應用和KPI指標的組合生成各種類型的報表,并且生成日、周、月定時發送。
● 熱點地圖
熱點地圖是熱點業務的地圖和熱力圖展示場景。熱點業務主要銀行關注的業務渠道,如電子銀行交易,柜臺交易,ATM/POS交易及全體交易的交易地區熱力圖等。
展示的地圖精度由數據精度決定,通常路徑為國家到省級再到市級等三級。
地圖展示1
地圖展示2
● 監控告警
監控告警是實時業務監控分析的重要場景。監控告警包含告警設置、告警類別和告警分析功能。
告警設置分為性能告警的設置和業務告警的設置。性能告警設置包含基線設置和閾值設置方式;業務告警設置指根據異常交易的審計模型進行設置。
告警可通過“聲”、“光”、“電”告警,并可通過手機、短信、郵件及微信等方式告知技術人員。
告警分析可進行告警明細確認,也可轉到轉到應用性能分析的異常處理界面進行系統故障分析定位等。
● 業務監控大屏
業務監控大屏是實時業務監控的大屏形式展現,可根據銀行需求自由定義展示界面、展示順序和刷新時間。通常,內容包括應用性能監控視圖和流量趨勢分析,各類關鍵業務分析、熱點業務的地圖分析、異常交易分析、告警列表等
● 數據服務
數據服務是實時監控分析系統可為其他系統提供數據接口。一、可提供流量類性能數據給前端系統或其他監控系統;二、可提供由異常交易審計模型監測到的異常交易數據給業務系統,以便業務系統采取措施(按照操作風險等級,若是異常交易告知客戶,若是高風險交易進行阻斷,若是違規操作則按照內容流程來處理),實現實時審計功能。
● 系統管理
系統管理包含配置管理和其他管理,其中配置管理包含探針定義、接口定義、模型定義、統一客戶視圖中可以查詢客戶的基本信息,評級信息,交易信息,賬戶信息,預警信息(大額、可疑報送記錄),調查信息(客戶盡職調查記錄),客戶的風險KPI信息,便于業務人員更好的確定客戶風險等級。
其中,探針定義和接口定義界面定義探針相關信息;模型定義和規則管理定義協議解析方式和規則等;任務管理設定探針的檢測任務;拓撲管理可以設定業務拓撲路徑圖。
檢測場景管理、指標管理、指標取數邏輯定義、頁面布局管理等功能充分支持系統監控范圍的按需擴展,按需布局。