大數據平臺
- 發布時間:2018-08-28
- 來源:
- 大 中 小
- 打印
概述
隨著信息化發展步入DT時代,數據在組織中的價值體現愈發凸顯,“數據驅動業務”的理念在各行各業快速扎根、發展,組織對數據價值的挖掘能力的要求也隨之愈來愈高。一種能與傳統關系型數據管理軟件能有效互補,彌補關系型數據管理軟件在多結構類型支持、海量數據處理、復雜實時/非實時計算分析等方面缺陷的數據處理軟件平臺呼之欲出。
神州信息大數據平臺(Sm@rtBDP)是基于Hadoop生態體系構建而成的可幫助組織快速建立高效、實時的“大數據”處理、分析能力的一體化數據開發、管理平臺,可為組織數據中心的大數據采集、大數據存儲、大數據計算、大數據分析及大數據分析提供輕量級解決方案。通過平臺提供的綜合數據治理和整合能力打通數據壁壘,連接數據孤島,實現海量數據的整合、存儲、查詢、統計、分析等功能。
產品介紹
神州信息大數據平臺(Sm@rtBDP)整體包括三大部分:大數據運行平臺、大數據監控平臺和大數據開發平臺。
大數據運行平臺用來提供大數據的運行環境包含分布式文件系統、資源管理、并行計算框架、內存并行計算、流式計算、集群協調服務、并行計算SQL執行器、并行計算腳本語言、消息中間件、列式數據庫、工作流、文件數據采集、關系型數據庫數據采集等大數據技術的運行環境。其中集成了23種Hadoop生態系統常用的組件,可以支撐多種計算類型的應用的混合負載,包括批處理應用、交互式查詢、高頻讀寫、全文檢索、數據挖掘和實時流計算等多種計算類型。各行各業可基于這些計算手段和方式進行上層應用的建設。在安全管理方面遵循國家標準,采用目前國內外先進的信息安全技術和有效的安全策略和技術手段,從平臺外部安全以及平臺自身安全著手,建立安全管控中心,提升平臺的服務和數據安全性。
大數據監控平臺是用來安裝大數據平臺運行環境、管理監控大數據平臺的集群環境。主要功能包括:監控集群的主機狀態、集群的磁盤使用情況、集群的CPU使用情況、集群的內存使用情況、集群的網絡使用情況;管理分布式文件系統、資源管理、并行計算框架、內存并行計算、流式計算、集群協調服務、并行計算SQL執行器、并行計算腳本語言、消息中間件、列式數據庫、工作流、文件數據采集、關系型數據庫數據采集等大數據技術;通過web的方式為集群添加主機、刪除主機,針對每個主機可以添加刪除各個大數據組件。
大數據開發平臺是為開發人員提供的平臺,能夠提高開發人員的開發效率。它為開發人員提供基于eclipse的開發插件,開發人員可以不用訪問大數據運行環境就可以進行開發測試及調試;基于WEB的訪問分布式文件系統,可以上傳文件、下載文件、刪除文件;提供了基于WEB的方式操作列式數據庫,可以查看列式數據庫數據中存在的表以及每個表的表結構,而且還能查看每個表里的數據;提供的數據采集的界面工具,提供對關系型數據庫的數據采集,支持手動執行數據采集和定時數據采集。大數據開發平臺還提供了對文本文件的數據采集支持對文本文件的增量數據采集和全量數據采集;提供并行計算框架、內存計算、流式計算的開發框架,開發人員可以更方便、高效的開發并行計算的程序。
適用場景
神州信息大數據平臺(Sm@rtBDP)可提供對以下應用場景的良好支撐:
■ 大數據復雜分析:能夠充分利用集群的并行計算能力支撐海量數據復雜分析。
■ 大表查詢和分析:能夠對歷史數據進行復雜查詢分析,例如億級數量以上數據復雜查詢或批量分析。平臺能夠利用集群的并行計算提高查詢速度,支持高并發、高吞吐查詢。
■ 海量歷史數據存儲:能夠以極高的性價比支持海量歷史數據的存儲。利用平臺的廉價存儲,可將數據存儲到布式文件系統(HDFS)中,提供查詢分析服務。相對于傳統共享儲存性價比更高,相對帶庫使用方便。
■ 龐大的網頁數據分析,如輿情分析、社會滿意度分析:能夠基于網頁數據,實現數據整合及數據分析處理。大數據平臺提供分布式存儲、并行化計算框架、機器學習庫等支撐能力。
■ 非結構數據存儲:支持報表、圖片,互聯網采集的文本等非結構化數據存放到分布式文件系統HDFS中。在大數據平臺分布式文件系統下存儲數據可靠并使用方便。
■ 實時信息處理:支持高并發(每秒5000筆以上)的實時信息處理。采集的數據不落地,基于內存進行實時計算及查詢。
價值
■ 多數據類型存儲管理技術,可同時提供結構化、半結構化及非結構化數據的存儲管理及訪問服務支持;
■ 可線性擴展的分布式平臺,可輕易支撐海量數據(PB級)存儲及并行計算;
■ 海量數據中檢索數據的毫秒級響應能力,可輕松破解常規關系數據庫中同樣場景存在的性能問題;
■ 豐富的流式計算組件支持,提供如大屏展示、實時數據展現等業務場景的支撐能力;
■ 功能全、質量高、價格優,可助客戶以較低的投入完成相同需求的支撐實現。
優勢
■ 高性能。對于實時數據計算能力能夠達到秒級;進行的關系型的數據查詢測試,取得3~6倍的性能優勢;
■ 高可靠性。從硬件、文件系統和分布式計算框架所有層面采用高可靠設計架構,有效地防止基于開源產品的不可靠問題;支持集群中某臺機器宕機或者某臺機器出現故障時,實時計算集群保障數據不會丟失、業務可以正常進行;
■ 高穩定性。支持業務的連續性,在企業IT環境下,提供可靠、安全穩定的7x24 服務;
■ 高兼容性。支持各種操作系統如REDHAT, CENTOS等主流Linux操作系;支持各類的硬件平臺,如IBM的服務器、HP服務器、PCServer、X86虛擬機等;
■ 簡單易用,靈活開放。可視化界面,鼠標拖拽添加功能模塊,易維護;Hadoop架構可以輕松擴展到數千節點,支持在運行階段不宕機的情況下添加集群里的機器,在集群機器里添加組件;支持橫向擴展部署,支持幾乎不受限制的系統橫向擴展需要;全面兼容Apache Hadoop發行的版本,支持Hbase、Pig、Hive、MR、Oozie等各種開源方案;
■ 高度集成,自主創新。提供統一的集群及服務管理,具有標準的服務框架和豐富的API,能夠方便接入新的組件并進行管理,也能便捷地與其他系統集成;安全性以多個層次加入和集成到平臺中。提供用于身份驗證、授權、可歸責性以及數據保護的關鍵功能,確保平臺及數據安全;高性能。