华为云计算 云知识 蓝象-运维运营数据中台(HCS版)-

蓝象-运维运营数据中台(HCS版)-

蓝象-运维运营数据中台(HCS版)
适用于:Linux/Windows/Android/iOS/Unix/其他
商品简介:IT运营(AIOps)平台的人工智能将大数据,AI 机器学习和其他技术相结合,通过主动,个性化和动态的洞察力支持所有主要IT运营功能。
商品亮点:知识图谱,在cmdb基础上抽象运维对象的本体模型,建立资源图谱,形成动态资源画像,趋势预测,通过主成分分析等手段进行降维,通过自动分类器进行分类并打标,进而得到指标趋势预测模型,容器负载预测,利用容器间的负载变化关联进行更准确的负载预测,对负载数据建模为图预测下一时刻的负载,动态基线,时序数据进入实时数仓,数仓里有针对数据源和指标的管理模型,根据构建好的指标模型,网络流量异常检测,构建了网络图谱,整合各级链路,融合时序数据,进而深度对抗网络对齐框架
蓝象-运维运营数据中台(HCS版)
商品说明
版本: V1.0 交付方式: License
适用于: Linux/Windows/Android/iOS/Unix/其他 上架日期: 2022-05-05 08:57:29

金融领域的各大银行,国家各部位的GA以及电网,还有大型的工业企业等,其信息网络架构以及相关应用系统都非常庞大,在日常工作中,会有网络以及业务等相关故障的产生,如果再通过人工分析定位的运行维护方式,很难适应目前日益快速增长的业务需求。规模不断扩大的IT系统、日益复杂的系统架构,以及海量的IT运维数据对使用传统devOPS的运维人员而言都如芒在背。2017年,Gartner,全球做大的全球最具权威的IT研究与顾问咨询公司,在自己的报告中提出了AIOps的概念。 Gartner对AIOps的定义为:IT运营(AIOps)平台的人工智能将 大数据 ,AI 机器学习和其他技术相结合,通过主动,个性化和动态的洞察力支持所有主要IT运营功能。之后整个运维运营行业快速的将AIOps奉为了未来解决运维问题的必然方向。因此我司基于10余年在公检法IT运维运营的深厚经验,研发了自有的AI赋能的数据中台产品蓝象。 

以立体实时监控、全覆盖资源管理、多主题 数据仓库 为基座,将数据、算法和模型应用于 自动化 运维运营的任务和流程中,对标创新、竞争和生产力的前沿—大数据,海联推出了数据中台产品—蓝象。 

数据中台的公共组件层通过flume..这些主流工具进行系统对接和数据采集,并通过Kylin等多种数据预处理工具进行甲方数仓的搭建。提供离线、实时以及图计算能力。支持数据建模和 知识图谱 生成,并提供了系列算法库。在服务支撑层面,针对运维、运营进行 数据集 的构建,不断扩充异常检测、趋势预测以及根因分析的学件库,从而更好的支持智能数据服务。

 

应用性能监控产品通过主动监控终端用户真实体验及应用系统运行状态,实现针对业务系统的端到端性能监控与分析,帮助企业主动发现并处理业务系统各个环节的异常现象,确保应用系统能够达到预期的服务等级。应用性能监控与业务应用系统各核心环节一一对应,包括移动、浏览器、应用及主机模块,分别实现移动APP用户体验管理、Web页面用户体验管理、后端应用系统性能监控分析及主机性能监控。

数据采集通过一个开放的公共接口适配平台,包括统一认证、数据接入以及API封装等功能。在这个框架中,可以灵活的接入任意第三方的监控数据,以及第三方的应用和网络监控数据,接入后,由于各个三方平台接入数据的异构性,提供了一个灵活的数据映射工具,以统一的标准存入数据中台的CMDB、指标库以及告警库等。

 

首先我们提供了一个灵活的数据接入框架,可以对接任意第三方系统,将第三方监控系统的数据拉取过来,从而构建甲方的数据仓库,提供离线计算、实时计算以及图计算能力,支持数据建模和知识图谱生成,并且构建了一个AI赋能引擎,致力于运维中异常检测、根因分析、运营中容量规划、服务画像等的模型构建,提供智能的数据服务。

 

数据仓库采用雪花模型,基于ODS层各种数据,在DWD层构建各类数据模型,例如PPT上展示的是指标数据的事实表以及各种维度表,并在DWS层基于各种主题构建了相应的主题库,从而支持各种主题的大屏展现。

 

知识图谱,首先在cmdb基础上抽象了运维对象的本体模型。2,基于本体模型建立资源图谱,体现资源关联关系,并引入指标等时序数据构建时序知识图谱,形成动态资源画像。

 

趋势预测,针对数仓中的历史指标数据,首先通过主成分分析等手段进行降维,提取特征,通过自动分类器进行分类并打标,构建训练数据集。然后进行模型训练得到指标趋势预测模型,并通过权重优化提供输出的准确性。例如,我们发现容器业务类型不同,计算型容器,访问型容器,其负载的规律也不同,通过自动分类器区分不同类型的容器,预测负载,并通过加权调整适应那些特征不明显的容器。预测的好处首先是了解变化趋势,在运营中具有前瞻性。同时,可以协助进行故障发现和预警。

 

容器负载预测,在以微服务架构部署的在线业务系统中,相关业务被部署到不同容器,一个业务流会造成调用链上下游容器的负载指标同步变化。所以我们考虑利用容器间的负载变化关联进行更准确的负载预测,对负载数据建模为图,将容器作为图中的顶点,通过顶点间的边表示不同容器间的负载相关性,由于业务容器的动态部署和扩缩容等影响,这种容器间的相关性是动态的,我们无法事先获得节点间的拓扑关系,因此,构建了相关性学习模型,生成多变量时序图G,进而基于谱图卷积构建了负载预测模型, 将G转到谱域表示,学习序列间的规律;再从谱域转换到频域,学习序列内部的规律;最后通过全连接层(FC)预测下一时刻的负载。

 

动态基线,时序数据进入实时数仓,数仓里有针对数据源和指标的管理模型,根据构建好的指标模型,对历史和实时的时序数据进行预处理,区分出平稳型、周期型以及波动型,然后针对不同的特征选择合适的异常检测方法,检测出异常点,写入异常库从进行异常反馈。而波动型数据, 很难用同比、环比和固定阈值的方法去进行异常检测 ,必须用深度学习的模型进行检测。

 

关于设备异常检测,我们实现了一种基于单指标的异常检测方法。首先利用区间波动变化率方法进行特征提取,然后通过卷积神经网络和长短期记忆将空间特征和时序特征进行融合,丰富数据的特征表示。最后由分类判断模块进行异常检测,分类判断模块采用全连接进行非线性关系提取,由k-σ原则进行判断,对设备的状态做出检测。

 

在网络流量异常检测方面,我们首先构建了网络图谱,整合各级链路,融合时序数据;进而设计了深度对抗网络对齐框架,该框架首先使用深度对抗学习来发现复杂的网络映射,以对齐两个网络的嵌入分布。然后,使用我们学习的映射函数(生成器),执行一个有效的最近邻节点对齐,从而对网络流量异常有效进行检测。

 

服务异常检测方面,我们采取先预测再检测的思路解决这个问题。通过时序拓扑关系的服务调用图和含有日志语义关系的日志文字图,进行特征融合,获得服务预测模型,从而预测下一时间片最可能发生的服务调用。同时,我们通过历史指标数据训练出的一个无监督的异常检测模型,用以发现服务的指标异常。在实时检测时,我们通过服务预测模型预测下一个可能发生调用的服务,根据预测的服务进行有针对性的检测可以减少大部分的无用日志检测,更加有效的发现异常并产生告警。

查看详情

云商店免费试用中心

立即体验
Flexus应用服务器L实例 2核2G 免费体验