行业挑战
经过多年信息化建设,该大型公共服务企业全国运营中心服务器设备数量已经达到上万台,IT基础资源包括硬件资源、网络资源、私有云资源、操作系统及数据库资源等。
综合分析目前该企业IT基础资源运维监控的现状,主要面临以下挑战:
(1) 监控系统及工具种类繁多,缺乏全局视角。
现有IT基础资源监控系统及工具种类繁多、独立性强,模块耦合程度高,功能迭代周期长,监控指标覆盖不全,难以满足当前复杂的监控场景需求。
(2) 运维监控数据快速增长,尚未有效整合。
随着信息化的迅速发展,服务器、存储、网络等基础架构设备数量快速增长,产生了海量的运行、监控、管理数据,进一步探索和挖掘这些运维数据的价值,提升整体运维效率,就成为当前所面临的挑战。
(3) 缺少智能运维分析手段,联动能力不足。
当前运维阶段,难以对事前故障预测、趋势分析,事中的异常检测,事后的故障定位和根因分析等场景做到多维度联动的智能分析,急需引入新的技术手段进一步提高运维效率。
(4) 欠缺知识库系统,未能对运维经验有效积累。运维人员常会面对各种重复的问题解决,如果大多数人的问题及解决方案都可以从知识库中方便、快捷的获取,就可以减少甚至避免这种现象发生,从而达到提升运维工作效率、降低IT运维成本的目的。
建设思路
本着全局规划平台方案,分期分步推进项目落地的原则,基于智象科技强大IT一体化智能运维产品能力,制订出整体方案:下有数据支撑、上有应用场景、中有运维数据处理平台,以更好的满足该企业基于数据治理闭环,完善多维运维场景,实现业务运维价值显性化的项目目标诉求。平台总体功能,以数据处理逻辑闭环为坚实底座,分为数据的集中采集、数据支撑、数据处理,在此数据底座之上,基于灵活、开放的产品技术架构,可灵活实现应用场景的构建以及扩展,并通过丰富、强大、可自定义编排的运维展现层满足不同角色的运维场景需求。
平台架构图
(一)数据采集层
通过SNMP、IPMI、PING、HTTP、SSH、Telnet、WMI、Agent、API 等多种技术协议和方式,实现对不同类型、不同格式的数据源进行采集及上报等功能,数据包括但不限于告警事件数据、业务应用数据、性能指标数据、日志数据、配置管理数据、流程管理数据以及其它需要集成的运维相关数据。
(二)数据支撑层
通过资源配置管理模块平台对采集上报的数据进行分类、集中管理、拓扑关系建立等,实现对原数据的存储、清洗、关联、合并、补齐等操作,为运维数据处理平台的数据处理和应用层的场景中心数据消费提供基础数据支撑。
(三)数据处理层运维数据处理包含有四部分能力:运维大数据处理、机器学习、流数据处理以及算法处理能力。基础数据统一存放消息队列以及实序数据库,采用实时流处理的架构对数据进行解析、格式化、聚合运算、关联运算等实现相关数据的解析处理分析功能。同时通过统计分析、数据挖掘、预测分析等方式对历史数据进行分析,发现数据中的关系、规律和趋势,为应用场景提供数据依据和决策指导。
(四)应用场景层
运维应用场景包含监控管理中心、智能运维中心、自动化运维中心以及运营决策中心,该层是对运维数据处理平台标准化后的数据进行统一消费及场景展现。同时可以基于运维数据处理平台的能力进行灵活扩展,实现自动告警降噪、指标异常检测、容量趋势预测、综合故障定位、自动运维、故障自愈、调用链异常定位等场景,帮助运营决策中心实现系统基础资源健康度、知识积累、决策分析等功能场景。
项目业务价值
(1)
建立一套集团完整的资产配置管理平台,资源全生命周期作业管理标准,支撑集团随时掌握资产运行现状,帮助运营部门分析资产生命周期、剩余可服役年限,资产容量等,实现精细化运维管理。
网络拓扑、业务拓扑自动跟踪,自动生成网络、业务系统关系网,实时监测异常事件,为业务排障提供快速定位的能力,降低业务故障修复时长。
自动执行各种日常管理任务,例如自动化部署、自动化配置管理、自动化测试等等。减少人工干预和手动操作,提高效率和准确性。
帮助运营中心提高运营工作的可靠性和稳定性,确保系统的配置和环境的一致性,可自动应用安全策略和措施,保持系统的稳定性,减少安全漏洞和人工操作或者配置不一致引起的故障和问题。