统一运维管理平台解决方案01平台定位与需求分析02平台建设方案概述大数据资源平台·统一运维平台的总体定位统一运维平台负责对大数据资源平台所涉及到的基础资源,以及内部各子平台系统的运行情况进行全面的监控,及时发现平台的各类异常并通知维护人员,以保证平台的正常运行,提升平台内外客户的感知。构建面向业务的,主动式、智能化的统一平台运维体系建立快速故障和风险识别与预警并主动修复的运维能力保障大数据资源平台各子系统稳定性和业务连续性实现政府大数据中心的运维工作与平台业务目标的融合平台建设核心需求:构建面向“设备-数据-系统-业务”的统一运维能力体系构建大数据资源平台统一运营与维护管理能力体系,对大数据资源平台的基础设备、数据、系统、业务进行统一运营管理,提供IT运维监控、业务可视化监控、业务端到端管理、数据质量保障等多个领域的综合运维管理能力,为平台业务运行保驾护航,保障平台应用的业务目标。以数据驱动运营管理,辅助运营运维决策;利用数据可视化技术展示综合运营情况,提供统一运营管理视图,掌握运营态势。管理人员构建闭环运维管理,明确职责分工,保障系统稳定运行;固话化运维流程、实现运维流程电子化、移动化;全链路质量管控,业务服务实时监控与分析,保障业务服务稳定运行。
构建面向业务的数据驱动的主动式运维管理人员统一监控管理能力统一运维监控管理视图综合保障精细化运维能力统一运维操作能力统一运营流程管理能力全流程业务管理能力统一资源管理能力统一运营分析管理能力对物理、逻辑、应用、业务资源的全面管理;实现对设备、数据、系统等统一监控运营保障;对日常运维操作通过编排,任务定制形成操作场景,实现自动化处理故障恢复。监控流程资源流程规范业务级运维管理规则数据工具日志配置推送流程管理采集操作告警系统级可视化运维管理视图运营分析用户感知运维人员大数据管理中心·统一运维管理能力体系01平台定位与需求分析02平台建设方案概述方案概述·基于HG智能IT监控与运维平台,构建面向业务的数据驱动的主动、智能的运维体系连接设备/系统资源连接相关人员全面整合数据历史故障数据维护工程师运维主管业务规则业务人员运维流程多终端连接数据与业务整合指标/参数数据智能IT监控与运维管理平台资源管理数据采集数据清洗故障探测智能预警诊断运维运维流程管理集中监控统一分析大数据能力AI能力数据建模/标注机器/深度学习规则模型非结构化数据处理业务化系统监测智能化监控预警自主化维护作业规范化运维管理可视化集中监控一体式运维分析技术架构·基于中台架构构建了平台技术架构体系,可支撑运维工作的智能与高效运转智能IT监控与运维平台采用了中台技术架构,整个架构核心由基础能力平台(资源平台、采集平台、监控平台、流程平台、运管平台、消息平台),业务中心(资源管理、监控预警、作业管理、运维流程、分析)和统一门户(支持PC、手机端、大屏多端展示)组成。
前台运维门户综合门户专题门户个人门户大屏展示APP应用服务资源管理中心监控预警中心作业管理中心运维流程中心运营分析中心中台平台管理业务流程平台消息推送平台组织管理用户管理核心能力平台智能监控平台运维管控平台角色管理权限管理资源管理平台采集处理平台绩效管理数据管理AI算法引擎流程管理引擎搜索引擎服务调度消息引擎基础能力配置管理日志管理分布式框架分布式存储分布式缓存流处理引擎数据共享服务后台计算资源存储资源网络资源标准接口监管对象设备网络系统中间件业务/应用日志…总体方案蓝图基于大数据技术,参照ITSS 、ITIL等技术与行业标准,建设政府大数据中心统一运维管控平台,为政府大数据中心注入业务化、规范化、智能化的系统运营与维护能力,助力构建完善、科学的平台运维体系,以确保整个政府大数据中心资源平台的高效运营。大屏统一监控外部系统平台内部政务云云管平台信息推送与告警数据共享交换平台报表管理数据分析可视化展示信息推送数据管理平台数据资源中心数据安全平台中间件、数据库、应用服务快速故障修复智能故障分析发现故障/风险统一数据门户数据汇集深度分析故障报告告警、修复实时任务识别、预测多维智能定时全面主动探测数据采集CPU、存储、网络资源数据统一门户基础系统…资源管理智能监控运维流程管理操作管理运营分析基础能力统一运维管理平台云计算大数据物联网IT信息配置处理告警处理故障设置任务调整算法整体监控查收报告总体功能架构统一运维平台需要对大数据资源平台内的所有基础资源,系统模块,系统运行情况提供整体的监控告警,运维视图,各类流程管控以及服务启停、巡检等工具。
及时发现平台上的各类异常并告知维护人员,快速恢复故障,确保平台的正常应用。统一运维门户 可视化设备服务层采集层负责采集基础资源、业务系统等的指标数据,数据层负责持久化采集数据;应用层负责处理分析采集到的指标数据,并根据相关阈值产生相关告警;展示层负责相关指标、告警、各视图的可视化展示。监控资源管理应用系统监控业务服务监控数据质量监控运维流程日常巡检基础资源监测故障预案服务启停应用层通用能力通知推送自监控文件管理搜索中心分布式服务组件分布式缓存组件消息管理组件搜索引擎组件流处理组件分布式文件系统指标数据库配置数据库数据层前端采集前端采集前端采集前端采集前端采集采集层统一运维管理平台总体管理流程集中分析:基于累积的大量数据,对整个平台运维情况进行场景化分析,挖掘数据潜在价值,助力保障平台安全、稳定、健康,提升服务感知智能预警:据指标计算情况,在发现故障或风险后,自动进行预警,展示指标等信息数据加工:利用平台实时处理和非实时处理能力,对采集到的数据进行清洗与计算加工运维管控实时监控数据采集运维管控:根据预警对平台进行修复等维护处理,并对整个运维作业过程进行流程化与合格性的管理数据采集:采集各子系统运行数据,包括批量采集、实时采集实时监控:根据配置的监控规则,对系统运行情况进行实时监控智能预警集中分析数据加工全面监控运维·对系统资源进行全面、全过程规范管控,实现平台资源的可控、可视、可靠对大数据平台所包含的对象、资源与内容进行细致的分层与分类管理全面连接、监控大数据平台所涉及到的资源与内容,全面采集数据不同类型资源使用不同的监控与管理工具通过精细化的数据采集,实现对It系统的多维度、全面监控与运维存储全面资源管理·构建CMDB数据库,确保资源的唯一性、准确性、完整性和可维护性平台资源管理中心通过构建CMDB,将大数据资源平台所涉及的资源数据集中、统一标准化管理,实现资源数据全生命周期的唯一性、准确性、完整性和可维护性,为平台运维提供准确的基础资源数据,为平台的高效运行与维护奠定基础。
各类IT与系统资源对象进程资源资源配置管理资源基线管理资源下线、报废资源上线管控流程资源状态变更管控资源自动稽核资源准确性稽核资源合规性稽核服务器标准化准确性唯一性完整性资源自动发现资源配置维护中间件数据库HypervisorCMDB虚拟化网络资源关系维护调整资源关系自动发现基础监控运维·对基础IT资源进行全覆盖实时监控,保障平台相关设备稳定运行将大数据中心统一运维管理平台与政务云云管平台对接,将IaaS资源纳入平台中进行统一、规范的管控,实现对平台基础设施的全面监控,确保大数据资源平台的运行稳定。大数据中心统一运维管理平台主机设备统一监控门户资源管理监控预警操作控制流程管理数据采集网络设备操作接口性能扩容服务启停资源同步事件数据性能数据政务云-云管平台全局拓扑 资源方面:可实现IaaS资源的全面管控及信息联动; 监控方面:汇聚政务云云管平台的告警和性能数据; 运维方面:通过与云管平台的联动,可以实现平台资源、性能扩容,服务启停等平台的运维,提高运维效率。物理OS虚拟化网络……部门A部门B部门C其他平台应用……基础支撑平台数据资源中心数据管理平台数据安全平台统一数据门户数据交换共享平台主机操作系统数据库中间件 应用服务多维应用监控·在全面监控基础上从多个维度进行平台监控,保障应用与业务的可用和连续性管理T从技术角度发现问题业务骨干部门主管 技术专家从技术的角度来对系统运行状态进行分析,识别、预测并排除故障,保障系统可用。
B从业务视角排除故障从业务的视角来分析故障带来的影响,排除故障,确保系统业务的可用与连续性。业务M从管理视角分析风险从管理的视角来检查使用状态与分析问题和风险,确保系统使用符合企业管理要求与规范。技术业务监控运维·构建业务/服务链,实现对业务端到端的全局监控,精准定位问题,保障业务稳定通过构建服务调用链,实现对业务全局节点所涉及的应用和服务的实时监控与分析,及时发现业务故障、迅速定位问题,全面保障业务可用性、及时性、准确性等,并大幅提升运维管理效率。业务/服务链A业务/服务链B业务/服务链C业务/服务链D支持调用链数据采集方式,实现在系统内与系统间各个服务的数据采集支持业务链数据采集方式,实现在不同系统间采集应用数据提供图形化的界面来配置业务服务调用链关系模型(流程拓扑图)数据监控运维·对接数据管理平台,实现对数据传输与处理全过程的质量监测,保障数据质量通过对接数据管理平台的质量管控服务接口,实现对平台相关数据的一致性稽核等质量监测与分析,确保数据传输全过程安全可靠,有效保障政府大数据中心各类资源数据的质量。大数据中心统一运维管理平台统一监控门户数据传输接口探测对各数据传输接口部署主动探测监控,主要监测接口的可用性及稳定性(监测数据传输的速度是否正常、是否有存在积压未被处理的数据)数据一致性比对根据用户的需求,部署各环节数据报表一致性对比的监控,如发现数据存在差异则生成告警并及时通知相关人员处理数据监测质量分析根据用户的需求,对政务系统、数据中心、城市大脑应用之间的数据传输总量的进行分析,定期生成相关的分析报表资源管理监控预警操作控制流程管理数据采集数据传输接口监控数据对比异常信息数据质量监测分析大数据数据管理平台服务接口数据质量管理质量模型配置质量规则管理数据质检管理数据质量分析自主化运维·主动巡检、探测IT设备运行与系统应用状态,及时发现风险、保障业务的可用性负载设备中间件可以利用自动化测试脚本,命令执行,调用接口、模拟操作等方式,主动对IT的各项资源以及业务系统的运行状况进检测,主动发现存在的故障与潜在风险,改变被动等待故障发生的IT监控运维工作模式,保证业务的可用性。
AppserverApp数据库网卡快速修复进程智能故障分析发现问题业务影响范围业务可用测试硬件可用探测主动巡检磁盘解决告警执行检测命令调用服务接口模拟操作…执行测试脚本端口告警通知系统状态巡检硬件状态巡检主机交换机IT故障的主动探测、系统状态自动巡检、业务可用性保障自主化运维·智能化监控模型设计,统一告警策略配置,自动故障与风险告警配置统一的事件告警策略,在监控过程中,一旦发现符合告警策略的事件,即会自动发出告警,并将告警事件进行统一管理与分析。故障告警发现故障及时告警实时监控事件汇总系统监控数据实时数据监控告警事件库识别风险潜在问题事件汇总可以定义不同事件/风险的等级,然后根据事件/风险等级,设置不同的告警策略可以定义事件的告警方式,告警联系人员范围,告警内容等可以集中配置、更新、管理告警策略风险告警监控模型库状态预测趋势预测人为设置机器学习自主化运维·根据智能故障诊断结果,基于运维作业规则,实现自主化的运维作业与管理重启设备重启服务执行命令执行脚本……系统自动执行可自动执行自动运维作业故障确诊巡检任务自主化运维故障告警日常巡检执行脚本解决方法故障描述处理方式自动派发任务实时任务触发需人工执行进行故障处理故障确诊按系统给出的诊断解决方案执行故障确诊疑似诊断自动派发任务需人工确认确认故障以及产生原因如确定是个故障则需进行处理经验沉淀技术积累人为设置对于已经确诊的问题,部分可由系统自动进行处理对于无法由系统直接进行处理的问题,则会派发相应的任务给到对应的人员,由维护人员进行处理而对于无法确诊的问题或告警,系统也会派发相应的任务给到对应的维护人员进行确认并处理运维作业规则库规范运维管控·基于ITIL标准,建立规范、标准化的运维与管理流程,为平台应用运维保驾护航基于ITIL行业标准,结合政府大数据中心自身信息安全、IT运维管理标准及制度,建立标准服务支撑流程,故障定级定界、配套应急响应流程,保障问题、故障的有序标准化处理。
同时,利用各类支撑工具和手段辅助故障与应急处理,实现故障的快速处理,并逐步形成运维知识库,不断管理和技术优化提升运营服务能力, 为平台的运维管理保驾护航。日常服务支撑流程变更维护流程应急响应流程工具知识库监控工具操作工具集成工具经验沉淀标准方案应急预案高效操作管理·建立统一运维操作中心,形成运维操作规范与预案,提升平台运维工作效率将平台运维管理工作的常态操作与脚本,通过技术编排固化形成自动化执行的操作任务,或者针对特定故障形成修复处理的预案,让系统自动执行、人工触发、或外部系统直接调用等方式实现自动化操作处理,提升日常运维工作效率。批量作业处理统一运维管理平台-操作管理中心缩短操作执行时间,提高执行效率;减少人工失误导致的系统故障;提高IT运维自动化水平,减少人工投入,降低运营成本。手工运维操作场景自动化运维操作场景统一作业调度命令操作设备重启服务启停服务启停配置调整自动配置预案执行故障预案降低了关键岗位的技能要求;消除故障隐患、保证作业效率;降低日常运维工作中人员的时间投入、精力投入。命令编写执行系统巡检脚本编写执行应急切换应急切换定期重启……自动脚本……服务启停应急切换故障处理系统巡检配置调整政务云管平台大数据资源平台-各子系统故障预案管理可以新建、沉淀针对特定故障的标准与统一处理方法,形成故障处理预案当系统发生故障时,可以调用相对应故障的处理预案进行(自动或手工)处理统一运维门户·面向不同角色与场景,提供可视化的集中监控应用,全面感知系统健康度统一门户以使用角色和场景展现统为主线,面向不同使用者特定场景,实现对业务、系统资源或能力的“可视”、“可控”、“可追溯”,分角色分权限向决策层、管理、基层维护人员提供统一的运维视图。
而数据可视化支持PC、大屏、手机等多端展示,让不同人员可以实现随时、随地的可视化的平台运维管理。统一运营分析中心,辅助运营管理决策基于统一运营管理的大量数据,构建运维数据集中管理,统一运营分析中心,通过各类型数据的关联分析,基于场景的运营分析,挖掘数据在运营支撑方面潜在价值,实现数据变现,从而全面保障生产系统安全、稳定、健康,提升服务和客户感知。集中运维分析·挖掘运维数据潜在价值,辅助平台维护与运营管理决策统一门户以使用角色和场景展现统为主线,面向不同使用者特定场景,实现对业务、系统资源或能力的“可视”、“可控”、“可追溯”,分角色分权限向决策层、管理、基层维护人员提供统一的运维视图。而数据可视化支持PC、大屏、手机等多端展示,让不同人员可以实现随时、随地的可视化的平台运维管理。系统故障分析资源利用分析存储容量分析管理流程分析业务服务分析数据质量分析分析各平台子系统的故障率与稳定性,发现各子系统的质量与问题,提升系统稳定性和可用性发现系统隐患,辅助问题诊断对资源利用情况进行深入分析,优化资源利用率,为IT运营降本增效进行系统使用容量规划进行预测分析平台各业务服务质量,助力优化提升服务质量对流程流转进行全面分析,为优化运维管理流程制度提供支撑统一运维管理平台资源数据探测数据告警数据故障数据作业数据日志……THANKS











