连载六|《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part1-中国建设银行

(一)安全风险管控之应急提升

1.背景/目的

应急历来是运维工作的痛点和焦点,其重要程度不言而喻,特别是随着应用系统复杂度和体量的不断增加,事件应急已经成为一门“综合学科”,涉及监控发现、告警通知、问题定位、故障处置、报告复盘和应急组织等一连串过程,以及应用软件、系统软件、IT设备、基础设施等许多对象。因此,应急能力的提升是众多具备个别智能特征的简单运维场景融合形成的混合场景,需要综合应用多种智能运维能力。2021年,建行针对应急效率提升这一课题开展了一系列的研究和探索,从应急的视角去识别、分析和打通相关的流程和工具,并结合用户体验和量化评估的结果进行了持续改进。

2.解决方案/建设要点

本次专项工作主要围绕提升告警时效性、改进告警体验、加快影响范围确认速度、加速应急组织及报告、加快处置速度等五个方面进行,涉及90余项具体的分解任务,其要点包括:

统一各领域监控工具的轮询间隔和压制策略,提升监控处理性能,提高告警时效,同时减少告警通知的数量,改善用户体验。

梳理包括系统、模块、交易码等描述信息在内的应用基础配置数据,基于图谱关系分析基础设施故障的影响范围。

优化自动化工具纳管设备的探活机制,减少无效耗时;构建日志表格、网络表格及告警表格等视图,提升问题排查效率;针对重点事件充实具体场景的自动处置能力。

3.实施效果

图片[1]-连载六|《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part1-中国建设银行-JieYingAI捷鹰AI

(二)快速业务响应之敏捷投产

1.背景/目的

为更好地支持金融科技创新发展,加速市场需求响应和功能释放,降低投产变更对业务的影响,需进一步提升应用版本投产的敏捷性和可靠性。

2.解决方案/建设要点

实现开发、测试、生产全流程工具及流程的对接,实现投产信息、版本文件的线上传递;流程工单自动创建;精简投产发布和变更流程,减少人工处理,提高处理效率,缩短投产周期。

标准化、规范化变更操作步骤及实施工艺,将版本的获取、分发、备份、检核等通用变更内容封装成原子操作,沉淀为平台基础能力。提供分组编排、定时执行、并行执行、协同控制等自动化执行能力,并与流程、监控、作业、容器等平台对接,实现投产变更内容的全自动实施与管控。

投产前,基于投产内容、投产方案、版本介质等信息对投产变更风险进行量化评估,并利用专家经验库,自动识别变更方案、实施工艺、协同控制等方面的风险;投产中,实时采集相关信息并监测变更过程,及时发现严重问题并进行阻断;投产后,自动触发对关键交易的验证和系统运行状态的巡检,并利用资源、交易类指标进行变更前后的比对及容量预测,提前发现和干预变更引发的问题,降低业务影响。

图片[2]-连载六|《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part1-中国建设银行-JieYingAI捷鹰AI

3.实施效果

(三)高效资源交付之智慧机房

1.背景/目的

在业务和IT系统规模快速发展的背景下,IT基础设施规模日益增加,机房有效运维和管理的难度不断加大,而现有传统的机房管理模式难以满足基础设施和业务快速发展的需求。

为了解决当前机房管理过程中的各项痛点,顺应行业智能化运维的发展趋势,整体提升机房管理的数字化和智能化水平,建行于2020年起实施了“智能运维之智慧机房”项目,打造了支撑运维和运营、符合集团战略、具备本行特色的智慧机房管理平台,实现多地多中心的机房智能感知和智慧管理。

2.解决方案/建设要点

基于建行的现有架构,结合实际业务需求,该项目着力于机房资源管理、IT设备的实施管理和机房的日常运维管理等实际工作场景,构建了包含展示层、业务层和数据层的整体平台架构,设计了统一视图、智能布局、物联定位、实施管理和故障管理等五大功能模块。其中:

图片[3]-连载六|《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part1-中国建设银行-JieYingAI捷鹰AI

构造包括IT设备、机柜、部署模型在内的三级业务模型并实现数字化管理。利用相关算法有效分析电力、空间、承重、成本等机房资源综合信息,给出最优布局方案,避免人工导致的低效和误差。精细化管理机房资源,为决策提供数据支撑,提高资源利用率,积极实现数据中心绿色节能的战略目标。

实时采集和录入资产信息,掌握在架设备位置信息,准确、安全、高效地管理数据中心实物资产,实现在架资产的自动盘点。通过位置指示灯帮助人员快速、准确地定位设备,降低误操作率,缩短故障处理时间。

提供机房环境、计算及存储领域的故障快速定位、影响分析和处置。通过饼状、柱状及折线图从不同维度展现故障的历史、现状及趋势。提供跨领域的数据信息获取、视图式钻取及展示。用户可以自定义新的模型规则,利用相关数据对故障进行预测及判定、根因分析、影响评估并给出处置建议。支持用户根据自定义模型对设备进行画像描述,从不同维度生成设备画像等。

3.实施效果

该项目在展示、管理、实施、运维和分析决策等五大类、17个常用工作场景中实现了工作模式的智能化提升。其中:

(四)标准运营支撑之指标体系

1.背景/目的

运营服务能力是数据中心“数据运营”转型评估的重要标尺,而要想度量、评估和提升这种能力,则需要对相关数据进行分析,提炼运营管理活动的要素,展示数据中心的运营全貌,形成一套能够监测运营效果和衡量发展方向的技术运营指标评价体系,以便为管理及运维人员提供各种维度的数字化运营信息,从而以此为抓手提升数据中心的运营管理能力和决策水平。

2.解决方案/建设要点

技术运营指标评价体系整体解决方案包括技术运营指标体系设计、运维大数据服务平台建设和技术运营指标评价体系应用系统开发三大部分。

围绕“安全、高效、绿色、创新”的数据中心运营目标,提炼出“安全运维、高效运营、资源规模、创新发展”四大关键成功因素,采用自顶向下的设计方法逐层分类拆解,形成五级架构的指标体系。该体系中的指标基于客观事实数据进行演算,能够反映真实的运营状况。通过这种量化评估的方式,既可实现自身状况的历史比较,也可用于同业交流时的标杆分析,还可以通过高级指标的定制及算法的调配来关注具体的领域、辨别发展的方向。

通过建设运维大数据系统,对运维数据进行采集、清洗、转换和加工,完成数据质量校验和评估,推动数据治理,提升数据质量。建设基于大数据的运维全业务领域数仓系统,构建五大主题、一致性数据模型和统一指标模型;通过数据模型的规范整合,形成数据中心优质数据资产;通过数据集市层提供指标数据得分的实时计算、多维度组合查询、分析挖掘等丰富的数据服务。

技术运营指标评价体系应用系统采用了松耦合的设计理念,分为指标体系和业务场景应用两层。指标体系层提供灵活的指标建模能力和评分算法库,实现指标体系的在线管理、指标灵活扩展和多样化组合;业务场景应用层系提供展示、分析、报表三大类应用场景,通过个性化展示视图,分层分类地展示指标,多维度多视角地观测IT运营情况,为各级领导、员工提供数据中心的数字化运营信息。

3.实施效果

技术运营指标评价体系的建立,实现了数据的自动采集、指标的科学自动计算及展示。目前已成功构建了200多个各层指标,可实时观测运营情况、多维度多视角评价技术运营能力、跟踪监测运营服务质量。

提供多层次、多维度的可视化领导视图,方便管理者即时洞察数据中心技术运营各项活动的能力全貌,快速了解数据中心当前和历史的数字化运营水平与关键能力。

可通过指标名称、维度及维度对象、时间周期等数据检索方式,查看指标数据、事实数据、明细数据等三类数据,快速找出问题;可从上层指标逐层向下钻取,直到相关的业务运行数据记录,从而快速定位存在的差距及问题。

可利用技术运营指标评价结果与权重影响,计算路径权重与指标数据异常度,提供数据中心相关运营能力的最优提升策略。

·“实践案例分享-建设银行”编委介绍·

图片[4]-连载六|《中国智能运维实践年度报告(2021-2022)》之实践案例分享Part1-中国建设银行-JieYingAI捷鹰AI

特别鸣谢:

中国建设银行股份有限公司 张明

中国建设银行股份有限公司 安卫杰

中国建设银行股份有限公司 闫慧

中国建设银行股份有限公司 冀皓

·精彩预告·

下期分享的内容为“数据赋能,场景驱动——中国农业银行AIOps智能运维实践案例”,详情敬请关注公众号!

·留言有礼·

若想了解更多内容,欢迎大家积极在底部留言。智能运维国标工作组会抽取5条留言标为精选,并送出纸质版的报告哦!

每期截止时间至下期连载发布前一天,获奖读者名单将公布在最新一期结尾,还请大家关注哟~小编这边也会私信您,请及时关注消息,以早日获得报告!

上期获奖读者:张**,陈**,陈**,刘**,夏*

【报告将于近日寄出,请注意查收】

THE END

系列报道

若想进一步了解智能运维国标,欢迎咨询:

xh.zhang@hanweis.com

固定布局

工具条上设置固定宽高

背景可以设置被包含

可以完美对齐背景图和文字

以及制作自己的模板

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享