实战 | 智能运维自治平台,打造运维管理新模式

图片[1]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

数智化时代背景下,金融科技蓬勃发展,人工智能、大数据、流计算等技术与金融业务深度融合,为金融发展提供源源不断的创新活力。亿联银行以集约化、数字化运营为指导,建立以数据、标准、技术、平台为基础的智能运维服务体系以及智能运维自治平台,持续全面化覆盖业务系统运行监控管理,驱动亿联银行IT运维的“数字化、智能化、服务化”三化转型。

图片[2]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

亿联银行

首席信息官兼行长助理  李树峰

方案建设思路

为了解决数字化运维过程中遇到“问题分析难、根因定位难、故障预测难、数据治理难、容量管理难、数据展现难”等痛点,亿联银行以“统一化、规范化、图谱化、智能化”为建设目标,以“数据驱动运维”为建设理念,通过数据决策驱动,打造符合亿联银行三化转型所需的智能运维自治平台。

智能运维自治平台依托“运维指标管理能力、可观测性数据建模能力、运维数据综合分析能力”三项能力中心,构建典型“业务故障快速可视化定位”“闭环故障分析与处置场景”应用场景,完善运维服务管理连续性,形成“3+2”IT运营模式,进一步提高运维监控的深度、广度,强化业务运行监控全场景、数字化分析能力。建设过程分为四个阶段。

第一阶段是“摸家底,建地基”,基于我行现有运维工具体系建设情况,摸排运维数据资产,夯实基础,基于要实现的运维数字化、智能化场景,梳理运维工具或平台架构、数据结构、数据实时性、数据完整性、数据正确性、数据标准化程度等方案,初步打通“竖井式”建设的数据壁垒,初步完成数据“统一化”。

第二阶段是“建标准,强管控”,围绕运维数据,从管理和实践的视角,对数据进行标准化、立体化、层次化建模,建立全局的IT运维监控和管理指标体系,以及数据质量持续改进机制,数据管控的流程、机制、标准、安全体系,驱动数据资产化,资产配置规范化,数据分析标准化。

第三阶段是“理业务,重聚焦”,从业务系统视角出发,通过数据和模型相结合,映射业务应用间的关系,业务与基础架构之间的关系,围绕业务构建横向调用和纵向依赖关系拓扑,并联动多维监控数据,从底层主机到上层业务的全资源监控,构建统一监控能力,丰富监控和故障根因分析路径,聚焦业务运维全栈观测与洞察能力,助力故障根因定位。

第四阶段是“深洞察,促智能”,结合以上阶段交付成果,利用成熟的大数据、智能算法、智能决策分析、机器学习等技术,挖掘运维数据的价值,建立数据与业务间的双向“连接”关系,发现业务价值,为运行工作提供决策信息,为我行数字化转型赋能,实现运维数字化向智能化转变。

“3”大核心能力,夯实数据基座

1.运维指标管理中心。面向运维的各类应用场景,围绕运维数据,从管理和实践的视角,建立全局的IT运维监控和管理指标体系。覆盖行内重要业务场景,纳管数据覆盖指标、日志、告警、配置、流程等多类型数据,通过维度、分类分层、运维指标关系、评估、属性及建模等方面设计,建立了从业务到IT各层的分层模型(如图1所示)。

图片[3]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图1  指标分层设计模型

2.运维数字化地图。配置中心基于多种自动发现方式进行元数据维护,完成对Iaas、Paas到Saas层的运维元数据的全面管理,以数据和模型相结合,映射业务应用间的关系,业务与基础架构之间的关系,面向业务运维场景,依托业务层级架构,将资源以业务维度进行整合,构建了形成横向业务链路+纵向物理资源的运维数字化地图。

以业务层级拓扑为基础,从业务和应用的视角组织和维护软硬件、网络、服务等资源及其关联关系。

业务层级管理:支持自定义业务层级以及基于业务层级来建立模型,方便业务管理员通过业务层级来直观地查看模型之间的业务关系(如图2所示)。

图片[4]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图2  业务层级管理模型关系图

3.运维数据智能分析中心。智能分析中心目标“以数据为基础、以算法为支撑、以场景为导向”,应用先进的实时海量大数据处理技术和机器学习等人工智能技术,打通IT系统与业务交易之间的信息断层和管理断层,向上提供数据与能力支撑。

数据聚合分析:通过对多维指标综合性分析与计算,构建系统运行健康度,对整体业务监控度的态势感知,提高监控管理过程域的整体能力(如图3所示)。

图片[5]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图3  业务监控态势感知

智能算法分析:对来自于各种监控系统的告警消息与数据指标进行统一的接入与处理,支持告警事件的过滤、通知、响应、处置、定级、跟踪以及多维分析,借助算法学习,建立面向业务应用的“风险预测中心”“故障决策中心”,实现所维护的IT或业务服务的更高质量、合理成本及高效运营支撑(如图4所示)。

图片[6]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图4  智能预测中心

“2”类典型运维场景,提升运维效率

1.聚焦“多源化+多层化+多样化”数字化地图,驱动运维思路转型。业务交易全局总览视角。以全行业务系统为视角,围绕重要业务场景构建系统间关联关系,并可直观看到各业务系统的健康度。对于我行各类交易场景,具备对故障的全链路故障追踪能力,通过全局总览图下钻,可从系统、资源维度观测整个交易链路运行情况,串联日志、事件、资源关系、变更信息,以事件为维度,汇聚多维数据进行立体化展示,辅助快速决策。

业务交易场景驾驶舱。以业务交易为视角,聚合三大核心能力,直观业务运行可视化界面,运用颜色变化展示业务交易处理能力,包括业务交易量、成功率、响应率、平均响应时间,及时反馈系统运营情况和业务趋势,为业务决策提供数据支撑。

单笔交易链路追踪。单笔交易分析可根据交易流水分析当前交易流经系统链路,流经服务链路、流经主机个数等信息。通过可视化拓扑可查看当前交易系统故障节点,同时可查看系统内服务故障点,通过堆栈、日志、长耗时等进行深层次服务故障定位。

2.集约多管理系统能力,闭环故障分析与处置场景。通过多系统能力聚合,形成闭环故障分析与处理措施,有效、快速地从故障的发现到故障自动修复的整个过程,进行全生命周期的跟踪与管理,第一时间保障了业务安全、稳定、高效的运行。

项目先进性

引入人工智能技术。项目通过引入异常检测、根因分析、指标预测等先进的人工智能技术,实现了对海量数据的智能分析和处理,对异常情况的能够快速响应和分析处理。这使得运维管理可以更加智能化、自动化、高效化,提升了运维效率和业务稳定性。

综合管理能力。智能运维自治平台项目具备对不同系统、不同层次、不同领域的综合管理能力,可以通过数据集成和智能化技术将不同的运维管理数据进行整合和分析,在保证业务稳定性的同时,对我行的运营活动进行全面监控和优化。

智能决策支持。智能运维自治平台项目提供了智能决策支持功能,可以通过数据分析和智能算法,为我行运维管理提供优化建议和预测分析,更好地制定战略和决策。

大数据与云计算。智能运维自治平台项目采用了大数据和云计算技术,可以有效地处理海量数据,并支持同时处理多个业务系统的管理和监控。使得我行的运维管理更加高效、精准和可靠,具有更强的竞争力。

实践成果与收益

基于智能运维自治平台的建设,打通“竖井式”的数据壁垒,统一运维数据标准,把运维数据所涉及的监控、流程、应用运维等数据指标化存储,通过集中数据采集、数据清洗、特征加工、规则模型、顶层场景的设计,从而形成运维场景各层级应用系统的调用关联,做到“端到端”覆盖,以数据资产标准化驱动数据展现“个性化”,利用智能算法平台,形成业务场景健康度、多维分析IT指标、IT调用链、业务层级拓扑的立体化监控。通过平台的技术支撑和数据驱动运维的理念相结合,实现智能运维的一次变革,提升业务监控指标、应用系统监控指标、告警及故障定位能力,提高运维效率。

1.价值体现。构建了运维数字化地图,形成“横向业务链路+纵向物理资源”的关系图谱,建立清晰的指标体系,并在关键业务指标上形成业务服务质量目标;构建应用架构的数据治理体系,建立交易线维度的主动检核及常态化闭环管控方法,聚焦慢交易、失败交易,洞察交易流经资源调用,推动了资产数据质量的提升和场景化运用;有效融合架构信息和运维信息,以场景化的模式汇聚系统及基础资源信息进行可视化展示,实现重要业务交易的场景化监控及闭环故障分析与处置;智能运维自治平台建设项目引入了人工智能技术和自动化方法,通过智能决策、自动化流程和数据分析等创新手段,实现生产问题预测能力,全面提升生产运行保障能力。

2.效能提升。本项目以全行业务系统为视角,围绕行内重要业务场景开展实施。系统上线后,运维人员通过运维自治平台中的可视化拓扑能够快速定位故障,直观展示问题是发生在网络、服务器、应用、数据库、中间件,定位问题后直接跳转到问题系统中处理。经过系统运行一段时间对比,排障时间提升至分钟级。另外通过告警与指标的趋势分析,出现故障时立体可视化展示,极大提升系统故障定位准确率。

未来,亿联银行持续提升数字金融基础设施建设,全力推动金融数字化转型。通过引入先进科技和创新解决方案,提升金融服务的智能化和便捷性,为客户提供更全面、高效的金融体验,为金融科技的繁荣发展贡献力量。

(此文刊发于《金融电子化》2024年2月下半月刊)

图片[7]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图片[8]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图片[9]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图片[10]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图片[11]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图片[12]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图片[13]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图片[14]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图片[15]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

新媒体中心

主任 / 邝源

编辑 / 姚亮宇傅甜甜张珺邰思琪

图片[16]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

图片[17]-实战 | 智能运维自治平台,打造运维管理新模式-JieYingAI捷鹰AI

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享