大型数据中心运维——2.日常业务运维

日常业务运维有日常检查、应用变更、软硬件升级、突发故障等。

图片[1]-大型数据中心运维——2.日常业务运维-JieYingAI捷鹰AI

1、日常检查:“千里之堤毁于蚁穴”。任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查工作枯燥,但也很重要,可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心理的所有运行的设备进行例行检查。检查服务器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,看业务运行是否正常。还有对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统运行良好,设备运行是否过热,地板。天窗、消防、监控都是检查的部分。空调漏水、设备漏电都会对数据中心正常运行产生危害,千万不可大意。

2、应用变更:数据中心承载的业务不会是一成不变的,随着业务的多样化和不断发展,经常要对业务进行调整,包括服务器和网络的设置。因此要对服务器和网络设备操作很熟悉,主要需要掌握Linux服务器命令和网络协议。要根据应用的需要,及时准备作出变更。

3、软硬件升级:数据中心的设备一般运行周期是五年,不断地又设备需要逐渐淘汰进行更滑,也有一些设备因为存在软件缺陷需要升级,因此软硬件升级也是维护工作的一部分。软硬件升级时需要做好回退机制,以防升级出现问题无法回退,业务长时间无法恢复。当接手数据中心维护工作就会发现,怎么会有那么多的升级,几乎每个月都要有升级操作,熬夜升级工作成为运维人员的家常便饭。

4、突发故障:没有任何一个数据中心是不出故障的,在数据中心运行过程中都会出现这样那样的问题。对于突发故障,高水平的运维人员可以静下心来冷静分析故障的触发原因,迅速找到解决的方法,如果在短时间被找不到解决方法,也可以通过切换到备用设备上线恢复业务,再进行分析。这是拥有高水平的运维人员对于一个数据中心很重要,在关键时刻就能派上用场。虽然这些工作看起来有些平常,但千万别小看它们。数据中心日常运维工作实际上非常重要,关乎着整个数据中心业务的正常运行。只要重视数据中心的运维工作,才能给数据中心平安。

图片[2]-大型数据中心运维——2.日常业务运维-JieYingAI捷鹰AI

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享