运维管理:极简运维系统设计

图片[1]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

(告警明细↑)

图片[2]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

(主机详情↑)

1. 背景

软件系统的高可用少不了对系统的常态化运维工作,而运维是一件相当繁琐的事情,需要监控各个主机的在线状态、各种端口的状态、各种服务的状态等等,如果没有一个件称手的工具,这项工作将会比较折腾人。常见的运维工具有zabbix、nagious、cacti等,这些都相当知名,功能也都比较强大,能满足绝大多数的需求,但这些软件对于我来说,功能过于庞大、安全过于复杂、缺少数据监控特性。根据我的实际情况,需要一款能够监控数据库数据状况(即数据是否出现异常)、网络状况、主机状况、能够配置shell命令并执行shell脚本、部署简单(最好能直接使用)、轻量级(不需要安装数据库等其他一些较重的软件服务)的运维软件工具,这样的一款工具目前还没有,所以准备自己设计一款并开发。

2. 系统特性

基于上述系统开发背景,我们设计了如下的主要系统特性。

项目空间:
	* 基于项目空间的操作隔离,不同项目可以设置不同的检查项。
	  (基于项目空间的特性,使得各项操作和配置可以在多产品、多项目的环境下只需部署一套即可)
数据监控:
	* 检查__表最近__时间内有无数据
	* 检查__表最近__分钟内数据条数>、=、、=、<当前时间 __分钟
	* 检查__表有无重复数据
网络监控:
	* 检查__主机__端口是否开放
	* 检查__url状态码是否为__
主机监控:
	* 检查硬盘空间
	* 检查内存大小
	* 检查__进程是否存在
	* 检查防火墙状态
	* 检查系统参数配置状态
	* 检查系统启动项情况
	* 检查系统定时任务情况
	* 展示系统进程列表
脚本助手:
	* 系统服务启动管理:展示系统的服务列表,可以执行开启或关闭操作
	* 脚本管理: 可以在工具中配置和编写相关脚本并执行。
	* 程序启动管理:在这里配置好需要启动的服务或程序的启动脚本,当系统重启后,通过该界面执行相关程序的启动操作

3. 菜单设计

1 Banner	(非菜单)
    切换空间   -- 默认显示"默认空间"
    系统管理
    	- 空间管理
    		- 空间管理
    			- 空间增删改
    			- 数据监控
    				- 数据源管理
    				- 自定义异常规则
    			- 网络监控
    			- 主机监控
    			- 异常通知设置
    	- 账号管理
    	- 角色管理
    	- 系统设置
    		- 数据监控
    			- 检查级别定义	--表级别、行级别
    			- 异常规则定义	--例字段值缺失等
    			- 异常数据处理方案		--例copy到异常数据表
    		- 网络监控
    			- 异常规则
    		- 主机监控
    			- 异常规则
    		- 脚本助手
    		- 通用设置
    			- 检查频率定义
    			- 异常通知类型	--例手机、邮件
2 概览	-- 显示数据、网络、主机监控情况
3 数据监控
	- 监控情况
	- 监控对象管理
		- 添加/删除/编辑监控对象
		- 设置异常规则
		- 设置异常数据处理方案
		- 设置通知规则
4 网络监控
	- 监控情况
	- 监控对象管理
		- 添加/删除/编辑
5 主机监控
	- 监控情况
	- 监控对象管理
		- 添加/删除/编辑
6 脚本助手
	- 脚本管理
	- 程序启动助手

4. 系统名称

Simple-Ops,中文名称暂定“极简运维”。

5. 开发语言

预计使用 python+html。

使用python的原因是开发方便、效率高,并且运维系统一般不需要多少运算,也不会有很多并发。

使用html进行前端展示界面的开发,开发效率会比较高,并且定制化很方便。

6. 架构设计(还需修改) 1) 基础架构图

图片[3]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

2) 数据监控逻辑

图片[4]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

数据源配置:配置需要检查的数据所在的数据源。

检查对象配置:配置“数据检查执行器”需要检查的数据对象。

检查级别定义:逐行检查、表级检查。

异常类型定义:比如包含敏感字、字段内容缺失、更新时间停止(表级检查)等。

异常规则定义:针对不同的检查对象设置不同的异常规则。

异常出理规则:当检查出存在异常的数据时,系统的处理方案。

异常通知机制:当检查出存在异常的数据时,系统的通知机制。

7. 详细设计(还需修改) 3.1 功能菜单 3.2 异常规则设计 8. 界面设计(还需修改)

登录界面

图片[5]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

主页

图片[6]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

检查级别定义

图片[7]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

异常类型定义

图片[8]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

异常处理规则

图片[9]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

检查频率定义

图片[10]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

数据源配置

图片[11]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

检查对象配置

图片[12]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

通知配置

图片[13]-运维管理:极简运维系统设计-JieYingAI捷鹰AI

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享