![图片[1]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_0.png)
(告警明细↑)
![图片[2]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_1.png)
(主机详情↑)
1. 背景
软件系统的高可用少不了对系统的常态化运维工作,而运维是一件相当繁琐的事情,需要监控各个主机的在线状态、各种端口的状态、各种服务的状态等等,如果没有一个件称手的工具,这项工作将会比较折腾人。常见的运维工具有zabbix、nagious、cacti等,这些都相当知名,功能也都比较强大,能满足绝大多数的需求,但这些软件对于我来说,功能过于庞大、安全过于复杂、缺少数据监控特性。根据我的实际情况,需要一款能够监控数据库数据状况(即数据是否出现异常)、网络状况、主机状况、能够配置shell命令并执行shell脚本、部署简单(最好能直接使用)、轻量级(不需要安装数据库等其他一些较重的软件服务)的运维软件工具,这样的一款工具目前还没有,所以准备自己设计一款并开发。
2. 系统特性
基于上述系统开发背景,我们设计了如下的主要系统特性。
项目空间: * 基于项目空间的操作隔离,不同项目可以设置不同的检查项。 (基于项目空间的特性,使得各项操作和配置可以在多产品、多项目的环境下只需部署一套即可) 数据监控: * 检查__表最近__时间内有无数据 * 检查__表最近__分钟内数据条数>、=、、=、<当前时间 __分钟 * 检查__表有无重复数据 网络监控: * 检查__主机__端口是否开放 * 检查__url状态码是否为__ 主机监控: * 检查硬盘空间 * 检查内存大小 * 检查__进程是否存在 * 检查防火墙状态 * 检查系统参数配置状态 * 检查系统启动项情况 * 检查系统定时任务情况 * 展示系统进程列表 脚本助手: * 系统服务启动管理:展示系统的服务列表,可以执行开启或关闭操作 * 脚本管理: 可以在工具中配置和编写相关脚本并执行。 * 程序启动管理:在这里配置好需要启动的服务或程序的启动脚本,当系统重启后,通过该界面执行相关程序的启动操作
3. 菜单设计
1 Banner (非菜单)
切换空间 -- 默认显示"默认空间"
系统管理
- 空间管理
- 空间管理
- 空间增删改
- 数据监控
- 数据源管理
- 自定义异常规则
- 网络监控
- 主机监控
- 异常通知设置
- 账号管理
- 角色管理
- 系统设置
- 数据监控
- 检查级别定义 --表级别、行级别
- 异常规则定义 --例字段值缺失等
- 异常数据处理方案 --例copy到异常数据表
- 网络监控
- 异常规则
- 主机监控
- 异常规则
- 脚本助手
- 通用设置
- 检查频率定义
- 异常通知类型 --例手机、邮件
2 概览 -- 显示数据、网络、主机监控情况
3 数据监控
- 监控情况
- 监控对象管理
- 添加/删除/编辑监控对象
- 设置异常规则
- 设置异常数据处理方案
- 设置通知规则
4 网络监控
- 监控情况
- 监控对象管理
- 添加/删除/编辑
5 主机监控
- 监控情况
- 监控对象管理
- 添加/删除/编辑
6 脚本助手
- 脚本管理
- 程序启动助手
4. 系统名称
Simple-Ops,中文名称暂定“极简运维”。
5. 开发语言
预计使用 python+html。
使用python的原因是开发方便、效率高,并且运维系统一般不需要多少运算,也不会有很多并发。
使用html进行前端展示界面的开发,开发效率会比较高,并且定制化很方便。
6. 架构设计(还需修改) 1) 基础架构图
![图片[3]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_2.png)
2) 数据监控逻辑
![图片[4]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_3.jpg)
数据源配置:配置需要检查的数据所在的数据源。
检查对象配置:配置“数据检查执行器”需要检查的数据对象。
检查级别定义:逐行检查、表级检查。
异常类型定义:比如包含敏感字、字段内容缺失、更新时间停止(表级检查)等。
异常规则定义:针对不同的检查对象设置不同的异常规则。
异常出理规则:当检查出存在异常的数据时,系统的处理方案。
异常通知机制:当检查出存在异常的数据时,系统的通知机制。
7. 详细设计(还需修改) 3.1 功能菜单 3.2 异常规则设计 8. 界面设计(还需修改)
登录界面
![图片[5]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_4.png)
主页
![图片[6]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_5.png)
检查级别定义
![图片[7]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_6.png)
异常类型定义
![图片[8]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_7.png)
异常处理规则
![图片[9]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_8.png)
检查频率定义
![图片[10]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_9.png)
数据源配置
![图片[11]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_10.png)
检查对象配置
![图片[12]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_11.png)
通知配置
![图片[13]-运维管理:极简运维系统设计-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/02/1740243972842_12.png)










