PAGEPAGE 1大数据平台需求规格说明书 V1.3变更记录版本号修订人 修订日期说明 审核人批准人批准日期 V1.0项目背景、业务架构V1.1用户管理、项目管理、数据资产管理、数据概览、数据质量管理V1.2非功能性需求、系统安全性使用说明1) 文中的一级、二级标题不允许删除,如无内容,则在章节描述下面填写“无”。在当前基础上,允许增加一级标题、二级标题和内容;2) 文中的三级、四级标题仅供参考使用,可根据需要自行调整和增减;3) 请注意及时更新目录,确保与文中章节编号和页码的一致性。目录 TOC o 1-3 h z u 1. 前言 1.1. 项目背景 1.2. 项目概述 1.3. 术语和定义 2. 业务架构 3. 功能需求 3.1. 系统角色 3.2. 系统管理 3.2.1. 功能描述 3.2.2. 用户用例 3.3. 控制管理台 3.3.1. 功能描述 3.3.2. 用户用例 3.4. 项目管理 3.4.1. 功能描述 3.4.2. 用户用例 3.5. 数据概览 3.5.1. 功能描述 3.6. 元数据列表 3.6.1. 功能描述 3.7. 数据质量管理 3.7.1. 功能描述 3.8. 数据服务 3.8.1. 功能描述 3.8.2. 用户用例 4. 非功能需求 4.1. 系统性能 4.1.1. 网络环境 4.1.2. 稳定性 4.1.3. 硬件环境最低配置支持 4.1.4. 软件环境支持 4.1.5. 服务组件版本支持 4.1.6. 适应性 4.2. 安全性 4.2.1. 系统安全 4.2.2. 隐私安全 4.3. 易用性 PAGEPAGE 1前言项目背景电力公司新能源大数据创新平台建设紧密围绕构建绿色低碳、安全高效的现代能源体系之目标,为重要区域能源接续基地、新能源战略基地,创建绿色能源示范省提供强有力的技术支撑手段。
随着新能源行业工业企业业务诉求和行业业务应用不断增多,新能源大数据创新平台支撑新能源全产业链业务发展的能力稍显不足,需进一步强化新能源行业工业互联网平台基础服务能力,促进能源和信息的深度融合,提升平台对外服务能力。大数据平台大数据服务中台,致力于为企业构建数据中台提供基础的平台能力支撑。大数据平台提供从数据同步、数据开发、数据服务的一站式大数据全链路解决方案。通过平台可构建PB级别数据仓库及进行数据价值的深度挖掘,实现超?规模数据的资产化。自主研发的全链条、一体化、轻量级、开放式的通用大数据平台,平台通过对海量历史与实时数据的采集、计算、存储、分析、挖掘、推荐,极大提升数据开发和应用的效率。 项目概述大数据平台数据中台能满足离线,准实时,实时等的多种数据应用场景,构建不同时间周期的数据应用,流量日志实时监控,生产设备状态实时监控预警,风控实时预警等实时应用;用户画像,用户标签,商品推荐,精准营销,交叉销售等离线数据分析和挖掘场景,平台提供友好的交互界面,降低交互式分析过程使用门槛,为业务分析团队数据探索和业务建模过程提供良好的平台和工具支持。大数据平台数据中台面向的是大数据开发人员、管理运维人员、数仓工程师、数据分析师、数据科学家等,提供从数据同步、数据开发、数据治理、数据服务的大数据全链路解决方案。
术语和定义序号术语说明1.数据源数据源(Data Source)顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。2.作业在大数据平台平台中,通过各种方式开发的数据处理任务。3.工作流多个作业以事件驱动作为触发条件,批量执行作业。4.元数据为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。5.开发节点节点定义对数据执行的操作。6.运维通过图表的形式查看作业实例的统计数据。7.数据服务数据服务帮助企业统一管理对内对外的API服务。数据服务为您提供快速将数据表生成数据API的能力,并在数据服务平台以统一管理和发布。8.数据质量数据质量是对数据库里的数据质量进行质量管理的工具,主要帮助用户建设多种规则,监控数据的变化情况。9.JAR开发通过上传开发JAR包的方式进行开发。10.项目指的是独立的单位、组织、个人或者为客户一次性的工作目标。11.实时开发指针对实时数据进行数据开发操作。12.离线开发指针对离线数据进行数据开发操作。系统术语表 业务架构功能需求用户管理中心,控制管理台,资源管理,项目管理,系统管理,数据源管理,数据管理,数据服务。
系统角色角色描述平台管理员大数据平台中最大权限的用户,负责平台管理,资源权限分配。普通用户大数据平台中负责具体项目的开发工作,具有项目级别的权限。系统管理功能描述主要包含基本信息管理和用户管理。主要负责用户基本信息新增和维护,用户的授权和删除。系统管理总体需求如下图所示:基本信息管理用户注册:用户在平台通过用户注册功能注册。需要填入用户名和密码,并绑定邮箱和手机号。信息编辑:用户支持注册成功后用户名称不能修改, 使用刚才的用户名密码登录,用户支持可对昵称进行修改,不限次数,用户支持可对手机号码进行修改,用户支持对安全邮箱进行绑定和修改,用户支持对头像进行设置,用户支持对密码进行修改。用户管理用户管理:支持对用户的授权和删除,同时支持批量授权和删除。用户授权:可谓用户授权为平台管理员和普通用户,平台管理员可查看所有权限,普通用户可查看指定项目的权限。用户用例参与者:平台用户控制管理台功能描述总体展示平台的总体功能模块,依据项目管理的设计流程设计总览功能,以及数据源管理,资源管理。大数据平台总体需求如下图所示:资源管理资源管理对平台用到的资源和服务统一管理。一个资源组由一个或多个服务器组成,在服务器上部署了Spark、HIVE、Flume、Sqoop等服务。
通过资源管理功能,对相关项目配置所需的资源和服务环境。系统为用户提供默认资源组,可以查看资源组详情。支持HDFS,sqoop ,yarn,hive 等地址测试连接。先支持CDH集群厂商,Hadoop版本适配CDH-5.15.0。数据源管理数据源管理模块提供对离线数据源和实时数据源进行统一管理。(1)数据源新增数据源管理模块提供新增数据源,名称,类型,地址,数据库,用户名和密码。实现数据源的授权,填写完毕后,可以测试连接情况。测试通过之后,数据源连接成功;(2)数据源列表数据源管理支持对多种类型数据源的连接,优先支持关系型数据库的MySQL、Oracle、SQLserver,大数据存储组件:HIVE、Hbase,实时数据源:LOG日志和MySQL;(3)授权支持操作授权按钮可以授权数据源给项目使用。工作流程图:平台总览平台总览提供大数据平台总体产品功能的入口,并展现产品使用的功能顺序,帮助用户快速入手。依据项目管理的设计流程设计总览功能,共提供六项直达功能:资源管理:用户点击可直达项目管理下的项目列表菜单;数据源管理:用户点击可直达数据源管理功能;项目管理:用户点击可直达项目管理目录下的数据同步中心;数据管理:用户点击可直达项目管理目录下的数据开发中心;数据服务管理:用户点击可直达项数据管理录下的服务开发和服务管理数据数据概览。
用户用例前置条件:设计端大屏文件发布且授权。参与者:平台管理员用户大屏调试端用户项目管理功能描述本模块包含了七个功能菜单,分为:项目列表,离线同步中心,离线开发中心,离线运维中心,实时运维中心,实时同步中心,实时开发中心。主要实现数据的同步、开发、运维工作。项目管理部分需求如下图所示:项目列表提供所有项目的管理功能,包括:项目配置,同步,开发,运维等功能。主要功能为:(1)支持按照项目名称模糊搜索,可以直接新建离线开发和实时开发类型的项目;(2)建立项目之后,可以对项目进行配置,支持对项目信息编辑和删除,通过 “项目配置”进行项目基础配置和环境配置; 环境配置进行数据完善,添加“环境”,“资源组”, “调度队列”,“数据库”,“描述”,“资源文件路径”等数据信息;(3)配置好项目后,可进入同步,开发,运维中心,进行具体操作。离线同步中心离线同步作业用于数据同步或数据交换,目的是把数据从一个数据源中同步到另一个数据源,通过页面化的操作方便用户快速构建数据同步作业,支持各类数据源的数据同步至数据中心,包括MySQL、Oracle、SQL Sever、Hive等。提供离线数据的数据同步,字段映射,作业调度等功能,实现离线数据的同源迁移和异源同步功能。
主要的功能需求为:(1)新增作业同步作业新增、配置,主要实现对作业的定义,源数据源和目标数据源的指定,数据过滤,字段映射,同步规则制定,多时间粒度的作业调度配置;(2)作业管理同步作业管理,主要包含对作业的增删改、检索、刷新以及批量操作;(3)历史同步作业管理主要包含对历史同步作业的多时间粒度的统计分析展示, 以及同步作业的成功失败统计;(4)同步作业运行监控主要包含对同步作业运行的进度监控,持续时间,运行日志统计,运行作业的启停等。离线开发中心提供用户通过多种方式进行离线数据的开发作业。需求清单为:主要功能需求为:(1)离线开发中心包括离线中心,临时作业,资源文件,表管理。离线中心对原始数据进行加工,以此实现对信息数据的统计分析开发操作。支持根据项目名称和作业名称查找,支持根目录的副页面,直接新建工作流,新建离线作业,新建临时作业,新建表,新建资源;在目录侧的扩展点处,可以对相应作业、目录进行新建、删除、重命名等操作;(2)临时作业不可提交或进行调度,主要用来做一些数据探索性的工作,如临时抽取数据。临时作业使用方法与离线作业的用法基本一致;(3)资源文件是指用户上传的文件,可被用于作业开发中。
添加资源文件,默认Jar 格式文件,限制文件50M以内;(4)表管理中可以查看表的字段信息、分区信息和数据预览,相当于数据存放的数据仓库。点击想要查看的表后,可以看到此表详细信息;(5)作业配置可以对作业的运行参数和调度时间进行具体配置,并完成作业的提交运行,同时提供运行日志和和运行结果的展示;(6)工作流配置可以对多个作业通过拓扑方式构建工作流,实现批量运行和作业的事件触发运行。离线运维中心对离线开发和离线同步作业的实时监控及统计。需求清单为:主要功能需求为:(1)运维中心可查看指定时间段工作流和作业的运行总览、每个实例的运行状态和日志,还有作业及工作流之间的依赖关系;(2)运行总览可查看每天工作流和离线作业运行统计信息,点击某个状态可自动跳转到相应的工作流或离线实例中;(3)工作流页面分为工作流列表和工作流关系图,工作流列表根据责任人和工作流名称进行筛选;工作流依赖关系图和为具体信息。可以打开或关闭工作流信息;(4)工作流实例分为工作流实例列表和工作流依赖关系图,工作流实例列表可以根据日期、状态、负责人、关键字进行筛选;工作流依赖关系图、运行状态和具体信息;(5)离线作业页面分为离线作业列表和作业依赖关系图,离线作业列表,可以根据作业名称进行筛选;作业依赖关系图是作业依赖关系图和具体信息;(6)离线实例页面分为实例列表和实例信息,实例列表,可以根据日期、工作流、工作实例ID、状态、责任人、关键字进行筛选;实例信息,包含实例上下游、运行状态、基本信息等。
实时运维中心对实时开发和实时同步作业的实时监控及统计。需求清单为:主要功能需求为:(1)实时运维中心可查看实时作业的运行总览、每个作业的运行状态,运行总览可查看实时作业的运行统计信息;(2)实时作业运维功能可根据作业状态、开发者、作业名称筛选指定条件作业,查看工作流依赖关系图、运行状态和具体信息;(3)实时作业运维操作,包含作业的启停等操作,可以对指定的作业进行指定操作,维护平台作业统一调度和管控。实时同步中心提供实时数据的数据同步,数据处理规则配置,拓扑方式的同步作业开发以及作业调度配置等功能,支持多种实时数据的同步功能。需求清单为:主要功能需求为:(1)同步作业新增、配置,主要实现对作业的定义,实时数据源和目标数据源的指定,数据处理规则制定,多时间粒度的作业调度配置;(2)同步作业管理,主要包含对作业的增删改、检索、刷新以及批量操作;(3)规则配置提供对多种数据处理规则的统一管理,提供多种数据处理函数,如filter,Windows,replace,saveAs等几十种函数;(4)同步作业运行监控,主要包含对同步作业运行的进度监控,持续时间,运行日志统计,运行作业的启停等。实时开发中心用户进行实时作业开发的操作。
需求清单为:主要功能需求为:(1)实时开发中心支持对实时开发作业的增删改、检索、查询等操作,便于对开发作业有效管控;(2)实时开发中心提供拓扑开发方式,支持多种source、sink数据源,同时,支持Select、Union、Filter、Windows等多种算子对数据进行操作,同时可对实时作业的执行情况的统计分析;(3)实时开发中心提供SQL开发的方式,包括SQL作业的增删改,SQL语句的高亮识别,多种SQL语法的支持,以及作业的提交,保存,运行操作,同时提供对实时作业的执行情况的统计分析;(4)实时开发中心提供JAR开发的方式,包括JAR作业的增删改,以及作业的提交,保存,运行操作,同时提供对JAR作业的执行情况的统计分析。用户用例参与者:普通用户。数据概览数据概览功能提供展示元数据数据库、表、总存储量基本信息和变化信息。功能描述数据概览:可以查看元数据数据库总数目,表总数目,总存储量等。可以查看数据库、表、新增存储量 top10排名。元数据列表元数据列表可以查看元数据详情、查看数据的字段视图和表格视图。功能描述支持根据数据库名称,数据库类型,表名称筛选元数据表。支持查看元数据基本信息和存储信息,可以修改基本信息描述和存储信息周期,支持查看元数据的字段视图和表格视图。
数据质量管理数据质量主要是给HIVE数仓表添加表规则和字段规则,并根据规则触发报警生成报告,推送报告给开发者。功能描述(1)支持根据数据库名称,规则类型,状态,表名称查询筛选表和字段规则,可以根据数据更新时间排序;(2)规则支持表监控和字段监控两种规则,表监控和字段监控分别最多添加3条规则。表监控类型有三种,记录波动,新增存储量,总存储量;(3)对比对象有固定值、前1天、上1工作日、上周同期、最近7日平均最近30日平均;(4)监控策略: 告警和告警并阻塞两种;(5)用户选择记录波动 ,对比对象固定值 ,监控策略 ,选择告警和告警并阻塞两种 (大于小于等于多少条);(6)用户选择记录波动, 对比对象(前1天,上1工作日,上周同期,最近7日平均,最近30日平均),监控策略,选择告警和告警并阻塞两种 ,(绝对值、上升、 下降)(大于、小于、等于、 不等于,介于)百分比;(7)用户选择每日新增存储量,对比对象固定值,监控策略,选择告警和告警并阻塞两种 (大于、小于、等于)数值(单位:KB、MB、GB、TB);(8)用户选择每日新增存储量,对比对象(前1天,上1工作日,上周同期,最近7日平均,最近30日平均),监控策略,选择告警和告警并阻塞两种 ,(绝对值、上升、 下降),(大于、小于、等于、不等于、介于)百分比;(9)用户选择总存储量,对比对象固定值(只有这一种),监控策略,选择告警和告警并阻塞两种 ,大于、小于、等于)数值(单位:KB、MB、GB、TB)。
(9)字段监控有字段规范和字段值两种类型;(9)监控类型有平均值、最大值、最小值、总和,方差,是否唯一、是否为空、是否规范;(10)对比对象:固定值,前1天,上1工作日,上周同期,最近7日平均,最近30日平均;(11)监控策略:重复条数大于XX条,为空条数大于XX条,不符合条数大于XX条(必填匹配规则), 告警和告警并阻塞;(12)用户选择字段规范性,选择监控字段、监控类型选择是否唯一,监控策略对应重复条数大于XX条;(13)用户选择字段规范性,选择监控字段、监控类型选择是否为空,监控策略对应为空条数大于XX条;(14)用户选择字段规范性,选择监控字段、监控类型选择是否规范,监控策略对应 不符合条数大于XX条,同时填写匹配规则,规则只能为正则表达式;(15)用户选择字段值,选择监控字段、监控类型:平均值、最大值、最小值、总和,方差,对比对象(前1天,上1工作日,上周同期,最近7日平均,最近30日平均),监控策略,告警和告警并阻塞 ,(绝对值、上升、下降)(大于、小于、等于、不等于、介于)百分比;(16)支持将订阅报告推送(T+1)给多位开发者;(17)支持根据时间查看订阅报告。可以查看表的基本信息,监控规则状态分布,监控规则信息,监控规则图形(支持查询三天数据)。
数据服务数据服务中心包含数据服务开发、数据服务管理和应用管理。数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。数据服务为您提供快速将数据表生成数据API的能力,同时支持您快速注册现有的API至数据服务平台,进行统一的管理和发布服务开发为api开发模块,开发的api发布后会进入服务管理模块管理,通过应用管理的授权后,用户就可以访问对应的api。主要功能清单为:功能描述主要需求为:(1)向导模式:用户使用授权的数据源,选择需要分享的数据表,配置请求参数,返回参数。再进行生成API,平台也提供对生成的API进行测试的功能,最后用户可以发布API,实现快捷数据共享;(2)脚本模式:用户使用授权的数据源,写多表查询的SQL查询语句,平台识别请求、响应参数,实现多表的关联查询结果的数据服务。再进行生成API,平台也提供对生成的API进行测试的功能,最后用户可以发布API,实现快捷数据共享;(3)数据服务管理:提供对数据服务API的整体管理,检索,授权管理,发布、下线、编辑功能,实现数据服务的统一管理。用户用例参与者:用户数据资产实现与大数据平台的统一集成与管理,建立数据资产管理规范,实现对平台主数据管理、业务元数据管理、数据资产目录、数据资产服务、数据血缘分析、数据热度分析、数据可视化服务等功能,提升平台数据资产运营能力。
借助多种算法,数据模型管理,元数据采集,监控,全文检索,血缘分析,数据全生命周期管理,主数据管理,数据分类管理,数据标签管理等功能,实现数据资产的沉淀。功能描述主要需求为:(1)数据资产概览:帮助用户监控数据库,表,字段等存储估算,实现实时数据监控;(2)数据编目管理:提供数据编目管理的功能。帮助用户从数据资产应用的角度,重新编目整理数据资产;(3)元数据采集:元数据采集支持对多源异构数据连接的采集,支持多种采集调度方式。(4)元数据采集:元数据检索支持对平台元数据采集器采集的元数据和平台数据模型的元数据的检索,同时支持对元数据进行全链血缘分析,关联度分析,关联对比分析。数据资产实现与大数据平台的统一集成与管理,建立数据资产管理规范,实现对平台主数据管理、业务元数据管理、数据资产目录、数据资产服务、数据血缘分析、数据热度分析、数据可视化服务等功能,提升平台数据资产运营能力。借助多种算法,数据模型管理,元数据采集,监控,全文检索,血缘分析,数据全生命周期管理,主数据管理,数据分类管理,数据标签管理等功能,实现数据资产的沉淀。功能描述主要需求为:(1)数据资产概览:帮助用户监控数据库,表,字段等存储估算,实现实时数据监控;(2)数据编目管理:提供数据编目管理的功能。
帮助用户从数据资产应用的角度,重新编目整理数据资产;(3)元数据采集:元数据采集支持对多源异构数据连接的采集,支持多种采集调度方式。(4)元数据采集:元数据检索支持对平台元数据采集器采集的元数据和平台数据模型的元数据的检索,同时支持对元数据进行全链血缘分析,关联度分析,关联对比分析。非功能需求系统性能系统要求支持数据接入的高吞吐率,支持单机200万测点/s的数据接入;支持数据多副本存储,保证数据的长期有效存储与完整性;支持系统的高可用性,在个别服务器或磁盘出现故障时,系统仍可正常的运转。数据查询响应时间(当返回点的个数不大于10000时)在秒级;max/min/average/std error等常用的聚集查询,响应时间在秒级;提供高速并发写入和高并发查询,每台服务器至少实现1万条以上记录的写入和查询(记录大小1KB);对实时热数据提供毫秒级的查询响应;支持R、Python、Spark等数据分析挖掘能力。预置多种数据分析挖掘算法,如主成分分析、KMeans、XGBoost、逻辑回归、实际森林、线性回归等。数据接入和实时分析组件能实现无停机水平扩展,即机器数目增加,数据接入和实时处理的吞吐量也线性增加;数据存储和查询组件能实现水平扩展,即机器数目增加,数据存储的能力能线性增加,查询响应时间线性减少;不停机扩容,在增加节点的过程中7*24写入的数据不丢失;不停机升级,系统各服务组件(实时接入,存储,查询和分析等)的升级,不会影响数据的写入和服务提供;数据资源管理、数据治理、数据资产管理等系统都能够提供开放的REST API或SDK,便于与其他系统的集成和后期扩展。数据接入、存储、查询和分析都能够提供和开源Hadoop社区兼容的标准化接口;大数据数据接入集群支持性能无损弹性扩展,单节点数据接入能力不低于200万测点/秒,提供现场性能测试用例;











