恒华大数据资源管理与监控系统
一、概述
恒华大数据资源管理与监控系统,它是为了简化对用于部署大数据平台的硬件服务器资源,以及在服务器硬件上运行的大数据服务框架的监控和管理而开发的系统,该系统可以通过同系列的教学管理系统与实训管理系统对接,共同为教师及学生提供一个大数据实训实操环境。
恒华大数据资源管理与监控系统可以对每个服务器节点上的硬件资源使用情况进行实时的监控管理,同时也作为对运行在各个节点上的大数据服务框架的统一管理接口。
该平台主要以图表和数值组合的方式对资源进行可视化实时动态显示,当资源使用超过阀值或服务运行异常时会进行及时的报警动作,通知管理员及时进行修复处理。
系统主要包括仪表盘、服务管理、主机管理、警告管理、集群管理、用户管理等模块的功能。
仪表盘:提供该集群已安装的服务的列表,HDFS磁盘使用情况、DataNodes存活节点、内存使用情况、网络使用情况等常用监控项的概览显示。
服务管理:服务管理是对已安装在集群中的大数据服务进行具体的监控和操作。主要有查看各节点对应服务运行情况,资源占用情况等监控功能,及可以对服务进行启动、停止和进入维护模式等操作。
主机管理:主机管理是对支撑集群的物理服务器进行具体的监控和操作。主要有查看各物理节点的磁盘、内存、CPU占用情况等监控功能,及可以对某物理节点上运行的服务进行启动、停止和进入维护模式等操作。
警告管理:警告管理是对集群中出现的警告和错误信息进行集中管理。
集群管理:集群管理是对集群中的服务版本、服务帐号、安全认证机制、服务自启动等进行配置的一个管理模块。
用户管理:该系统通过用户和用户组对用户进行管理,用户可以加入用户组,为用户组定义的权限(如:只读、管理等)对属于该用户组的所有用户有效。
四、部分页面展示
图1-1
● 服务概览区:集群已安装服务及其状态的概览显示。
● 功能模块选择区:进入到具体每个功能模块的子页面。
● 监控项图形化展示区:提供常用监控项的图形化展示。
2、服务资源界面
服务概览区中显示了集群安装的服务,通过点击某一服务可以从对整体资源进行监控的仪表盘跳转到对某一服务监控的子仪表盘。如图1-2
图1-2
页面展示的数据项用户可以按自己需要监控的参数进行全面的自定义。
图1-3
页面是对已安装在集群中的大数据服务进行具体的监控和操作。主要有查看各节点对应服务运行情况,资源占用情况等监控功能,及可以对服务进行启动、停止和进入维护模式等操作。
页面中统计显示了对应服务框架的守护进程的实例总数、在线实例数、运行状态、正常运行时间,和服务自身提供的计算资源、存储资源等的使用情况。
例如:以HDFS服务框架为例,则主要对NameNode、SNameNode、DataNode等属于HDFS框架的守护的实例在线情况进行统计显示,以及HDFS服务本身提供的分布式存储资源的存储容量使用情况等进行统计显示。
页面的用法与仪表盘中的图形化展示磁贴一致,此处不再赘述。不同之处在于此处不再对服务器资源度量进行显示,而是仅仅针对该服务框架的资源情况。如图1-7
图1-7
服务配置页面。如图1-8
服务配置主要分为“设置”和“高级”两类。“设置”中主要是对一些常用的参数,通过拖拽的方式进行调整。如图5-9“高级”中可以对一些高级配置参数进行数值上的设置。如图1-10
图1-8
图1-9
图1-10
[主机管理]页面是对支撑集群的物理服务器进行具体的监控和操作。主要有查看各物理节点的磁盘、内存、CPU占用情况等监控功能,及可以对某物理节点上运行的服务进行启动、停止和进入维护模式等操作。
[主机管理]页面默认会展示集群中主机的概览,主要包括主机名、主机警告、IP地址、所属机架、CPU核心、内存、存储试用情况等常用主机信息。如图1-11
点击其中一台主机的主机名,可以进入到对该台主机状态的[概要信息]页面,主要包括运行在该主机上的大数据服务的组件、主机资源实时指标等。如图1-12
点击某服务组件后方的按钮,可以对该服务的状态进行如启动、重新启动、停止、打开维护模式等操作。如图1-13
点击某一主机指标的图形,可以将图像放大并显示出更详细的信息。如图1-14
图1-14
点击【配置】按钮进入[主机配置]页面。主机配置与服务配置类似,已在前面介绍,此处不再赘述,不同点在于此处设置的配置项仅对某一主机节点上运行的服务生效。如图1-15
图1-15