中国学术杂志网

CMU管理软件对地震资料处理集群的应用

 论文栏目:地震分析论文     更新时间:2021/1/11 10:58:15   

摘要:在分析集群管理软件CMU功能及在地震资料处理集群中管理集群方法的基础上,通过实例介绍CMU在石油地震资料处理集群部署、监控、管理取得的效果,指出CMU在实际应用中的优点和存在的不足。

关键词:CMU;集群;监控

一、CMU简介

CMU是集群控制单元(ClusterManagementUnit)的简称,与仅在集群基础层监控基础架构的工具不同,它可以对集群的工作负载和资源进行全面监控,包括节点硬件信息、运行状态、报警信息等,对集群系统各个节点状态一目了然。单一的界面中能够同时动态监控1024个节点的状态,同时利用克隆技术对集群节点操作系统进行批量分发(见图1)。CMU的监控功能是通过收集每个集群节点上CMU守护进程所采集的信息实现的。将集群节点物理位置信息和节点的ip地址等信息输入到CMU系统的控制台中,能够自动扫描收集节点的硬件信息(CPU、内存、硬盘等)把数据集合和显示图形分成不同对象后重新处理、重新组织,以流式网络图形格式PNG(PortableNetworkGraphicFormat)来显示各种不同的状态图,即可实现对集群的动态实时监控[1]。主要组成部分如下所述:

(一)守护进程

CMU守护进程部署在集群计算节点上的信息采集守护程序,通过SmallMonitoringDaemon进程实现。采集的信息包括计算节点的物理信息(如CPU,内存使用量)等监控信息,守护进程查看方法如下:[root@hc18n01a~]#ps-ef|grepcmu/opt/cmu/bin/SmallMonitoringDaemon-h192.168.14.10-o48560-O49074-i48557-a/opt/cmu/etc/ActionAndAlertsFile.txt-t5000000-M192.168.14.254-f1-s1-L0-r0

(二)CMUGUI功能

CMUGUI功能是集群管理监控系统的核心,通过管理服务器中的JAVA实现控制界面的呈现,系统管理员可以在控制界面中操作所有功能,如在nodemanagement选项中添加需要监控的集群的名称、节点名称、ip地址等,CMU将实时监控的结果整理后通过图表方式分类显示给用户[1]。CMU利用快速镜像机制,通过并行克隆技术将主节点的系统盘复制到集群的所有节点,避免了逐台安装系统。克隆功能自动重新配置所有克隆节点的hostsname和ip地址。用户可以根据需要编辑克隆节点的配置文件reconf.sh实现个性化的配置,满足不同的应用。

二、CMU在石油地震资料处理集群中的应用

(一)环境介绍

本文讨论的集群操作系统是redhat6.5,集群管理软件为CMU7.0。CMU7.0系统选用HPDL380Gen5机架服务器作为本次集群的管理服务器(Managementserver),操作系统选用RedHatEnterpriseLinuxServerrelease6.5,机器硬件配置为处理器Intel(R)Xeon(R)E5310,内存为64GB,2块1TB硬盘设置为raid1,负责计算节点物理状态的查看及操作系统及应用的分发。集群的计算节点选用的是HPBL2x220Gen7(Computenodes),集群规模是650个计算节点,负责作业计算和处理,CUIclient是系统管理员使用的客户端,集群设备之间的计算网络通过华3交换机实现万兆互联,管理网络通过TP-link交换机千兆互联(见图2)。

(二)实例分析

1.实时监控在石油地震资料处理集群生产环境中,定时采集集群节点的CPU、内存、文件系统等资源的使用状况对监控作业进展非常重要。采集的周期可分为秒、分钟、小时级别。过去由于服务器硬件及软件功能和性能的限制,通常设置为每5秒采集一次数据并对监控页面进行更新。通过提高服务器硬件配置并对CMU的cmu.conf文件进行优化,设置监控页面更新时间为实时,让系统管理员及时掌握系统资源的使用情况,提高了管理效率。例如可通过点击监控界面networkentity下集群节点选项,实时查询集群节点硬件信息、使用情况和报警信息等(见图3)2.账户安全地震资料处理过程中集群系统监控的安全性非常重要。CMU7.0系统安全机制采用的是基于用户权限机制,通过内置的用户管理功能对集群监控者进行账号分级管理。通过设置权限级别,让普通系统管理用户只能查看不能更改,提高了监控和管理的安全性[2]。3.克隆技术利用CMU克隆技术对paradigm、cgg、geoesat等石油应用软件支持的操作系统进行个性化批量分发及安装,用户可以根据生产需要随时调整处理软件应用所需要的集群节点数量。4.并行命令通过配置CMU的MultipleWindowsBrasdcast功能可实现对集群可视化的并行命令管理。地震资料处理集群环境中,经常根据处理软件的使用方法调整每个集群节点的系统参数设置来实现程序的优化,很多时候需要在每个集群节点执行相同的命令。过去常规做法是通过shell脚本,例如for循环语句实现。但类似这种语句是按照顺序运行,几十个节点效率差别不大,如果集群的规模像本次650个节点或者更多,完成任务的时间非常慢,如果执行过程中有报错的节点,程序就会停下来不能继续,浪费时间而且编程比较繁琐。在本次实例中通过配置cmu_gui.conf文件,实现在CMU中通过点击MultipleWindowsBrasdcast键,在console窗口中输入需要执行的命令或者需要修改的系统参数,就可以实现对N个集群节点进行并行命令的管理和操作。所有集群节点参数修改的过程是实时可见的。由于是并行执行命令,一个或者几个节点有问题也不会影响其他集群节点的正常操作。

(三)效果分析

CMU在石油地震资料处理集群生产环境中已稳定运行,基本满足了对集群节点部署及监控的需求。CMU在基于redhat系统的集群中充分发挥了其优点:1.在集群生产环境中CMU实现了对节点操作系统、硬件使用情况的实时监控,满足了对集群应用监控的需要。其可监控参数多,接口功能丰富,目前只使用了一部分,后续可随需求进行扩展,使监控数据更完整。2.通过对节点报警信息过滤,可以快速在众多集群节点中发现故障节点并定位节点位置,快速克隆功能可以对目前集群节点实现快速的系统分发,管理员可根据用户的使用需求随时调整节点。实际应用中,650个集群节点系统安装由过去的20多个小时时间缩短到现在的3小时,提高了集群及地质资料处理系统的利用率,减少了用户等待时间。3.目前对集群节点监控项目的新建、配置、管理、监控都是基于CMUGUI界面方式来操作。使用GUI就可方便查询节点故障、节点状态等信息,用户及管理员的操作简单,提高了管理及使用效率。4.通过配置CMU的MultipleWindowsBrasdcast功能,实现对集群计算节点可视化并行命令管理。过去650个集群节点修改系统参数或者安装相同软件、驱动等操作需要1个小时左右,如果某个节点有问题时间会更长。现在相同操作时间为10分钟左右。由于是实时可视化窗口操作,如果出现问题,管理员能通过窗口及时发现问题,提高了工作效率。CMU在使用中存在一些缺点和不足,比如系统兼容性有待提高,目前只支持HP的服务器和集群,监控功能必须在节点已经安装客户端时才能充分发挥,对节点健康状态的检查监控还不是很完整,部分infiniband网卡pxe引导支持不好等。

三、结语

CMU集群管理监控系统在地震资料处理集群系统上的应用,简化了集群系统管理员对集群的维护工作,在一定程度上提高了集群节点的管理及维护效率。在借鉴使用CMU的经验基础上,下一步工作将对开源的xcat架构进行分解,开发更适合石油地震资料处理集群环境的监控模块及方法,提高管理及使用者的工作效率。

参考文献

[1]于佳.xCAT在高性能计算机集群系统中的应用研究[J].电脑编程技巧与维护,2019(09):50-51+64.

[2]耿艳鹏,刘哲生,等.基于WEB的高性能计算资源共享管理系统[J].信息技术与信息化,2016(5):56-59.

作者:关宇 董玉敏 侯成恩 孙鹏龙

学术网收录7500余种,种类遍及
时政、文学、生活、娱乐、教育、学术等
诸多门类等进行了详细的介绍。

地震分析论文
@2008-2012 学术网
出版物经营许可证 音像制品经营许可证
主机备案:200812150017
值班电话
0825-6697555
0825-6698000

夜间值班
400-888-7501

投诉中心
13378216660
咨询电话
唐老师:13982502101
涂老师:18782589406
文老师:15882538696
孙老师:15982560046
何老师:15828985996
江老师:15228695391
易老师:15228695316
其它老师...
咨询QQ
89937509
89937310
89903980
89937302
89937305
89937307
89937308
业务
综合介绍
在线投稿
支付方式
常见问题
会员评价
官网授权
经营许可
关于我们
网站简介
版权声明
友情链接
人员招聘
联系我们