中国学术杂志网

邮政培训大数据备份模式研究

 论文栏目:邮政管理论文     更新时间:2018/11/16 14:32:19   

摘要为满足邮政企业培训业务快速发展对海量数据处理、存储和备份的业务需求,解决现有系统维护成本高、数据处理和存储能力不足的问题,引入云存储技术、连续数据保护和重复数据删除技术,构建基于云存储的邮政企业培训大数据备份系统。该系统具有海量数据处理、成本低、可扩展性强、高时效备份与恢复的特点。

关键词企业培训;云存储;HDFS;CDP;数据删除

随着邮政企业培训事业的蓬勃发展,中国邮政网络培训学院(以下简称“中邮网院”)的各项培训业务规模不断扩大,培训积累的数据量开始迅猛增长,现有基于传统架构的存储备份系统,在大数据处理、时效性、存储容量等方面,已不能满足快速发展的业务需求。本文提出一种适用于邮政企业培训大数据的存储与备份需求,具有经济可行、易于管理,集高效数据处理、海量数据存储、高时效备份与恢复特点于一体的备份系统。

1关键技术

1.1数据备份

数据备份是指为了防止数据丢失或损坏,以某种方式将数据转移到其他介质上进行存储的过程。数据备份作为一种数据安全策略,在灾难或故障发生时利用备份来恢复数据,能够保证数据的可用性与安全性,是避免数据丢失和保证数据安全的基本保障。数据恢复则是数据备份的逆过程[1]。连续数据保护技术(ContinuousDataProtection,CDP)作为一种高级的数据保护技术,因其能够连续捕捉和保存数据状态的变化,并将变化后的数据独立保存在原始数据之外,因此在系统发生故障或者灾难时,可将数据恢复到过去任意时间点的状态。它打破了传统数据备份的周期间隔长,恢复时间点离散的缺陷,真正将数据丢失量降到最低,即RPO≈0。重复数据删除技术(DataDeduplication)是一种数据缩减技术,通过消除冗余数据,减轻网络传输压力,从而提升网络带宽和存储空间的利用率[2]。依据数据的划分粒度不同,分为应用级、文件级、数据块级。划分粒度越小,可检测出的冗余数据越多,但其实现复杂度也越高,系统开销也越大。

1.2云存储

云存储是由云计算技术发展而来,通过集群技术、网格技术、分布式文件系统等技术,将网络中大量不同类型的存储设备集合起来协同工作,共同对外提供数据存储或备份功能[3]。HDFS是Hadoop的核心项目之一,它部署在由廉价硬件设备组成的集群上,以分布式文件系统的形式为用户提供数据存储服务。HDFS具有大数据处理、低成本、高容错、扩展性强等特点[4]。云存储相比于传统的存储方式,具有优势如下:(1)可扩展性高。可以根据需要随时扩充集群规模,不断提高存储能力。(2)可靠性高。基于分布式文件系统的多副本备份策略,数据安全性和可靠性更高。(3)不受地理位置限制。企业基于互联网络服务,可以实现异地数据备份。(4)具有成本优势。相比于购置存储设备建立数据中心,云存储所需的成本低很多。

2整体架构

基于数据处理和存储备份的业务需求,构建基于云存储的大数据备份系统。在存储方式上采用基于HDFS的云存储技术,通过部署分布式集群系统,提供海量数据的高效处理和存储能力,形成高扩展性、高可用性、高容错性的云存储系统;在备份方式上采用连续数据保护技术和重复删除技术,将每一次数据变化都保存到云服务器,并进行冗余数据的校验与清除[5]。当系统发生故障和灾难时,利用备份数据来恢复任意历史时间点的数据,保证生产系统数据的完整性、连续性和可用性。系统构成分为客户端和云服务器端,其整体架构如图1所示。基于云存储的数据备份系统,将生产系统总称为客户端,通过在服务器上部署CDP管理模块,实时监控数据变化,并通过网络接口传输到云服务器端存储。云服务器端则是由部署HDFS系统的多台服务器组成,包括元数据服务器、备份数据服务器。其中,元数据服务器为中心节点,负责客户端访问请求、版本索引管理、重复数据删除、存储任务的管理与分配等[6];备份数据服务器负责具体数据的存储和管理,处理客户端的读写请求,并在元数据服务器的统一调度下将客户端传来的数据进行存储。

3功能流程

3.1系统功能

在客户端,通过CDP管理模块实时捕获数据的变化,保存到磁盘缓存模块,并对基线数据和变化数据进行预处理,数据整合之后传输到云服务器端,删除重复数据后进行存储。其系统功能结构如图2所示。客户端主要包括CDP管理模块和数据预处理模块。其中,CDP管理模块是实现连续数据保护技术的关键,通过部署在文件系统下层的过滤驱动,可以屏蔽异构文件系统,实现跨平台的实时捕获数据变化,标记上客户端编号、位置信息、文件大小和时间戳缓存到本地;数据预处理模块采用固定长度分割方法,将大数据分割成多个数据块,并生成数据完整性、可重构性的校验,然后通过数据交互的通信接口,将整合好的数据块传输到云服务器。云服务器端,主要包括用户认证模块、版本索引模块、数据去重模块、元数据管理、备份数据管理、缓存模块和数据恢复模块。其中,用户认证模块负责用户的认证和权限控制,确保链路和数据访问安全;版本索引模块记录有备份数据不同时间点的各个版本,提供快速查询索引功能。数据去重模块通过计算得出数据块的Hash指纹,然后在检索指纹是否重复,如果存储系统中已有相同指纹内容,则不会对新数据进行存储,仅保存指向原数据块的指针,这种技术可以有效提升存储系统的空间使用率,节省磁盘存储容量。固定长度分块算法数据去重如图3所示。元数据管理模块负责管理整个系统,处理来自客户端的读写访问请求,所有对元数据的修改操作都被记录保存,并建立文件块在数据备份节点存储的映射关系,通过心跳信号周期性检测备份节点工作状态和数据完整性,按照副本备份策略恢复故障节点的错误数据。备份数据管理模块负责备份数据的存储和处理来自客户端的读写请求,在元数据管理模块的统一调度下完成文件的创建、复制、删除等操作。缓存模块存有一定数量的最近若干次备份的去重复数据块,可以提升响应效率,加快数据恢复过程。数据恢复模块按照恢复时间点,结合版本检索模块和缓存模块,获取所需数据块并重组后提交给客户。

3.2工作流程

数据备份工作流程如图4所示。数据备份流程:客户端数据更新被CDP过滤驱动截获,将数据分割为大小固定的数据块,通过计算数据块的指纹,在重复数据块索引表进行冗余查询,如果已经存在则保存指向数据块的指针,并更新去重复块的统计值,如果不存则插入一条新记录来描述该数据块,并将数据提交到备份存储节点执行写操作。数据恢复工作流程如图5所示。数据恢复流程:由客户端发起恢复请求,云服务器端进行用户身份和权限的认证,由元数据服务器解析恢复请求时间点及偏移量,检索版本索引表找到数据块存储的目标地址,并校测备份数据服务器上的数据是否完整,决定是否采用副本进行数据恢复,获取数据块重组后转发给客户端进行数据恢复。

4结语

为解决邮政企业培训业务中出现的现有系统在数据存储和备份上的不足,降低企业运维成本,提升系统的海量数据的处理能力和存储能力、容灾备份与恢复能力,本文引入云存储技术、连续数据保护和重复数据删除技术,构建了基于云存储的大数据备份系统,能够适应邮政企业大规模培训的海量数据处理和存储备份需求,具有成本低、可扩展性强、高时效备份与恢复的特点,具有一定的实际应用价值。

参考文献

[1]刘霞,冯朝胜,罗王平.面向云备份系统的多级隐私保护机制[J].计算机工程与设计,2017(12):3241-3246.

[2]刘青,付印金,倪桂强,等.基于Hadoop平台的分布式重删存储系统[J].计算机应用,2016,36(2):330-335.

[3]郭东,杜勇,胡亮.基于HDFS的云数据备份系统[J].吉林大学学报(理学版),2012,50(1):101-105.

[4]李超越.基于Hadoop的数据备份技术的研究与实现[D].北京:北京邮电大学,2015.

[5]贺秦禄.云存储环境下重复数据删除关键技术研究[D].西安:西北工业大学,2016.

[6]付印金.支持多级隐私保护的云备份系统的研究与实现[D].成都:四川师范大学,2014.

作者:庞超 刘倩 魏虹雨 单位:石家庄邮电职业技术学院

学术网收录7500余种,种类遍及
时政、文学、生活、娱乐、教育、学术等
诸多门类等进行了详细的介绍。

邮政管理论文
@2008-2012 学术网
出版物经营许可证 音像制品经营许可证
主机备案:200812150017
值班电话
0825-6697555
0825-6698000

夜间值班
400-888-7501

投诉中心
13378216660
咨询电话
唐老师:13982502101
涂老师:18782589406
文老师:15882538696
孙老师:15982560046
何老师:15828985996
江老师:15228695391
易老师:15228695316
其它老师...
咨询QQ
89937509
89937310
89903980
89937302
89937305
89937307
89937308
业务
综合介绍
在线投稿
支付方式
常见问题
会员评价
官网授权
经营许可
关于我们
网站简介
版权声明
友情链接
人员招聘
联系我们