今天我想跟大家聊聊重复数据刪除目标备份设备这个领域,部分参考材料是Gantner今年9月25日更新的魔力象限(可以点击本文底部“阅读原文”来查看Gartner英文报告原文)伴随着公司排名位置的变化,一并分析下这些年来流行的技术路线以及新技术对最终市场表现的影响、未来趋势等。
先预告一下文中的5个论点:
注:我并非这一领域的专家只是将自己一些粗浅的见解与大家分享,如有不足之处欢迎批评指正本文篇幅较长,但为了保证内容上湔后关联的完整性故放在一起发表。
如上图EMC在企业级磁盘备份存储这一领域仍然遥遥领先,另一家进入领导者象限的惠普与之差距还昰很大;远见者象限中的ExaGrid和挑战者象限中的昆腾——都只有一家;余下厂商都在“利基玩家”象限中戴尔相对领先。
我们找出去年7月的魔力象限用来对比我用箭头标示出一年多来几家变化较明显厂商的动向。在翻译整理Gartner关于厂商的具体说明之前先交待一些前提条件。
紸:下文中翻译Gartner的内容我会统一加上灰色底纹,以区别于我个人观点的部分
飞康正在将重心由重复数据删除备份目标设备(VTL和FDS)转移箌其整合备份设备(CDP)及综合软件产品(FreeStor)。
由此Sepaton从之前的远见者象限掉出到HDS现在的位置,以及Riverbed换成NetApp就比较清晰了除此之外,ExaGrid
Systems的远见囿所降低;戴尔和NEC表现上升特别是执行力方面;富士通的下滑我不想专门点评,他们使用了昆腾的重复数据删除算法
在Gartner报告中,“供應商优势及注意事项”是按照英文首字母来排序的——前面2家是Dell和EMC这里我打乱一下顺序,先看下降的厂商再看上升的
ExaGrid聚焦在中端市场囷小企业。不同于运用线内(in-line)重复数据删除的众多竞争者EX系列产品在备份数据存储于设备中的“着陆区”之后,执行后处理(post-process)重复數据删除这种架构在从最近的备份恢复、装载虚拟机(VM)即时恢复,或者进行磁带复制时省去了再水化(rehydrate或称“注水还原”)数据的需要。ExaGrid可以向外扩展到由10种不同容量型号组成的25个节点
l ExaGrid的横向扩展架构和“着陆区”允许不间断的计算和存储扩展,具备一致的数据摄叺速度以及从最近的备份快速恢复或者VM启动。
l ExaGrid支持广泛的备份应用程序和实用工具与Veeam之间比其他竞争对手更深度的整合。
l ExaGrid为每个帐户汾配一个专门的技术人员从而导致高客户满意度。
l ExaGrid目前在北美以外地区有限的部署和支持能力
l 虽然恢复最近的备份(未经过重复数据刪除处理)性能快,但对于以前的备份会有显著的性能下降因为需要再水化数据。
l 缺乏一个虚拟磁带库(VTL)接口和光纤通道连接性可能会限制ExaGrid对大型企业的吸引力。
日立数据系统公司(HDS)在2014年第三季度收购了Sepaton后来HDS更名产品线为Hitachi
grid,并推出了新的固定容量32TB的S1500产品S系列执荇后处理重复数据删除,对备份和应用工作负载内容感知虽然以一个快速、可扩展、功能丰富的产品较早进入市场,但HDS/Sepaton让人持续体验到其新架构的产品延迟
Platform高度可扩展,从32TB设备到4PB的可用磁盘容量在一个网格架构中最多8个节点。
该产品是较早期推向市场的带有先进功能,如节点间自动负载均衡、快速空间回收、安全擦除、集成系统级加密对赛门铁克的OpenStorage技术(OST)的强大支持以及通过一个基于云的存储庫深度报告。
l 该产品针对虚拟合成全备份和空间回收提供高效、快捷的处理可提供良好的恢复性能。
l OST支持需要独立的多个许可证
全新嘚V系列架构提供CIFS和NFS文件接口以及混合(在线和后处理)重复数据删除支持,现在的目标是在2015年晚期发布比开始的预期晚了超过一年半时間。
点评1:后处理重复数据删除已近迟暮
上面两家厂商共同的特点,就是都采用了后处理重复数据删除技术Deduplication本身就是以时间来换空间嘚技术,而随着Intel
CPU计算性能的不断强大in-line重删的性能不断提高,后处理重删的优势就不明显了而其缺点——占用更多磁盘空间,增加I/O(可能还会增加硬盘故障率重删后的数据恢复也需要两个阶段)就显得有些不值了。
这里也举2个旁证昆腾第一代重复数据删除是后处理技術,后来改为in-line戴尔NetVault备份软件于2009年底(当时还属于Bakbone)加入的SmartDisk也是后处理重复数据删除,如今将被新的R3(Rapid
NEC的HYDRAstor是一个in-line的全局重复数据删除设备它具有弹性和高效的横向扩展架构,可以从1个扩展到165节点具有高聚合吞吐量节点可以无中断添加或者退役,带有自动故障切换、负载岼衡和碎片整理最多可以同时支持三代产品。NEC在2014年底推出了Universal
Express I/O并在最近推出Universal Deduped Transfer,从而在没有任何OST依赖的异构备份应用程序情况下减少网絡流量并提升性能。
l 可扩展的真正的网格架构设计使得系统小至2.5TB,最大理论方案超过5PB以及最快的吞吐量高弹性水平。
l HYDRAstor提供了许多独特嘚存储功能例如通过擦除编码(erasure coding,纠删码)可配置弹性和可用性、数据粉碎以及广泛的加密和锁定功能。
Transfer选项支持所有备份应用程序并可产生4到6倍更大的吞吐量。
l 与多节点配置相比最小的、单个节点的配置将不提供一些功能,如高可用性、以及若干纠删码级别和最赽的恢复性能
l 在日本以外销售额有限;然而,最大的安装基础是在美国
随着云计算、大数据和软件定义数据中心的发展,Scale-out在多数场合嘟会被人们认为比Scale-up更好而在重复数据删除领域则不太一样。
前面谈到的3家厂商都是Scale-out但却有2家表现下滑,而NEC的提升也与之关系不大因為其网格架构早已成熟。
在这里Scale-out需要面对几个问题:
1、高可用性:在单节点时也存在这个问题,由于是备份设备通常允许有一定的停机時间(只要保证数据完整性就好)而在多节点系统中,这个问题被“放大”了厂商最好提供节点级容错能力,已经停产并只有2节点的EMC GDA算是个例外
2、数据一致性和负载均衡:需要像文件系统那样有一个全局命名空间,但不见得都能做到数据均匀分布和自动负载均衡比洳惠普StoreOnce B6000系列高端产品,是双控+Scale-out的容错配置但据了解其最佳实践为人工分配备份任务。
3、跨节点访问:为了实现全局重复数据删除需要囿一个涵盖所有数据的Hash(哈希)指纹库,这部分数据只有存储或者缓存到内存/闪存中才能达到较高的访问效率一旦节点扩展的规模较大,重删指纹库应该会切分到各个节点毕竟多个节点都用DD990那样的四路服务器豪华配置不太现实。也就是说在数据比对以及计算之后的落盤时可能产生跨节点访问,此时如果用万兆以太网效率是否就能达到要求呢
重复数据删除设备的底层都要有一个文件系统,这个也分为Shared-Nothing汾布式与集群式共享后端两种架构
集群网关型:上文中我们列出过架构图,HDS/Sepaton是典型的集群架构前端8个网关节点,后端在收购之前就采鼡日立的AMS磁盘阵列据了解Sepaton团队源于著名的SANergy文件系统,曾经具备优秀的技术Sepaton之前可能存在的一个短板是,在针对开放式系统的磁盘备份產品中主要针对高端VTL市场,使其用户群有些局限
,而采用纠删码会带来更多的网络流量(特别是在重建数据时)提高扩展性可能是鉯牺牲(每节点)性能为代价的。
再举2个相关领域的旁证EMC
XtremIO是为数不多的Scale-out+重删主存储系统(全闪存阵列),这依赖于高速的InfiniBand集群互连专网为了实时处理重复数据删除其元数据需要全部放在内存中。
Isilon集群NAS也是IB互连它的设计是文件系统元数据在所有节点的SSD上保持同步一致。莋为性能要求较高的生产存储其后来添加的重复数据删除功能是后处理实现,我猜测其重删速度不高
类似采用后处理重删的还有另外幾家的集群NAS,包括戴尔Fluid FS等
之,Scale-out与重复数据删除是2个比较难于优化并存的技术而备份产品对硬件成本通常限制较多,加入InfiniBand互连网络等也昰不太现实的
尽管数年前EMC就表示个别用户提出过高可用方面的需求,但以其顶级产品DD990的水平在性能上已经不是问题也许EMC后续有Scale-out的计划,我觉得除了HA之外像VMAX、XtremIO、ScaleIO那样具备无缝扩展性能的弹性是比较值得看重的。
虽然戴尔只是在重复数据删除备份目标设备的市场做了几年他们已经在中型企业市场取得了长足的进展。物理的DR4000和DR6000系列产品提供了可以接受的在线重复数据删除比率通常用比竞争对手更实惠的價格。戴尔还增加了虚拟机形式的DR2000v用于远程办公室/分支办公室使用它可以复制重删后的数据到中央物理设备。
l 戴尔在其DR系列设备及自家備份软件之间拥有良好的整合比如支持为了加快的备份和恢复性能的Rapid Data
l 所有特性、功能和三年的维护和支持,包括在基础价格中
System(CIFS)的功能,这对于支持的备份应用程序提供源端重复数据删除
l DR系列缺少光纤通道支持,并且其标注的参考整体重复数据删除比率相比竞争对掱较为谦逊
l DR2000v需要一个物理许可证服务器,今天还不能作为一个独立的解决方案
l 一些不支持RDA的环境可能需要支持更多的并发备份流,超絀了该设备所提供的
点评3:源端加速重复数据删除受追捧
我们注意到,在Gartner魔力象限执行力排名前4的公司——EMC、惠普昆腾和戴尔都具备專有的源端(客户端)加速重复数据删除技术。当然还有另外一家执行力提高的NEC早先我还曾询问过他们,现在看最终也
目标端重复数据刪除 vs. 源端加速重复数据删除
这些技术的参考对象最初可能来自赛门铁克OST但OST的问题在于只支持自家备份软件。因此EMC推出了DD
Boost以Data Domain优势的市场哋位吸引备份软件来支持。
对于后来者为了提高竞争力也有一些特色或者说微创新。比如一位来自戴尔的资深工程师表示:“类似Rapid Data Service的技術EMC和昆腾都有,而只有戴尔做到了:
第一、随设备免费提供;DD Boost至今还要收费
第二、以NFS/CIFS这种通用协议交付(戴尔称为Rapid
NFS/CIFS,仅随DR设备提供免费提供去重客户端软件),和RDA协议类似但是RDA还是属于封闭协议。”
在此引用《DR Rapid:打通备份数据流动的任督二脉》中的一段话:“戴尔DR
Rapid技术的一大特点是开放兼容如上图:除了所有DR支持(也就是做过兼容性测试)的备份应用都可以使用标准NFS/CIFS做目标端重删之外;针对NetVault有自巳的RDA;赛门铁克Backup
CIFS/Rapid NFS插件,同样支持源端+目标端全局重复数据删除”
关于源端重删的优缺点,业内已经讨论许多年了这里我只简单评论一呴:以生产服务器的部分计算能力,换取网络流量降低并缩短备份时间。
本来我不太想点评EMC因为他们的位置没有明显变化,但考虑到業界老大的参考价值还是把Gartner报告内容翻译如下:
EMC的Data Domain在被评估的设备数量、用户数、磁盘总容量和销售额方面,拥有所有产品中最强的市場占有率Data Domain
Boost作为一个重复数据删除解析引擎,具有最广泛的业内支持新的ProtectPoint备份软件,对于选定的应用程序可以快速、直接地从EMC主存储备份到Data
Domain能够实现更多的每日全备份以降低数据丢失窗口。客户对Data Domain的可靠性、功能性和易用性给予好评
l Data Domain的具有全面的特性和功能,以及较高的重复数据删除比率
l 许多客户已经使用Data Domain的长期保留层,以便在他们的备份基础架构中完全取代磁带
l Data Domain无法关闭重复数据删除,以支持┅些客户所要求的非重删处理的磁盘架
l ProtectPoint保护只涵盖EMC存储解决方案的一个子集和少数流行的数据库环境。
点评4:阵列直连备份成新亮点
下媔截取EMC ProtectPoint白皮书中的2个原理图作为这类技术的代表。
限于篇幅本文中我们只列出ProtectPoint数据平面的原理图,控制平面有机会再讨论备份部分,本质上是一个Server-less快照增量备份的过程
恢复的这张示意图比较有意思。位于Data
Domain上的LUN备份目标在恢复之前或者恢复过程中,就可以经由前端嘚EMC阵列映射给服务器使用了将大大降低这种定时备份的RTO(恢复时间目标)。这里面有个关键点我觉得它利用了VMAX的存储虚拟化技术——Data
Domain仩的备份目标可能是以LUN形式映射给前端阵列,然后VMAX再将其封装成自己的LUN格式
ProtectPoint是同类技术中第一个推出的,除了VMAX之外最近也支持XtremIO再加上目前看到的Oracle数据库支持(一致性快照)——应该是瞄准关键业务数据保护。相比之下惠普的RMC针对3PAR产品线,只支持保护VMware环境
对于“阵列矗连备份”这一新生技术,因为与被保护阵列的依赖关系其普及速度取决于厂商有没有强大的主存储产品线,像昆腾等估计玩不了而NetApp甴于收购之前已经不怎么涉足重删备份这一领域,他们都是推荐用阵列来保护阵列(备份/复制目标同样是FAS/V系列)
点评5:FC需求减少、VTL老数噺芽?
很早就有人说虚拟磁带库(VTL)是物理磁带与磁盘备份之间的一个过渡当OST、DD
Boost等基于以太网(建议用10GbE)的源端+目标端重删技术逐渐普忣之后,传统FC(光纤通道)VTL的需求逐渐减少了但国内市场还是面对变化依旧有些保守,比如Data
Domain还有些人认为它只是一款虚拟带库而不知噵NAS甚至DD Boost。甚至NEC的朋友曾经还与我探讨过这个市场还有多大(值不值得花精力做)
当VTL已经不再是高性能的代名词时,如果用户规划好以太網的带宽传统意义上的LAN-Free备份也不在显得高大上了。然而我发现虚拟磁带库仍将以一些方式长期存在,比如亚马逊就推出了Amazon Gateway
VTL这应该是┅个本地的虚拟磁带库网关,其后面的数据保存在AWS云端的S3和Glacier冷存储我觉得它的出现仍然主要还是为了兼容老的备份/归档软件,以及磁带數据的合规保留策略
图例:NetVault备份软件提供对Amazon VTL网关的支持,也就是所谓的“云备份”
曾经有朋友说“云时代直接抛弃FC”(当然不会有那么赽)我们看到戴尔DR也加入了iSCSI
VTL支持。除了NBU、NetWorker、NetVault这些老牌备份软件之外别忘了Linux和微软Windows平台仍然提供磁带备份支持,还有现在不常被人们提起的DPM(Data
至于FC VTL虽然不符合大趋势,但一段时间内需求仍然存在如果未来哪个厂商还去增加此类支持也未可说?反而是DD Boost over
FC这样的特性似乎呮有EMC的市场规模做出来才有意义。
注:本文只代表作者个人观点如有错误和不足之处欢迎批评指正。
重要提示:请在本公众号发布2天后才能转载本文,有疑问请联系作者尊重知识,请必须全文转载并包括本行及如下二维码。
感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage
加载中请稍候......