完整的重复数据删除指南及其重要性
LIKE.TG 成立于2020年,总部位于马来西亚,是首家汇集全球互联网产品,提供一站式软件产品解决方案的综合性品牌。唯一官方网站:www.like.tg
今天,企业每天在其数据库中保存大量的关键信息。他们自动备份数据,自然而然地导致连续的数据重复复制和重新保存。因此,随着时间的推移,数据存储不再需要过重,因为数据副本的成本随着数据需求的增长和处理时间的变慢而增加。
因此,数据去重技术的需求已成为现实。
数据去重技术通过消除数据来减少存储需求。该技术已经从尖端技术发展成为主流工具。数据去重技术首次出现于2003年,当时企业希望整顿磁带存储,转向基于磁盘的备份以提高性能。
10年后,数据去重技术已经成为备份产品(如LIKE.TG的NetBackup Appliances)的标准配置,成为企业数据保护策略中的宝贵工具。
然而,在选择适合您业务的备份去重技术时,需要考虑多个因素。您需要考虑的问题包括可用的去重类型、技术的工作原理、影响去重的因素、与压缩的区别以及虚拟的化环境中的去重等。
本文关于数据去重技术的完整指南将解释所有这些问题,并介绍LIKE.TG如何将先进的数据去重技术集成到其NetBackup Appliance媒体服务器中。通过使用LIKE.TG的NetBackup媒体服务器去重池(MSDP),可以实现云端重、压缩和加密,每小时备份时间,并实现快速的大规模恢复。
什么是数据去重技术?
数据去重技术的过程是去除重复的数据副本,以减少软件系统的处理时间。,每次软件系统数据备份时都会产生大量的数据复制和存储。随着时间的推移,这需要大量的数据因此,数据去重技术可以优化数据存储,确保企业只复制和存储唯一的数据实例。
在沟通的层面上,数据去重技术消除了数据集中的非唯一数据段。根据这个定义,去重技术与压缩技术没有太大的区别。然而,它真正的区别在于针对历史数据的数据减少,这样可以节省存储空间,并防止从多个来源复制相似的数据。
在去重技术出现之前,压缩是主要的存储空间节省方法。在压缩期间,备份解决方案在数据读取磁带或磁盘时对数据流进行压缩。然而,压缩节省的存储空间只发生在当时。因此,可能在另一个时间点压缩类似的数据备份,这将占用数量相同的空间。
数据去重技术存在不同的地方,会将数据分割成块,将这些块进行与先前写入的数据的比对。因此,唯一的块将被存储,而不是唯一的块将创建对相似分割数据的唯一实例的引用。
例如,一个公司的电子邮件系统可能包含50个相同的1兆字节(MB)文件附件。如果不进行重备份,该平台将保存所有50个实例,需要50MB的存储空间。但是,去重只允许存储一个实例的电子邮件附件,而后续的实例将引用保存的副本。因此,50MB的存储需求减少到1MB。
数据去重技术的工作原理
简单地说,数据重整的过程从要进行重整的数据集分割块开始。一个块由一个或多个连续的数据块去组成。如何以及在哪里将数据分割成块是受专利保护的。然而,一旦系统创建了一系列块,数据去重技术就会将这些块与先前由去重系统生成并识别的所有块进行比较。
通过运行确定性的加密哈希系统算法对块进行比较,生成一个哈希值。如果两个不同块的哈希值匹配,系统将它们视为相同的块,因为即使是最小的更改也会导致块存储的变化。例如,如果加密哈希算法为一个8MB的块创建一个名为SHA-1的160位存储值,那么每次备份该块时系统将节省近8MB的空间。因此,数据重去是节省空间的一个重要方法。
数据去重技术去掉重复的数据块,只保存唯一的数据块。它依赖于指纹(数据块的唯一数字签名)来识别数据块。因此,在系统写入数据(内存数据结构)时,内联去重引擎会检查确定的数据块,为每个块生成一个指纹,将其存储放在仓库存储中。
计算出指纹后,系统会在哈希存储中进行查找。然后它会检查与存储内存中的重复指纹(提供体块)匹配的数据块。如果在哈希存储中找到匹配项,则发生发生以下两种情况之一:
如果存在匹配项,则将新数据块(接收者)与供体块进行比较,以进行验证。系统在不将接收者块写入磁盘的情况下验证两个块之间的数据。然后,它会更新元数据以跟踪共享详细信息。
如果磁盘内存中没有提供体块,则系统会从磁盘中预取提供体块,将其与磁盘中的接收器块进行逐字节比较。如果完全匹配,则系统将接收器块标记为重复项,同时消耗其写入磁盘,并更新元数据以跟踪共享详细信息。
后台去重引擎的功能类似。它批量搜索所有数据块。它通过比较块指纹并进行逐字节比较来消除错误的匹配项和重复项。该过程不会丢失任何数据。
数据去重技术的类型
虽然创建一个去重引擎并不难,但是要创建一个性能优化且容错能力强、可扩展的解决方案并不容易。去重发生的位置和方式对服务质量有很大的影响。以下是主要的去重类型:
1.后处理数据去重
作为最低效的数据重整形式,后续处理去重需要一个大的磁盘磁盘来临时存储完整的数据集,另外还需要一个用于去重存储后面数据的磁盘磁盘。因此,它成功直到数据写入目标磁盘之后才应用去重存储过程。然后,将数据存储在一个重存储库中。
虽然后处理去重可以让数据从源端传输而耗费担心处理时间,但会导致空间利用率低,从而导致数据完整性问题。由于这些问题,LIKE.TG的重技术不提供后处理去重。
2.内联数据去重
内联数据去重将去重过程应用到数据流之前的写入存储。它只将唯一的数据段写入存储。
目标级别的内联去重意味着所有存储的数据都会流式传输到目标设备,并在写入存储时进行去重。
源级别的内联去重意味着针对读取的数据进行去重,然后再将其发送到目标设备。
源端去重从数据传输的角度来看是的,因为它大大减少了企业需要通过网络发送的数据量。幸运的是,LIKE.TG的重去技术既支持目标级别的内联去重,也支持源级别的内联去重和压缩。
以下是其他常见的数据去重方法:
文件去重:是指在文件级别进行去重,并检查整个文件而不是文件的内容。去重功能会删除重复文件并引用原始文件。但是,它无法解决文件内的相同内容。
分块去重:将数据分割成块,并通过哈希算法进行运行,以该数据集的唯一哈希创建。与文件去重一样,系统会删除重复的存储值并保留原始哈希值。
子去重:它评估单个文件的内容,以搜索内容将其删除。将文件重复文件块,并将它们相互比较以删除重复内容以节省存储空间。
客户端备份去重:也称为源端去重,它在内部客户端备份程序上使用分块方法来删除重复数据。
Windows 服务器去重:它允许用户仅存储一次数据,并在其位置创建智能指针。微软不断改进 Windows 去重技术。例如,Windows Server 2019 现在可以对 NTFS 和 ReFS 卷进行去重。
为什么数据去重技术很重要?
尽管磁盘容量不断增加,数据存储供应商仍然寻求帮助客户将其不断增加的数据存储到存储和备份设备中的方法。此外,探索帮助最大化数据存储和磁盘容量的机会是有意义的。
因此,存储和备份供应商依赖于数据减少策略,例如去重和压缩。它们使客户能够在存储介质容量的限制之外有效地存储更多的数据。因此,如果客户从各种数据减少机制中获得五倍的好处,他们理论上可以在10TB的存储上存储高达50TB的数据。
考虑以下场景:
一个企业运行着支持 200 个相同工作站的虚拟桌面环境,这些工作站将其数据存储专门用于购买的昂贵的存储队列上。假设该企业运行了多个副本的 Windows 10、Office 2013 和 2016、ERP软件和其他许多用户所需的软件工具,而每个工作站大约占用25GB的磁盘空间。200个工作站将占用5TB的磁盘空间。
数据去重技术使企业能够仅存储单个虚拟机的副本,而存储阵列则指向其他副本。因此,每当去重引擎在环境中找到一个已存储的相同数据资产时,将会保存一个小指针,以替换副本数据,而不是复制数据。这样,去重新释放了存储块。
影响数据去重的因素
需要仔细规划数据去重部署,以确保受保护的数据去重效果良好。不同类型的数据根据其组成可获得不同的去重水平。例如,图像文件、虚拟镜像、压缩数据、加密数据和NDMP流顺利地进行去重。
另外,具有高变化率的数据库可能需要更多的工作来确保优化的去重结果导出数据。LIKE.TG的数据去重技术可以针对不同类型的数据在NetBackup中实现不同的去重策略,根据其去重策略重效果进行处理。
自适应可变长度支架
带载流处理程序的固定长度支架
MSDP 使用智能的流处理程序,借助 LIKE.TG 的技术根据数据类型来优化流来进行去重。此外,流处理程序是自适应的和数据采集的,因此它们有助于基于数据类型的提高提高效率和备份性能。
因此,数据流变成了在固定长度架构下可以以高速实现一致良好的去重率的形式。此外,它在标准文件系统备份和VMware、NetApp、EMC NDMP、Hyper-V等基于快照的解决方案(如FlashBackup)中使用流处理程序。
LIKE.TG在NetBackup中引入了可变长度(VLD)分段,确定最佳的去重结果,即使客户端无法使用流处理程序。VLD使用定义的分段大小范围来查找去重数据的最佳去重结果分段,得出最佳的不透明数据结果,并更好地利用CPU资源。
NetBackup、NetBackup虚拟设备和NetBackup Appliance可以创建一个去重池,它超出了架构边界,并且不限制磁盘架构的其他存储使用。此外,MSDP允许企业在一个媒体服务器上选择固定容量、可变容量和无限制去重。
许多应用程序在同一时间使用加密,其安全趋势正在迅速推动。NetBackup不需要专门用于数据存储的存储架,这意味着这些工作负载将被定向到非去重存储池中,从而节省高达200 %的存储成本。在比较供应商费率时,这是需要考虑的因素。
数据去重的好处
数据去重非常重要,因为它显着减少了存储空间需求,节省了费用,并减少了在将数据传输到远程存储位置时浪费的带宽量。它还提高了存储和从一个来源存储并提取数据的扩展性和效率。在不同的空间中存储大量相似的数据会拖慢整个系统。
以下是其他一些好处:
通过简化报表,特别是在完整备份中,创建备份容量
与仅存储备份数据相比,允许连续数据验证,因为晚上只能在恢复时检测到问题
实现更高的数据恢复能力,因为其准确、快速和可靠
支持优化的备份数据灾难恢复,因为具有出色的容量优化能力
去重以更小的数据占用量
在复制、远程备份和灾难恢复中复制数据时使用的带宽最小
具有更长的保留期
通过较快的恢复时间目标,实现减少带宽备份的目标
数据去重和压缩的区别
数据去重找到重复的数据块,并在复制它们时定位,而压缩则减少表示数据所需的存储容量。但是,两者都是数据减少策略的一部分,可以最大限度地提高存储容量。
数据去重的使用案例
以下适用于去重的领域:
通用文件服务器
这些文件服务器具有多种用途,可能包含以下共享:
用户的个人文件夹
工作文件夹
群组共享
软件开发中的共享
多个具有用户相同文件的数据副本和修订版本,使得多个通用文件适合服务器数据去重。此外,它还适用于软件开发共享,因为许多二进制文件在构建和构建之间基本上没有变化。
虚拟桌面基础设施(VDI)部署
VDI 服务器(如远程桌面服务)允许企业地为员工提供个人电脑。以下是使用此技术的一些原因:
在企业中实施应用程序分发,有助于处理定期更新、很少使用和难以管理的应用程序。
通过从中央控制的虚拟机中安装和运行软件,消除了需要在客户端计算机上进行软件更新的。
允许从个人设备访问企业程序,其中一些设备具有不同的操作系统。
实现远程访问,提高需要访问集中式数据存储库的分公司员工的应用程序性能。
VDI部署是很好的数据去重候选者,因为驱动远程桌面的虚拟硬盘几乎是相同的。
备份目标
虚拟化后备应用程序是备份目标,因为备份快照之间的数据去重因此非常有效。,备份程序非常适合进行重去。
备份和灾难恢复中的数据去重技术
数据去重技术在备份基础设施中实现了显着的节省。然而,逻辑上讲、备份镜像最终将导致重复数据。
例如,很容易出现这样的情况,其中多个方面相同的数据集或文档上进行工作。这可能导致多个系统上部分或完全重复的数据,这是低效和昂贵的。此外,需要很多年数据保留的情况可能会导致大量的数据存储。
磁带存储最初是数据保留的最佳经济解决方案。然而,存储所有数据的成本成为一个重要问题。虽然磁带的成本低于一组,但它不是一个理想的解决方案,因为介质占用太多物理空间。
磁带存储会导致专用管理硬件的大型数据中心占用。将磁带运输到需要的地方以及其他物流挑战时发生的长期数据存储和其他后勤挑战。在紧急恢复情况下,这会导致相当长的时间,并显着影响操作能力和总拥有成本。
LIKE.TG 考虑到了所有这些问题,以开发完整的数据保护解决方案,即强大的集成数据去重存储引擎。我们将 MSDP 和 NetBackup 集成创建在一起,得到了一个单一应用程序的完整解决方案。因此,我们的去重数据格式现在具有高度的可移植性,可以实现跨多个位置和不同目标的数据复制。
最后,NetBackup客户端支持客户端去重,而MSDP不限制确定流量的数量,并且不拒绝连接,与其他数据去重解决方案不同。
在虚拟化环境中的数据去重技术
虚拟化解决方案带来了一套新的机会和复杂性。例如,许多虚拟实体通常共享一个公共的核心基础架构,从而导致虚拟机扩展,其中数千个主机共享数据集或模板,同时具有唯一的元素。在保护这些元素的同时保持客户系统的独立性可能导致存储大量的历史数据。
数据去重有助于保护所有这些数据。NetBackup MSDP 保护虚拟机(VM)数据,并提供即时的运营和灾难恢复能力。此外,客户可以利用 NetBackup Appliances 和 NetBackup Universal Share 与 MSDP 一起使用,方便从 VM中获取个别文件的即时访问,或者从VM的副本中获取用于复制、测试或其他用途的文件。
NetBackup还允许备份管理员修复包含在客户端交换和分页文件中的数据,从而减少备份和压缩的数据量。
因此,在虚拟化环境中的数据去重有助于恢复空间,刷新写入比删除不再需要的数据段更容易。MSDP拥有一个名为rebase的受专利流程,可简化云环境中的受专利流程数据清理和去重。
MSDP存储服务器
MSDP存储服务器是一个数据存储存储并从存储中读取的实体。一个主机是存储服务器,并且每个NetBackup去重节点只能有一个现有的存储服务器。此外,尽管服务器存储组件在媒体服务器中上运行,但它是一个单独的逻辑实体。以下是MSDP存储服务器的功能:
接收来自客户端的备份文件数据进行去重
接收来自客户端和其他媒体服务器的去重数据
允许NetBackup客户端和其他媒体服务器的配置设置对数据进行去重,因此存储服务器只能在去重之后接收数据
管理存储中的数据去重
从磁盘存储中读取并读取重数据
管理数据去重过程
您配置的存储服务器和节点的数量取决于存储需求以及是否使用优化复制或复制。
使用 NetBackup Appliance 的数据去重技术
NetBackup 和虚拟设备使企业能够以安全、灵活、可扩展和易于管理的方式部署 MSDP 服务。一个 NetBackup Appliance 支持高达 960 TB 的重数据,而一个 Virtual Appliance 支持 250 TB。此外,每个 NetBackup 媒体服务器设备都托管了去重和非去重的数据。
NetBackup Appliance 不同于多个具有不同操作系统的虚拟机(VM)的多个 VM,它运行一个单一且安全的操作系统(OS)。然而,近期的安全性较低,因为它增加了潜在的可能性攻击面。
NetBackup Appliance 通过基于角色的访问控制和系统数据中心安全(SDCS)提供安全保护和访问检测能力。它们还包括 FIPS 140-2 验证,需要额外费用。
此外,NetBackup Appliance 提供了企业需要以大规模恢复的速度进行恢复的快速恢复速度。该技术支持大量恢复,消耗限制或额外要求,例如 SSD。
LIKE.TG 还拥有一支由工程师和性能专家组成的团队,他们测试和验证 NetBackup Appliance 版本的性能。
总结
随着企业业务的扩展,管理大数据量对于确保成本节约和效率至关重要。数据去重允许他们以最佳的方式处理大数据。
LIKE.TG NetBackup Appliance 是数据保护和去重的行业领先技术解决方案。它们在高性能、安全和可扩展的环境中提供数据加密和压缩功能。
带MSDP技术的NetBackup Appliance通过最小化备份占用空间和优化数据传输速率实现了显着的节省。此外,NetBackup虚拟设备可以将MSDP服务分区云和其他虚拟环境中。
现在关注【LIKE.TG出海指南频道】、【LIKE.TG生态链-全球资源互联社区】,即可免费领取【WhatsApp、LINE、Telegram、Twitter、ZALO云控】等获客工具试用、【住宅IP、号段筛选】等免费资源,机会难得,快来解锁更多资源,助力您的业务飞速成长!点击【联系客服】
本文由LIKE.TG编辑部转载自互联网并编辑,如有侵权影响,请联系官方客服,将为您妥善处理。
This article is republished from public internet and edited by the LIKE.TG editorial department. If there is any infringement, please contact our official customer service for proper handling.