【AWS】什么是AWS DataSync
【AWS】什么是AWS DataSync
AWS DataSync 是一项在线数据传输和探索服务,旨在简化、自动化和加速文件或对象数据在本地存储、边缘节点、其他云提供商和 AWS 存储服务之间的传输。
您可以将 AWS DataSync 想象成一个**“高速数据搬运工”**。它能够高效、安全地将大量数据从您的本地数据中心、其他云存储或边缘位置移动到 AWS 云中,或在不同的 AWS 存储服务之间进行传输,同时处理数据移动过程中的复杂性,如网络优化、数据完整性验证和加密。

AWS DataSync 的核心功能和优势
DataSync 旨在解决大规模数据传输的挑战,提供快速、安全、可靠且易于管理的数据移动解决方案。
- 加速数据传输:专门构建的网络协议: DataSync 使用 AWS 设计的传输协议,该协议针对通过网络发送数据的方式、时间点和种类进行了优化,能够显著加快数据移动的速度(最高可比开源工具快达 10 倍)。网络优化功能: 包括增量传输(仅传输更改的数据)、内联压缩、稀疏文件检测、内联数据验证和加密。多线程连接: 本地 DataSync 代理与云服务组件之间的连接是多线程操作,可最大化广域网 (WAN) 的传输性能。单个 DataSync 任务能够完全利用 10 Gbps 的网络链接。
- 广泛的存储系统支持:本地存储: 支持网络文件系统 (NFS) 共享、服务器消息块 (SMB) 共享、Hadoop 分布式文件系统 (HDFS) 和自管理对象存储。AWS 存储: 支持 Amazon S3、Amazon EFS、Amazon FSx 系列(包括 FSx for Windows File Server、FSx for Lustre、FSx for OpenZFS、FSx for NetApp ONTAP)。其他云存储: 支持与其他云提供商(如 Google Cloud Storage、Microsoft Azure Blob Storage、Microsoft Azure Files 等)的存储服务进行传输。
- 简化数据迁移和管理:完全托管服务: AWS 负责所有底层基础设施和数据传输过程的管理。您无需编写和维护自定义脚本或使用昂贵的商业传输工具。任务管理: 提供带宽限制、迁移计划、任务筛选和任务报告等功能,帮助您轻松管理数据移动工作负载。自动化和计划: 可以创建和计划任务,自动检测对数据集的更改并将其复制到目标存储,无需手动干预。
- 端到端安全性:传输中加密: 所有数据在 DataSync 代理与 DataSync 服务之间传输时,都会使用传输层安全 (TLS) 进行加密。静态加密: 支持对 Amazon S3 存储桶使用默认静态加密,以及对 Amazon EFS 和 Amazon FSx 的静态数据和传输中数据进行加密。数据完整性验证: DataSync 会对每项传输操作执行完整性检查(包括传输中和静态数据),确保写入目标的数据与从源读取的数据是一致的。
- 成本效益:按使用量付费: 您只需为实际传输的数据量付费,没有最低费用。降低运营成本: 自动化和托管服务减少了管理数据传输所需的人力和时间成本。
AWS DataSync 的工作原理
AWS DataSync 的工作流程通常涉及以下几个关键组件:
- 代理 (Agent):对于从本地存储系统传输数据到 AWS 或从 AWS 传输数据到本地,您需要在本地数据中心部署一个 DataSync 代理(一个虚拟机)。该代理负责在您的本地存储系统与 DataSync 服务之间建立安全、高效的通信。对于 AWS 存储服务之间的传输(例如 S3 到 S3 跨区域复制),通常不需要部署代理(无代理传输)。
- 位置 (Locations):您需要定义数据传输的源位置和目标位置。位置可以是 NFS 共享、SMB 共享、S3 存储桶、EFS 文件系统、FSx 文件服务器等。
- 任务 (Task):任务描述了 DataSync 传输的具体操作。它标识了源位置和目标位置,以及有关如何在这些位置之间复制数据的详细信息。您可以配置任务选项,例如:任务模式: 基本模式(顺序准备、传输、验证)或增强模式(并行执行这些操作)。筛选器: 指定要包含或排除的文件或对象。带宽限制: 控制 DataSync 使用的网络带宽。数据完整性验证: 配置 DataSync 如何验证数据完整性。保留元数据: 指定是否保留文件元数据、权限等。
- 任务执行 (Task Execution):当您启动任务时,DataSync 会执行一个任务执行实例。在任务执行期间,DataSync 会准备、传输和验证您的数据。DataSync 会通过检查源和目标位置来确定要传输的内容,通过扫描两个位置的内容和元数据来识别差异,从而实现增量传输。
- 监控和审计:DataSync 生成 Amazon CloudWatch 指标,提供传输过程的详细可见性。您可以使用任务报告来审核数据传输过程,验证所有任务执行中的传输操作。
AWS DataSync 的典型用例
- 大规模数据迁移: 将大量文件和对象数据从本地数据中心快速、安全地迁移到 AWS 云。
- 云数据归档: 将不经常访问的冷数据从本地存储或高性能 AWS 存储服务(如 S3 Standard)归档到成本更低的归档存储类别(如 Amazon S3 Glacier)。
- 数据保护和灾难恢复: 将数据安全地复制到成本高效的 AWS 存储服务以进行数据复制或归档,作为灾难恢复策略的一部分。
- 混合云数据工作流: 在本地系统和 AWS 之间无缝移动数据,以加速关键混合工作流,例如将本地数据传输到 AWS 进行分析或机器学习处理。
- 定期数据同步: 安排定期任务,自动同步本地数据与云端数据,确保数据一致性。
- 跨云数据传输: 将数据从其他云提供商的存储服务传输到 AWS。
总结来说,AWS DataSync 是一项功能强大、完全托管的在线数据传输服务,它通过提供高速、安全、可靠且易于管理的数据移动解决方案,极大地简化了企业在本地、边缘、其他云和 AWS 存储服务之间传输大量数据的复杂性,从而加速了数据迁移、数据保护和混合云工作流。
关注
收藏
赞
踩