通过 Direct Connect 传输 S3 对象
本教程介绍如何通过 Direct Connect (DX) 运行 Data Transfer Hub (DTH)。
DTH Worker Node 和 Finder Node 启动时,默认需要从 Internet 下载相关文件(如 CloudWatch 代理、DTH CLI)。在隔离场景下,您需要手动将文件下载并上传到 DTH 所在区域的 S3 存储桶中。
使用 DTH 通过 DX 传输数据有两种方式:
在非隔离网络环境下通过Direct Connect使用DTH进行数据传输
在这种情况下,DTH 部署在目标端,并在一个具有公共访问权限(具有 Internet 网关或 NAT)的 VPC 内。数据源桶在隔离的网络环境中。
说明
由于 DTH 部署 VPC 具有公共 Internet 访问权限(IGW 或 NAT),EC2 Worker/Finder器节点可以访问 DTH 使用的其他 AWS 服务,例如Secrets Manager等,并从 Internet 下载相关资源(例如 CloudWatch 代理、DTH CLI),从而无需任何其他手动操作。
- 从创建传输任务页面,选择创建新任务,然后选择下一步。
- 在引擎选项页面的引擎下,选择Amazon S3,然后选择下一步。
-
指定传输任务详细信息。
- 在源类型下,选择Amazon S3 Compatible Storage。
-
输入 endpoint url, 该参数必须填写接口端点url,如
https://bucket.vpce-076205013d3a9a2ca-us23z2ze.s3.ap-east-1.vpce.amazonaws.com
。您可以在VPC 终端节点 控制台 的 DNS 名称部分找到对应的url. -
输入存储桶名称,并选择同步整个存储桶或指定前缀的对象或多个指定前缀的对象。
-
设置目标端S3存储桶信息。
-
在引擎设置中,验证信息,并在必要时修改信息。如果要进行增量数据传输,建议将最小容量设置为至少为1的值。
-
在任务调度设置处,选择您的任务调度配置。
- 如果要以固定频率配置定时任务,以实现定时对比两侧的数据差异,请选择Fixed Rate。
- 如果要通过Cron Expression配置定时任务,以实现定时对比两侧的数据差异,请选择Cron Expression。
- 如果只想执行一次数据同步任务,请选择One Time Transfer。
-
在高级选项中,保留默认值。
-
在是否需要数据比对处,选择您的任务配置。
- 如果要跳过数据对比过程,传输所有文件,请选择No。
- 如果只想同步有差异的文件,请选择Yes。
-
在通知邮箱中提供电子邮件地址。
-
选择下一步并查看您的任务参数详细信息。
-
选择创建任务。
在隔离网络环境下通过Direct Connect使用DTH进行数据传输
在这种情况下,DTH 部署在目标侧,并且在一个没有公共访问权限VPC内(隔离 VPC)。同时数据源桶也在一个隔离的网络环境中。详情请参考[教程][https://github.com/awslabs/data-transfer-hub/blob/main/docs/tutorial-directconnect-isolated.md]。
在 EC2 上运行的 DTH Worker节点将数据从一个 AWS 账户中的存储桶传输到另一个 AWS 账户中的存储桶。
- 要访问当前账户中的存储桶(DTH 所部署侧),DTH Worker节点使用S3 Gateway Endpoint
- 要访问另一个账户中的存储桶,DTH Worker节点使用 S3 Private Link by S3 Interface Endpoint