第二步 - 配置数据流水线
在创建项目之后,您需要为其配置数据流水线。数据流水线是一组连接的模块,用于收集和处理从应用程序发送的点击流数据。数据流水线包含四个模块:摄取、处理、建模和报告。有关更多信息,请参阅流水线管理。
这里我们提供一个示例,介绍如何使用端到端无服务器基础架构创建数据流水线。
步骤
- 登录 Clickstream Analytics on AWS Console。
- 在左侧导航窗格中,选择 Projects,然后选择您在 第一步 中创建的项目,选择右上角的 View Details 导航到项目主页。
- 选择 Configure pipeline,它将带您进入创建项目数据流水线的向导。
-
在 Basic information 页面上,按以下方式填写表单:
- AWS Region:
us-east-1
- VPC: 选择一个符合以下要求的 VPC
- 至少两个不同 AZ(可用区)的公共子网
- 至少两个不同 AZ 的私有子网
- 一个 NAT 网关或实例
- Data collection SDK:
Clickstream SDK
- Data location: 选择一个 S3 存储桶(您可以创建一个存储桶,在单击刷新按钮后选择它。)
提示
请参考Amazon S3 的最佳实践 创建和配置Amazon S3存储桶。譬如启用 Amazon S3 服务器访问日志记录,启用 S3 版本控制 等等。
- AWS Region:
-
选择 Next。
-
在 Configure ingestion 页面上,按以下信息填写表单:
- 填写 Ingestion endpoint settings 表单。
- Public Subnets: 在两个不同 AZ 的公共子网中选择两个
- Private Subnets: 在与公共子网相同的 AZ 中选择两个私有子网
- Ingestion capacity: 保持默认值
- Enable HTTPS: 取消勾选,然后 确认 安全警告
- 跨源资源共享 (CORS): 留空
- Additional settings: 保持默认值
- 填写 Data sink settings 表单。
- Sink type:
Amazon Kinesis Data Stream(KDS)
- Provision mode:
On-demand
- 在 Additional Settings 中,将 Sink Maximum Interval 更改为
60
,将 Batch Size 更改为1000
- Sink type:
- 点击 Next 进入第 3 步。
重要提示
在生产工作负载中,不推荐使用 HTTP 配置。此示例配置旨在帮助您更快地开始使用。
- 填写 Ingestion endpoint settings 表单。
-
在配置数据处理信息中,按照以下信息填写:
- 在启用数据处理的表单中,切换打开启用数据处理。
- 在执行参数的表单中,
- 数据处理间隔:
- 选择
固定速率
- 输入
10
- 选择
分钟
- 选择
- 事件新鲜度:
35
天
- 数据处理间隔:
- 在丰富插件的表单中,确保选择了IP查找和UA解析器两个插件。
- 在分析引擎的表单中,按照以下方式填写表单:
- 勾选Redshift的框。
- 选择Redshift Serverless。
- 保持基本RPU为8。
- VPC:选择默认的VPC,或者选择在上一步中之前选择的VPC。
- 安全组:选择
default
安全组。 - 子网:选择三个不同可用区的子网。
- 保持Athena的默认选择。
- 选择下一步。
Important
在此示例中,我们将数据处理间隔设置为 10 分钟,这样您就可以在几分钟内查看数据,但您可以稍后更改间隔以降低频率,以节省成本。要更改数据管道,请参阅 更新管道。
-
在报告页面,按照以下方式填写表单:
- 如果您的AWS账号尚未订阅QuickSight,请按照此指南进行订阅。
- 确保
- 选择下一步。
-
在审核和启动页面,查看您的管道配置详情。如果一切配置正确,请选择创建。
我们已完成配置项目的所有步骤。该管道将需要大约20分钟来创建,请等待管道详细页面中的管道状态变为活动。