第二步 - 配置数据流水线

在创建项目之后，您需要为其配置数据流水线。数据流水线是一组连接的模块，用于收集和处理从应用程序发送的点击流数据。数据流水线包含四个模块：摄取、处理、建模和报告。有关更多信息，请参阅流水线管理。

这里我们提供一个示例，介绍如何使用端到端无服务器基础架构创建数据流水线。

步骤

登录 Clickstream Analytics on AWS Console。
在左侧导航窗格中，选择 Projects，然后选择您在 第一步 中创建的项目，选择右上角的 View Details 导航到项目主页。
选择 Configure pipeline，它将带您进入创建项目数据流水线的向导。
在 Basic information 页面上，按以下方式填写表单：
- AWS Region: us-east-1
- VPC: 选择一个符合以下要求的 VPC
  - 至少两个不同 AZ（可用区）的公共子网
  - 至少两个不同 AZ 的私有子网
  - 一个 NAT 网关或实例
- Data collection SDK: Clickstream SDK
- Data location: 选择一个 S3 存储桶（您可以创建一个存储桶，在单击刷新按钮后选择它。）
提示

请参考Amazon S3 的最佳实践创建和配置Amazon S3存储桶。譬如启用 Amazon S3 服务器访问日志记录，启用 S3 版本控制 等等。

提示

如果没有符合要求的 VPC，您可以使用 VPC 向导快速创建一个 VPC。有关更多信息，请参阅创建 VPC。我们同时建议您参考VPC最佳实践配置您的VPC。
选择 Next。
在 Configure ingestion 页面上，按以下信息填写表单：
1. 填写 Ingestion endpoint settings 表单。
  - Public Subnets: 在两个不同 AZ 的公共子网中选择两个
  - Private Subnets: 在与公共子网相同的 AZ 中选择两个私有子网
  - Ingestion capacity: 保持默认值
  - Enable HTTPS: 取消勾选，然后确认安全警告
  - 跨源资源共享 (CORS): 留空
  - Additional settings: 保持默认值
2. 填写 Data sink settings 表单。
  - Sink type: Amazon Kinesis Data Stream(KDS)
  - Provision mode: On-demand
  - 在 Additional Settings 中，将 Sink Maximum Interval 更改为 60，将 Batch Size 更改为 1000
3. 点击 Next 进入第 3 步。
重要提示

在生产工作负载中，不推荐使用 HTTP 配置。此示例配置旨在帮助您更快地开始使用。
在配置数据处理信息中，按照以下信息填写：
- 在启用数据处理的表单中，切换打开启用数据处理。
- 在执行参数的表单中，
  - 数据处理间隔：
    - 选择固定速率
    - 输入10
    - 选择分钟
  - 事件新鲜度：35 天
- 在丰富插件的表单中，确保选择了IP查找和UA解析器两个插件。
- 在分析引擎的表单中，按照以下方式填写表单：
  - 勾选Redshift的框。
  - 选择Redshift Serverless。
  - 保持基本RPU为8。
  - VPC：选择默认的VPC，或者选择在上一步中之前选择的VPC。
  - 安全组：选择default安全组。
  - 子网：选择三个不同可用区的子网。
  - 保持Athena的默认选择。
- 选择下一步。
Important

在此示例中，我们将数据处理间隔设置为 10 分钟，这样您就可以在几分钟内查看数据，但您可以稍后更改间隔以降低频率，以节省成本。要更改数据管道，请参阅更新管道。
在报告页面，按照以下方式填写表单：
- 如果您的AWS账号尚未订阅QuickSight，请按照此指南进行订阅。
- 确保
- 选择下一步。
在审核和启动页面，查看您的管道配置详情。如果一切配置正确，请选择创建。

我们已完成配置项目的所有步骤。该管道将需要大约20分钟来创建，请等待管道详细页面中的管道状态变为活动。

下一步

集成SDK