跳转至

第二步 - 配置数据流水线

在创建项目之后,您需要为其配置数据流水线。数据流水线是一组连接的模块,用于收集和处理从应用程序发送的点击流数据。数据流水线包含四个模块:摄取、处理、建模和报告。有关更多信息,请参阅流水线管理

这里我们提供一个示例,介绍如何使用端到端无服务器基础架构创建数据流水线。

步骤

  1. 登录 Clickstream Analytics on AWS Console
  2. 在左侧导航窗格中,选择 Projects,然后选择您在 第一步 中创建的项目,选择右上角的 View Details 导航到项目主页。
  3. 选择 Configure pipeline,它将带您进入创建项目数据流水线的向导。
  4. Basic information 页面上,按以下方式填写表单:

    • AWS Region: us-east-1
    • VPC: 选择一个符合以下要求的 VPC
      • 至少两个不同 AZ(可用区)的公共子网
      • 至少两个不同 AZ 的私有子网
      • 一个 NAT 网关或实例
    • Data collection SDK: Clickstream SDK
    • Data location: 选择一个 S3 存储桶(您可以创建一个存储桶,在单击刷新按钮后选择它。)

    提示

    请参考Amazon S3 的最佳实践 创建和配置Amazon S3存储桶。譬如启用 Amazon S3 服务器访问日志记录启用 S3 版本控制 等等。

    提示

    如果没有符合要求的 VPC,您可以使用 VPC 向导快速创建一个 VPC。有关更多信息,请参阅创建 VPC。我们同时建议您参考VPC最佳实践 配置您的VPC。

  5. 选择 Next

  6. Configure ingestion 页面上,按以下信息填写表单:

    1. 填写 Ingestion endpoint settings 表单。
      • Public Subnets: 在两个不同 AZ 的公共子网中选择两个
      • Private Subnets: 在与公共子网相同的 AZ 中选择两个私有子网
      • Ingestion capacity: 保持默认值
      • Enable HTTPS: 取消勾选,然后 确认 安全警告
      • 跨源资源共享 (CORS): 留空
      • Additional settings: 保持默认值
    2. 填写 Data sink settings 表单。
      • Sink type: Amazon Kinesis Data Stream(KDS)
      • Provision mode: On-demand
      • Additional Settings 中,将 Sink Maximum Interval 更改为 60,将 Batch Size 更改为 1000
    3. 点击 Next 进入第 3 步。

    重要提示

    在生产工作负载中,不推荐使用 HTTP 配置。此示例配置旨在帮助您更快地开始使用。

  7. 配置数据处理信息中,按照以下信息填写:

    • 启用数据处理的表单中,切换打开启用数据处理
    • 执行参数的表单中,
      • 数据处理间隔:
        • 选择固定速率
        • 输入10
        • 选择分钟
      • 事件新鲜度:35
    • 丰富插件的表单中,确保选择了IP查找UA解析器两个插件。
    • 分析引擎的表单中,按照以下方式填写表单:
      • 勾选Redshift的框。
      • 选择Redshift Serverless
      • 保持基本RPU8
      • VPC:选择默认的VPC,或者选择在上一步中之前选择的VPC。
      • 安全组:选择default安全组。
      • 子网:选择三个不同可用区的子网。
      • 保持Athena的默认选择。
    • 选择下一步

    Important

    在此示例中,我们将数据处理间隔设置为 10 分钟,这样您就可以在几分钟内查看数据,但您可以稍后更改间隔以降低频率,以节省成本。要更改数据管道,请参阅 更新管道

  8. 报告页面,按照以下方式填写表单:

    • 如果您的AWS账号尚未订阅QuickSight,请按照此指南进行订阅。
    • 确保
    • 选择下一步
  9. 审核和启动页面,查看您的管道配置详情。如果一切配置正确,请选择创建

我们已完成配置项目的所有步骤。该管道将需要大约20分钟来创建,请等待管道详细页面中的管道状态变为活动

下一步