数据建模设置

数据管道处理完事件数据后，您可以将数据加载到分析引擎进行数据建模，比如Redshift或Athena，其中数据将被汇总并组织成不同的视图（如事件、设备、会话），以及常用的计算指标。

您可以选择使用Redshift或Athena，或两者都用。

提示

我们建议你选择两者都用，也就是说，使用Redshift进行热数据建模，并使用Athena进行全时间数据分析。

您可以为 Redshift 设置以下配置。

Redshift 模式：选择 Redshift 无服务器或预设模式。
- 无服务器模式
  - 基础 RPU：RPU 代表 Redshift 处理单元。Amazon Redshift Serverless 以 RPU 计算数据仓库容量，这些是处理工作负载所使用的资源。基础容量指定 Amazon Redshift 用于服务查询的基础数据仓库容量，并以 RPU 表示。提高基础容量可以改善查询性能，尤其是对于消耗大量资源的数据处理工作。
  - VPC：基于 Amazon VPC 服务的虚拟私有云（VPC）是您在 AWS 云中的私有、逻辑隔离的网络。
    
    注意
    
    如部署在逻辑隔离的网络中，VPC 必须为 S3，Logs，Dynamodb，STS，States, Redshift 以及 Redshift-data 服务拥有 VPC 终端。
  - 安全组：此 VPC 安全组定义了可以在 VPC 中使用的哪些子网和 IP 范围可访问 Redshift 服务端点。
  - 子网：选择至少三个现有的 VPC 子网。
    
    注意
    
    我们建议出于最佳安全实践使用私有子网进行部署。
    
    注意
    
    请确保您的子网有足够的可用 IP 地址来创建 Redshift Serverless，请查阅每个子网所需的可用 IP 地址数量。
- 预设模式
  - Redshift 集群: 使用预设模式的 Amazon Redshift 集群，您可以使用符合成本和性能规格的节点类型构建集群。您必须设置、调整和管理 Amazon Redshift 预设模式的集群。
  - 数据库用户: 该解决方案需要权限才能在 Redshift 集群中访问和创建数据库。默认情况下，它授予 Redshift Data API 管理员用户执行命令以创建数据库、表和视图以及加载数据的权限。
- 数据范围：考虑到让 Redshift 保存所有数据的成本效益问题，我们建议 Redshift 仅保存热数据，而所有数据都存储在 S3 中。需要定期在 Redshift 中删除过期数据。
Athena：选择 Athena 使用在 Glue 数据目录中创建的表查询 S3 上的所有数据。