亚克力字节级日志分析与 Amazon S3、Amazon OpenSearch 服务以及 Amazo

发布时间：2026-01-27 浏览量：100

大规模日志分析：Amazon S3、Amazon OpenSearch 服务和 Amazon OpenSearch Ingestion的结合

关键要点

在当今数据驱动的时代，组织必须有效处理和分析快速增长的数据，以揭示关键见解。本文讨论了通过在AWS上构建现代数据架构，如何实现PB级别的日志分析，以及如何使用Amazon OpenSearch服务和Amazon S3实现高效的数据管理。以下是重要内容：

数据存储和分析：利用分层存储架构和数据生命周期管理来平衡成本与性能。实时数据处理：通过Amazon OpenSearch Ingestion对日志实施按需摄取，提升数据处理效率。无ETL查询：实现对Amazon S3中的数据直接查询，降低操作复杂性。

组织通常面临快速增长的数据量的管理难题，同时要优化运营成本，以便从这些数据中获得及时的洞察。如何在增强分析能力的同时，保持一致的性能与合规性，是企业的线上和线下业务所共同面对的挑战。

亚克力字节级日志分析与 Amazon S3、Amazon OpenSearch 服务以及 Amazo

随着数据量的急剧增加，如何实现高效的数据流动和处理，是现代数据架构中关键的一环。在AWS上，通过构建一个灵活的数据湖解决方案，企业可以方便地聚合各类数据，进行快速分析与机器学习ML。例如，Web 应用程序的日志可以直接流入数据湖，并可快捷地移至像Amazon OpenSearch服务这样的分析存储中进行每日分析。

以一家名为“示例公司”的财富500强企业为例，他们每天生成约500TB的数据，并采取以下策略来管理这些数据：

2天内提供快速分析的日志超过2天的数据保存在可用于分析的存储层中超过1周的数据保存在冷存储中30天，以满足合规和审计要求

接下来的部分将讨论三种解决方案来满足类似的需求：

Amazon OpenSearch服务中的分层存储与数据生命周期管理使用 Amazon OpenSearch Ingestion 进行日志的按需摄取Amazon OpenSearch服务与Amazon S3的直接查询

解决方案 1：OpenSearch 服务中的分层存储与数据生命周期管理

OpenSearch服务支持三种集成存储层：热存储、UltraWarm存储和冷存储。根据数据保留、查询延迟和预算需求，选择最佳策略以平衡成本与性能。

热存储：用于索引和更新，提供最快的数据访问。UltraWarm：主要用于只读数据，适合查询频率较低的场景，成本显著低于热存储。冷存储：优化用于不常访问或历史数据，可以在需要查询时在几秒钟内重新附加索引。

解决方案概述

该解决方案的工作流程如下：

应用生成的入站数据流入Amazon S3数据湖。通通过设置在S3桶上的通知，利用 S3SQS近实时摄取将数据摄取到Amazon OpenSearch。经过2天，热数据迁移至UltraWarm存储，以支持读取查询。在UltraWarm存储5天后，数据迁移至冷存储21天，并与任何计算脱钩。数据在21天后将被删除。维持每日索引以便于轮换和管理。

以下是一个ISM策略示例，在2天后将数据迁移至UltraWarm层，5天后迁移至冷存储，并在21天后删除：

json{ policy { description 热温删除工作流 defaultstate hot schemaversion 1 states [ { name hot actions [ { rollover { minindexage 2d minprimaryshardsize 30gb } } ] transitions [ { statename warm } ] } { name warm actions [ { replicacount { numberofreplicas 5 } } ] transitions [ { statename cold conditions { minindexage 5d } } ] } { name cold actions [ { retry { count 5 backoff exponential delay 1h } coldmigration { starttime null endtime null timestampfield @timestamp ignore none } } ] transitions [ { statename delete conditions { minindexage 21d } } ] } { name delete actions [ { retry { count 3 backoff exponential delay 1m } colddelete {} } ] transitions [] } ] ismtemplate { indexpatterns [ log ] priority 100 } }}

注意事项

使用UltraWarm存储时，为了能够查询不常访问的数据，需要确保计算节点始终处于运行状态。

在PB规模的操作中，建议将实现分解为多个OpenSearch服务域，以减少任何错误的影响。

接下来的两个解决方案则是无需长时间计算，而是通过按需技术获取数据或直接查询数据。

解决方案 2：通过OpenSearch Ingestion按需摄取日志数据

OpenSearch Ingestion是一个完全托管的数据收集器，可将实时日志和追踪数据传送到OpenSearch服务域。它由开源数据收集器 Data Prepper 提供支持。在OpenSearch Ingestion中，您可以过滤、丰富、变换并交付数据，以便在后续分析和可视化中使用。

有两种方式可以使用Amazon S3作为数据源进行数据处理。

S3SQS处理：适合需要近实时扫描S3中已写入文件的场景。定期扫描：适合对S3桶中的数据进行批处理。

解决方案概述

该解决方案的主要组成部分如下：

应用日志流入数据湖，从而通过OpenSearch Ingestion的 S3SQS处理特性将热数据近实时传送到OpenSearch服务。OpenSearch服务内的ISM策略处理索引的轮换或删除。冷数据存放在S3数据湖中，可按需传送至OpenSearch服务。

工作流程包括以下步骤：

应用生成的入站数据流入Amazon S3数据湖。对于当前日期，通过设置在S3桶内的通知使用S3SQS近实时摄取数据至OpenSearch服务。维护每日索引以便于轻松轮换，自动化处理超过2天索引的ISM策略。如果超出2天的数据请求分析时，且当前数据不在UltraWarm层，数据将通过Amazon S3的一次性扫描特性进行摄取。

解决方案 3：OpenSearch服务与Amazon S3直接查询

OpenSearch服务直接查询Amazon S3预览是新推出的一种方式，让用户可以在不切换服务之间的情况下直接查询Amazon S3和数据湖中的操作日志。

这一特性提供了零ETL集成，降低了复制数据或管理多个分析工具的操作复杂性。

解决方案概述

该解决方案的关键组成部分如下：

啊哈加速器官网当前热数据通过事件驱动架构流入OpenSearch服务域。通过ISM策略管理热数据的生命周期。冷数据存储在Amazon S3桶中，可以有效分区和目录化。

创建数据源时，确保您拥有一个211版本的OpenSearch服务域，并且在AWS Glue数据目录中有适当权限访问的目标S3表。在创建数据源后，您可以进入OpenSearch仪表板进行访问控制设置、定义表、配置模板等。

最佳实践

仅摄取所需数据

从业务需求出发，评估是否能够避免摄取噪声数据，选择摄取经筛选、抽样或汇总的数据。使用经过清理和整理的数据集可以有效优化所需的计算与存储资源。

摄取前减小数据尺寸

在设计数据摄取管道时，使用压缩、过滤和聚合等策略来减少摄取数据的尺寸，这将允许较小的数据大小在网络上传输并存储。

结论

本文讨论了使用OpenSearch服务在现代数据架构中实现PB级日志分析的多种解决方案。您了解了如何创建无服务器的摄取管道，将日志传送至OpenSearch服务域，利用ISM策略管理索引，配置IAM权限开始使用OpenSearch Ingestion，以及为数据湖中的数据创建管道配置。您还学习了如何设置并使用与Amazon S3的OpenSearch服务直接查询功能，以查询数据湖中的数据。

选择适合您的负载的架构模式时，请考虑性能、延迟、成本和数据量的增长，以做出明智的决策。

当需要快速访问热数据并希望在UltraWarm节点上平衡成本与性能时，请使用分层存储架构和ISM策略。当可以容忍摄取延迟时，请利用按需摄取将数据传送至OpenSearch服务。使用Amazon S3的压缩数据可以显著节省成本。当希望直接分析Amazon S3中的操作日志时，请使用与S3的直接查询特性。

接下来的步骤，请参考 Amazon OpenSearch开发者指南探索可用于构建企业应用可观察性解决方案的日志和指标管道。