精品项目

Our Projects
您的位置: 首页 > 精品项目 > 亚克力字节级日志分析与 Amazon S3、Amazon OpenSearch 服务以及 Amazo

亚克力字节级日志分析与 Amazon S3、Amazon OpenSearch 服务以及 Amazo

发布时间:2026-01-27 浏览量:27

大规模日志分析:Amazon S3、Amazon OpenSearch 服务 和 Amazon OpenSearch Ingestion的结合

关键要点

在当今数据驱动的时代,组织必须有效处理和分析快速增长的数据,以揭示关键见解。本文讨论了通过在AWS上构建现代数据架构,如何实现PB级别的日志分析,以及如何使用Amazon OpenSearch服务和Amazon S3实现高效的数据管理。以下是重要内容:

数据存储和分析:利用分层存储架构和数据生命周期管理来平衡成本与性能。实时数据处理:通过Amazon OpenSearch Ingestion对日志实施按需摄取,提升数据处理效率。无ETL查询:实现对Amazon S3中的数据直接查询,降低操作复杂性。

组织通常面临快速增长的数据量的管理难题,同时要优化运营成本,以便从这些数据中获得及时的洞察。如何在增强分析能力的同时,保持一致的性能与合规性,是企业的线上和线下业务所共同面对的挑战。

亚克力字节级日志分析与 Amazon S3、Amazon OpenSearch 服务以及 Amazo

随着数据量的急剧增加,如何实现高效的数据流动和处理,是现代数据架构中关键的一环。在AWS上,通过构建一个灵活的数据湖解决方案,企业可以方便地聚合各类数据,进行快速分析与机器学习ML。例如,Web 应用程序的日志可以直接流入数据湖,并可快捷地移至像Amazon OpenSearch服务这样的分析存储中进行每日分析。

以一家名为“示例公司”的财富500强企业为例,他们每天生成约500TB的数据,并采取以下策略来管理这些数据:

2天内提供快速分析的日志超过2天的数据保存在可用于分析的存储层中超过1周的数据保存在冷存储中30天,以满足合规和审计要求

接下来的部分将讨论三种解决方案来满足类似的需求:

Amazon OpenSearch服务中的分层存储与数据生命周期管理使用 Amazon OpenSearch Ingestion 进行日志的按需摄取Amazon OpenSearch服务与Amazon S3的直接查询

解决方案 1:OpenSearch 服务中的分层存储与数据生命周期管理

OpenSearch服务支持三种集成存储层:热存储、UltraWarm存储和冷存储。根据数据保留、查询延迟和预算需求,选择最佳策略以平衡成本与性能。

热存储:用于索引和更新,提供最快的数据访问。UltraWarm:主要用于只读数据,适合查询频率较低的场景,成本显著低于热存储。冷存储:优化用于不常访问或历史数据,可以在需要查询时在几秒钟内重新附加索引。

解决方案概述

该解决方案的工作流程如下:

应用生成的入站数据流入Amazon S3数据湖。通通过设置在S3桶上的通知,利用 S3SQS近实时摄取 将数据摄取到Amazon OpenSearch。经过2天,热数据迁移至UltraWarm存储,以支持读取查询。在UltraWarm存储5天后,数据迁移至冷存储21天,并与任何计算脱钩。数据在21天后将被删除。维持每日索引以便于轮换和管理。

以下是一个ISM策略示例,在2天后将数据迁移至UltraWarm层,5天后迁移至冷存储,并在21天后删除:

json{ policy { description 热温删除工作流 defaultstate hot schemaversion 1 states [ { name hot actions [ { rollover { minindexage 2d minprimaryshardsize 30gb } } ] transitions [ { statename warm } ] } { name warm actions [ { replicacount { numberofreplicas 5 } } ] transitions [ { statename cold conditions { minindexage 5d } } ] } { name cold actions [ { retry { count 5 backoff exponential delay 1h } coldmigration { starttime null endtime null timestampfield @timestamp ignore none } } ] transitions [ { statename delete conditions { minindexage 21d } } ] } { name delete actions [ { retry { count 3 backoff exponential delay 1m } colddelete {} } ] transitions [] } ] ismtemplate { indexpatterns [ log ] priority 100 } }}

注意事项

使用UltraWarm存储时,为了能够查询不常访问的数据,需要确保计算节点始终处于运行状态。

在PB规模的操作中,建议将实现分解为多个OpenSearch服务域,以减少任何错误的影响。

接下来的两个解决方案则是无需长时间计算,而是通过按需技术获取数据或直接查询数据。

解决方案 2:通过OpenSearch Ingestion按需摄取日志数据

OpenSearch Ingestion是一个完全托管的数据收集器,可将实时日志和追踪数据传送到OpenSearch服务域。它由开源数据收集器 Data Prepper 提供支持。在OpenSearch Ingestion中,您可以过滤、丰富、变换并交付数据,以便在后续分析和可视化中使用。

有两种方式可以使用Amazon S3作为数据源进行数据处理。

S3SQS处理:适合需要近实时扫描S3中已写入文件的场景。定期扫描:适合对S3桶中的数据进行批处理。

解决方案概述

该解决方案的主要组成部分如下:

应用日志流入数据湖,从而通过OpenSearch Ingestion的 S3SQS处理 特性将热数据近实时传送到OpenSearch服务。OpenSearch服务内的ISM策略处理索引的轮换或删除。冷数据存放在S3数据湖中,可按需传送至OpenSearch服务。

工作流程包括以下步骤:

应用生成的入站数据流入Amazon S3数据湖。对于当前日期,通过设置在S3桶内的通知使用S3SQS近实时摄取数据至OpenSearch服务。维护每日索引以便于轻松轮换,自动化处理超过2天索引的ISM策略。如果超出2天的数据请求分析时,且当前数据不在UltraWarm层,数据将通过Amazon S3的一次性扫描特性进行摄取。

解决方案 3:OpenSearch服务与Amazon S3直接查询

OpenSearch服务直接查询Amazon S3预览是新推出的一种方式,让用户可以在不切换服务之间的情况下直接查询Amazon S3和数据湖中的操作日志。

这一特性提供了 零ETL集成,降低了复制数据或管理多个分析工具的操作复杂性。

解决方案概述

该解决方案的关键组成部分如下:

啊哈加速器官网当前热数据通过事件驱动架构流入OpenSearch服务域。通过ISM策略管理热数据的生命周期。冷数据存储在Amazon S3桶中,可以有效分区和目录化。

创建数据源时,确保您拥有一个211版本的OpenSearch服务域,并且在AWS Glue数据目录中有适当权限访问的目标S3表。在创建数据源后,您可以进入OpenSearch仪表板进行访问控制设置、定义表、配置模板等。

最佳实践

仅摄取所需数据

从业务需求出发,评估是否能够避免摄取噪声数据,选择摄取经筛选、抽样或汇总的数据。使用经过清理和整理的数据集可以有效优化所需的计算与存储资源。

摄取前减小数据尺寸

在设计数据摄取管道时,使用压缩、过滤和聚合等策略来减少摄取数据的尺寸,这将允许较小的数据大小在网络上传输并存储。

结论

本文讨论了使用OpenSearch服务在现代数据架构中实现PB级日志分析的多种解决方案。您了解了如何创建无服务器的摄取管道,将日志传送至OpenSearch服务域,利用ISM策略管理索引,配置IAM权限开始使用OpenSearch Ingestion,以及为数据湖中的数据创建管道配置。您还学习了如何设置并使用与Amazon S3的OpenSearch服务直接查询功能,以查询数据湖中的数据。

选择适合您的负载的架构模式时,请考虑性能、延迟、成本和数据量的增长,以做出明智的决策。

当需要快速访问热数据并希望在UltraWarm节点上平衡成本与性能时,请使用分层存储架构和ISM策略。当可以容忍摄取延迟时,请利用按需摄取将数据传送至OpenSearch服务。使用Amazon S3的压缩数据可以显著节省成本。当希望直接分析Amazon S3中的操作日志时,请使用与S3的直接查询特性。

接下来的步骤,请参考 Amazon OpenSearch开发者指南 探索可用于构建企业应用可观察性解决方案的日志和指标管道。

关于作者

Jagadish Kumar 是AWS的高级专业解决方案架构师,专注于Amazon OpenSearch服务,对数据架构充满热情,协助客户在AWS上构建大规模分析解决方案。

Muthu Pitchaimani 是亚马逊OpenSearch服务的高级专业解决方案架构师,构建大型搜索应用与解决方案,专注于网络与安全方面。

Sam Selvan 是亚马逊OpenSearch服务的首席专业解决方案架构师。

QQ

在线咨询真诚为您提供专业解答服务

热线

13594780373
7*24小时服务热线

微信

二维码 扫一扫微信交流