如何使用 Amazon Macie 进行自动化发现的概念验证安全博客

发布时间：2026-01-27 浏览量：97

使用 Amazon Macie 进行自动发现的概念验证指南

主要要点

在本篇文章中，我们将介绍如何利用 Amazon Macie 进行数据自动发现的概念验证POC。通过本指南，您将学习到：

Amazon Macie 的核心功能及其在数据安全中的重要性如何设置和执行 POC 流程以识别和保护敏感数据使用 Macie 进行敏感数据发现的最佳实践

Amazon Web ServicesAWS的各类客户正在努力更好地分类和保护他们存储在 Amazon Simple Storage Service (Amazon S3) 中的数据。Amazon Macie 帮助客户识别、发现、监控和保护存储在 Amazon S3 中的敏感数据。然而，客户需要评估和测试 Macie 的能力，以验证它是否能够满足他们特定的数据识别和保护目标。在本文中，我们展示了如何定义和运行概念验证POC，以验证使用 Macie 和自动发现来增强您现有的数据保护策略。POC 步骤演示了如何利用 Macie 来检测和警报 AWS 环境中发现的敏感数据，并帮助您了解使用 Macie 增强现有数据保护策略的价值。

注意：本 POC 使用的一些功能提供 30 天的免费试用，还有一些功能在 POC 阶段将产生少量费用。我们将在本文中重点介绍和总结这些内容。

数据安全的商业挑战

数据安全是一个广泛的概念，围绕着对数字信息的保护，防止未经授权的访问、损坏、盗窃及其他形式的恶意活动。数字数据的快速增长使得组织不仅要管理数据，还需确定敏感数据的位置。此外，许多组织还面临来自政府监管和行业标准的合规要求，例如 PCI DSS 或 HIPAA。在快速发展的环境中，组织希望给开发人员提供工具，以便他们能够快速建设，以保持竞争优势，同时确保正确的数据分类政策得到定义和执行。

Macie 的功能

Amazon Macie 是一项数据安全服务，利用机器学习和模式匹配来发现敏感数据，提供数据安全风险的可见性，并实现对这些风险的自动保护。以下是 Macie 的一些关键功能概述，其中许多在本 POC 中将被使用。Macie 的核心能力集中在 S3 桶的安全性上，并帮助识别敏感数据，包括财务数据、个人数据、凭据以及符合组织特定需求的敏感数据，例如知识产权。

S3 桶安全性

客户利用 Amazon S3 来处理各种用途并存储不同类型的数据，包括敏感数据。持续监控这些桶中是否存在敏感数据是数据保护策略中的重要部分。Macie 为您提供 S3 桶的库存及其相关的安全性和访问控制的可视性。这种可视化包括桶是否公开可访问、桶的加密级别，以及桶是否与其他账户共享。每当您的桶的安全态势降低时，Macie 将生成一条关于该变化的发现，帮助您及时响应。这些发现可以通过 Macie 的 AWS 管理控制台、Macie API、Amazon EventBridge 消息或者通过 AWS Security Hub 获取。

敏感数据发现任务

敏感数据发现任务提供了一种针对特定 S3 桶或桶组进行深度分析的方式，以确定存储对象中是否存在敏感数据，如果存在，数据类型是什么。这些任务可以根据新数据或已更改数据每日报告、每周或每月运行，或者按需执行。

自动数据发现

Macie 提供自动数据发现功能，可以持续发现 S3 桶中的敏感数据。此功能旨在帮助拥有大量 S3 桶和数据的客户理解敏感数据可能存储的位置，而无需扫描所有数据。通过使用自动数据发现，您可以将资源集中用于深入调查已识别的敏感数据桶的安全性。Macie 每天选取 S3 桶中对象的样本进行检查，提供有关敏感数据可能存在于您整体 Amazon S3 数据环境中的位置的见解。

POC 概述

本 POC 旨在帮助您了解 Macie 的能力以及如何利用它实现您的数据发现目标。本文中的 POC 包含以下 Macie 任务：

审查管理数据标识符定义自定义数据标识符阶段 POC 数据执行敏感数据发现任务审查发现任务的输出启用并审查自动数据发现的输出

注意：每个任务所需的时间取决于您的准备和分析。请注意，在自动数据发现阶段，激活该功能后，Macie 需要 24 到 48 小时才能执行第一次扫描。

启用 Macie

在继续进行 POC 前，您必须先启用 Macie。如果您尚未启用 Macie，请参见启用 Macie 获取说明。

注意：启用 Macie 和 S3 的 30 天免费试用时，S3 桶的安全性和隐私监控会自动启用。此外，自动数据发现也有为期 30 天的免费试用，后续将在本文中进行说明。针对运行目标数据发现任务没有免费试用。有关详细信息，请查看 Macie 价格页面。

审查管理数据标识符

成功的 Macie POC 需要了解 Macie 能侦测到哪些数据。Macie 附带了 150 多个管理数据标识符，旨在用于识别 S3 对象中的敏感数据。首先了解可用的管理数据标识符以及哪些与您希望解决的用例相符合是非常重要的。示例包括信用卡号码、AWS 秘密访问密钥和国家身份证号码。Macie 提供推荐的管理数据标识符集合，用于检测一般类别和类型的敏感数据，以优化数据发现结果，减少噪声。

关键字是 Macie 能够检测敏感数据的重要组成部分。许多管理数据标识符需要关键字靠近数据，以便 Macie 能够检测到发现。了解用于敏感数据检测的关键字在构建 POC 测试数据时非常重要。

在开始 POC 之前，审查管理数据标识符列表，确定哪些是您数据发现需求中必需的。此外，识别适用于您 POC 的管理数据标识符，看看哪些属于默认标识符列表之外的。

定义自定义数据标识符

尽管 Macie 使用管理数据标识符覆盖了大量用例，但某些用例需要自定义数据标识符来识别不包含在管理数据标识符中的数据类型。例如，客户可能需要识别特定于公司的敏感数据，例如员工 ID 或项目编号。某些客户可能在特定行业中操作，该行业具有独特的数据类型，如航空业中的已知旅行者编号。如果您识别敏感数据的要求包括检测不在当前管理数据标识符列表中的敏感数据，您可以为这些数据类型创建自定义数据标识符。对于 POC，您不必为每个额外的检测创建自定义数据标识符，而可以创建一些来确认您可以使用自定义数据标识符进行敏感数据检测，并且 Macie 可以支持您的数据发现目标。构建自定义数据标识符对此有详细说明。与管理数据标识符类似，自定义数据标识符也有关键字要求。定义自定义数据标识符的检测标准则提供了关键字的类型信息。

阶段 POC 数据

审核完 Macie 提供的管理数据标识符并创建所需的自定义数据标识符后，接下来是阶段数据集，这将帮助展示这些标识符的能力，并更好地理解 Macie 如何识别敏感数据。我们建议您准备包含敏感数据的数据集以及不含敏感数据的数据集，以全面了解 Macie 在每种情况下的检测和报告方式。您可以只使用几 GB 的数据来准备各种数据集，这将有助于保持初始 POC 扫描的低成本。准备的数据必须是 Macie 支持的文件格式。

在准备阶段数据时，请记住许多 Macie 管理数据标识符的关键字要求。要确定哪些管理数据标识符有关键字要求，请参见按类型划分的管理数据标识符。在准备数据时，参考您使用的管理数据标识符所支持的关键字，以确保数据可以在 POC 测试中被识别。

我们建议将数据存放在一个专门用于 POC 的 S3 桶中，并对该桶使用 S3 服务器端加密。如果您希望使用客户管理的 AWS KMS 密钥对 S3 数据进行静态加密，请按照说明允许 Macie 使用客户管理的 AWS KMS 密钥为 Macie 提供访问权限以解密桶中的数据。您还应遵循有关 S3 桶的最佳实践，例如不允许公共访问并实施最小权限访问。

您可以使用以下一种或多种方法来识别和准备 POC 数据：

使用带有敏感数据的合成数据生成工具创建的阶段数据文件。市面上有许多生成敏感数据的工具，您可以使用以下两个工具生成测试数据：MockarooFaker从公共数据仓库获取的阶段数据文件。这些仓库通常包含可能用于敏感数据检测的信息，数据集往往是公开可用的，或者是为帮助测试机器学习模型或敏感数据检测而创建的。使用您自己的带有敏感信息的数据文件。因为目标是使用 Macie 来识别 S3 桶中的敏感信息，包含一些您自己的数据示例可以帮助测试 Macie 的能力。使用不包含敏感信息的数据文件。这可以帮助您理解 Macie 如何处理您认为不包含敏感信息的数据。使用 Macie 提供的管理数据标识符，您应该准备您相信不包含敏感信息的数据文件，例如日志文件、文档或符合此步骤标准的数据集。准备包含您想用自定义数据标识符进行检测的信息的数据。

执行数据分类任务

现在您已审核管理数据标识符、定义自定义数据标识符并准备好样本数据，接下来就是执行敏感数据发现任务。在配置任务范围时，我们建议如下：

指定 S3 桶用于存放 POC 数据。范围设置为单次任务。采样深度保持在 100。大多数客户将此值保持在 100，但某些会降低它以获取较小的随机样本扫描。大多数客户使用自动化数据发现来获取样本扫描，而不是调整单个任务的采样深度。选择推荐的管理数据标识符。如果您的测试需要 Macie 识别不在推荐列表中的其他敏感数据类型，则选择“自定义”以选择所需的管理数据标识符。确保推荐的管理数据标识符包含在您构建的自定义列表中。选择要在任务中使用的自定义数据标识符。

配置好任务后，给它命名，审查最终配置，然后提交任务运行。使用几 GB 数据集的任务应在 30 分钟内完成。

审查任务发现结果

任务完成后，是时候审查 Macie 在数据中找到的内容了。Macie 找到的敏感数据对象将在 Macie 控制台中作为发现呈现。从任务界面选择您提交的任务。在右侧窗口中，您将看到任务的概览信息。在概览窗口中，您可以选择显示结果菜单，然后选择显示发现以查看任务生成的发现列表。

如何使用 Amazon Macie 进行自动化发现的概念验证安全博客

图 1 查看 Macie 任务发现

Macie 找到敏感数据的每个对象将被列为单个发现。如果在对象中发现了多种类型的敏感数据，每种类型的敏感数据及其数量将包含在详情中。选择每一条生成的发现，审查详情以确认识别到的敏感数据是否符合预期。此外，确保您没有在不应有敏感数据的对象上获得发现，以确认 Macie 如何处理这类对象。如果您创建了自定义数据标识符，还需审查包含自定义数据的对象的发现结果，以确认数据是否被检测到。

启用自动发现

了解如何使用 Macie 发现敏感数据后，POC 的下一步是启用自动发现，利用 Macie 发现您现有 S3 数据中的敏感数据。

您将在 Macie 中启用自动发现以进行 30 天的免费试用。在免费试用期间，可评估的总数据存储范围为 150 GB。请按照以下步骤设置自动发现功能：

要使用自动发现，请确保您已定义一个委派管理员账户。有关如何配置 Macie 的委派管理员账户，请参见在 Macie 中集成和配置组织。配置完委派管理员账户后，启用自动发现。在启用自动发现时，请特别注意以下事项：设置管理数据标识符。理想情况下，选择推荐的数据标识符，以帮助减少噪声。如果您有特定的管理数据标识符需要查看，请选择“自定义”以选择所需的标识符。包含您希望用于评估敏感数据的自定义数据标识符。排除您不希望包括在识别敏感数据范围内的桶。包括或排除特定账户，以便参与 POC。启用自动发现的第 5 步介绍了如何为特定账户启用该功能。

在您启用自动发现后，您将在 24 到 48 小时内看到第一组结果。之后，您将每 24 小时看到自动发现结果的更新。

当自动发现开始产生结果时，您将在 Macie 控制台的自动发现部分看到数据。摘要包括可发现的总桶数量的指标、发现或未发现敏感数据的桶数量、以及这些桶中有多少是公开的。

图 2 示例自动发现摘要指标

选择某个计数的链接将带您到应用了相应筛选条件的 S3 桶视图。

啊哈加速器app下载

查看摘要屏幕后，从导航窗格选择S3 桶，以查看热图，其中显示每个账户和每个账户中的桶。

图 3 Macie 中的 S3 桶热图视图

热图提供了 Macie 已扫描的数据的及时洞察，并显示在哪些桶中找到敏感数据，哪些桶未发现敏感数据。

随着时间的推移，随着自动数据发现继续采样每个桶中的数据，这个热图可能会发生变化。热图视图提供关于每个组织成员账户的信息，以及关于每个账户中桶内敏感数据的洞察。

在控制台中，结果显示为每个账户的彩色方块集。每个方块代表该账户中的一个桶，方块的颜色指示该桶中是否发现了敏感数据。红色代表发现了一些类型的敏感数据，蓝色则表示未标识出敏感数据。如果桶是蓝