written by
Just4test

AWS认证 Data Analystics Specialty 学习笔记

1 min read , February 25, 2023

这一认证是Bigdata Specialty的更新版本,因此应该先了解Bigdata认证的内容。

EMRFS

HDFS的一个实现,将数据存储到S3以实现低成本和高持久性。
因为S3的最终一致性模型,因此通常需要启用EMRFS一致性视图。这一特性借助一个额外的DynamoDB实现强一致性。

DataSync

一个将本地数据迁移上云的服务。主要用于从本地NFS/SMB服务器迁移到S3、EFS、SFx 4 WinServer,还可以将冷数据直接复制到Glacier。DataSync支持持续传输,以不断迁移新文件。

要使用DataSync,需要在本地虚拟机上安装DataSync Agent。

特别的,DataSync和Snowcone集成。

Glue

一种无服务器的数据转换服务。包含两个组件:一个数据目录,与Hive元存储兼容;以及一个基于Spark的ETL引擎。

Glue提供爬网程序。爬网程序扫描S3数据,使用内置的分类器对数据分类,提取架构信息,然后存储到Glue数据目录。

开发者可根据数据目录编写ETL代码,在Glue的无服务器ETL引擎中工作,对数据进行清洗转换。转换后的数据存储在S3中,以供其它服务使用。

Lake Formation

帮助用户建立数据湖。可以集中定义安全性和审计策略,而不需要单独处理各个服务。只需定义数据源,制定要应用的数据访问和安全策略,Lake Formation就会从对象存储和数据库中收集数据输出到S3,使用机器学习算法清理和分类,并设置适当的权限。然后,用户可以使用Athena、Redshift、EMR等服务访问数据湖。

Lake Formation 基于 Glue。

Athena Federated Queries,Athena联合查询

Athena的扩展功能。原本Athena只能对S3进行查询;Athena Federated Queries 则通过部署一些Lambda驱动的连接器,以实现对Cloudwatch、DynamoDB、DocumentDB、RDS等数据源的查询。

AWS MSK

全托管kafka。

你可以使用基于Apache Flink的全托管Kinesis Analytics for Java分析MSK数据。

安全服务

Amazon Inspector

EC2层/应用程序层安全评估服务。可以从VPC内部对指定EC2进行分析;也可以在EC2上安装Agent以收集该机的软件和配置情况。基于指定的规则包分析这些数据后,给出潜在安全问题列表。

Amazon GuardDuty

账户层面基于行为分析的威胁检测服务。通过分析CloudTrail、VPC流日志和DNS日志发现威胁。

Amazon Macie

使用机器学习和模式匹配持续发现S3中的敏感数据