
CONTENT
こんにちは、KSです。
現在AWS資格であるソリューションアーキテクト合格に向けて勉強中です。
今回はセキュリティ関連サービスについてまとめてみました。
■Amazon Athena とは
・サーバーレスのインタラクティブクエリサービス
・データを事前にロードせずに、S3上のデータに直接SQL(Presto/Trinoベース)を実行できる
・結果もS3に出力される
■ 特徴
1. サーバーレス
・インフラ管理不要、設定後すぐにクエリ可能
2. スキーマオンリード
・データをロードせず、メタデータカタログを作るだけでクエリ可能
・例: Glue Data Catalog と連携してテーブル定義を管理
3. 対応フォーマットが豊富
・CSV, JSON, Parquet, ORC, Avro など
・特に Parquet/ORC(列指向フォーマット) はコスト・速度効率が良い
4. 料金体系
・クエリでスキャンしたデータ量に応じて課金
・例: 圧縮やパーティション化でスキャン量を減らすとコスト削減できる
■ユースケース
・ログ分析
・S3に蓄積されたCloudTrailやVPCフローログを直接検索
・アドホック分析
・データウェアハウスにロードする前の一次分析
・ETLの前処理確認
・GlueやEMRの処理前にデータの中身を確認
■関連サービスとの関係
・S3 → Athenaが直接参照するデータレイク
・Glue Data Catalog → Athenaのスキーマ管理に利用
・QuickSight → AthenaをデータソースとしてBI可視化
・CloudTrail → ログをS3に保存してAthenaで検索
■ポイント
・サーバーレスSQL分析 = Athena
・S3のデータに直接SQLクエリ
・Glue Data Catalog と統合してメタデータ管理
・コスト削減の鍵は「圧縮」「列指向フォーマット」「パーティション化」
・分析したいがRedshiftにロードするほどではない時 → Athena