PR

AWS Glueって何?基本・料金・使いどころをざっくり解説する

AWS Glue クラウドニュース

データ関連のAWS案件に関わる際、まず耳にするのが「AWS Glue」という名前。

Glue(グルー)って、日本語で「のり」や「接着剤」ですよね。
なんでデータサービスに接着剤?とわたしと同じように思った方、いらっしゃいませんか?

AWSのサービス名って、なんとなく想像がつく名前で、かつ「名付けセンス神かよ!!!」ってものが多いじゃないですか。

でも、中にはどうしても頭の中で変換ができず、資格試験で苦戦させられる子たちがいます。

今回はその筆頭の謎多き「AWS Glue」について

  • 何ができるの?
  • いつ使うの?
  • いくらかかるの?
  • どうやって設定するの?

など、AWS Glueをわかりやすく解説したいと思います。

データ分析やETL処理に興味がある方も、「Glueって聞いたことあるけどよくわからない」という方も、参考んしていただけたら幸いです。

なんでGlue(のり)なの?

AWS公式がGlueという名前の由来を明言しているわけではないのですが、サービスの役割を見ると「え、もしやそういうこと?」と勝手に思うことがあります。

データ分析の現場では、データが1か所にまとまっていることはほとんどありませんよね。

  • S3にあるCSVファイル
  • RDSのリレーショナルデータベース
  • DynamoDBのNoSQLデータ
  • 外部のAPIから取得したJSONデータ

このようなデータがバラバラに存在していることがほとんどです。

AWS Glueはそんなバラバラなデータソースをつなぎ合わせ、分析できる形に整える役割を担います。

データを「くっつける接着剤」のような働きをするから、Glueと呼ばれているのではないかと想像しています。

そもそも何ができるの?

AWS Glueは、フルマネージドのETLサービスです。

ETLとは

  • Extract(抽出)
  • Transform(変換)
  • Load(ロード)

の略で、データを取り出して、整形して、別の場所に格納する一連の処理のことです。

Glueの主要な機能

主な機能は大きく3つに分けられます。

機能内容
ETLジョブデータの抽出・変換・ロードを自動化する。Apache Spark/Pythonで処理を記述できる
Data Catalogどこにどんなデータがあるかを管理するメタデータのカタログ
Crawler(クローラー)S3やデータベースを自動スキャンしてData Catalogに登録する

ETLジョブ

ETLジョブはGlueの中核機能です。

「S3にあるCSVを読み込んで、不要な列を削除して、RedshiftにロードするPythonスクリプト」のような処理を、サーバー管理なしで実行できます。

AWS Glue Studioというビジュアルエディタを使えば、コードを書かずにドラッグ&ドロップで処理フローを組み立てることもできます。

Data Catalog

Data Catalogは、データの「目次」のようなものです。

「このS3バケットにはこういうカラム構成のデータがある」という情報をカタログとして管理しておくことで、AthenaやRedshift Spectrumから直接クエリを投げられるようになります。

Crawler

Crawlerは、Data Catalogの登録を自動化してくれる機能です。

S3のバケットを指定してCrawlerを実行すると、ファイルの構造を自動で解析してカタログに登録してくれます。

スキーマが変わったときも自動で更新できるので、手動メンテナンスの手間が省けます。

どんな時に使うの?

AWS Glueが活躍するシーンをいくつかご紹介します。

  • データレイクの構築:S3に蓄積したデータをGlueで整形し、RedshiftやAthenaで分析できる形に変換する
  • 定期バッチ処理:毎晩0時にログデータを集計して分析用テーブルに格納する、といった定期処理の自動化
  • データの統合:複数のデータベースやファイルからデータを収集して、一元管理されたデータウェアハウスに集約する
  • 形式変換:CSVやJSONをParquetなどの列指向フォーマットに変換してクエリコストを下げる

逆に向いていない場面もあります。

リアルタイムのストリーミング処理にはKinesisやMSKの方が適していますし、シンプルなファイルコピーにはS3のレプリケーション機能で十分です。

バッチ処理でデータを変換・統合したい」というニーズにもっとも合うサービスではないでしょうか。

お金はどのくらいかかるの?

AWS Glueの料金は DPU(Data Processing Unit)という単位で課金されます。

1 DPUは 4 vCPU・16GBメモリの処理能力に相当します。

※ 2026/4現在

機能料金備考
ETLジョブ(標準)$0.44/DPU-時間最小10 DPU、1分単位課金
ETLジョブ(Flex)$0.29/DPU-時間非緊急バッチ向け、約34%割引
Crawler$0.44/DPU-時間ETLジョブと同じ料金
Data Catalog無料枠あり月100万オブジェクトまで無料、以降$1/10万オブジェクト

具体的なイメージとして、6 DPUで15分間動かした場合は「6 × 0.25時間 × $0.44 = 約$0.66(約100円)」です。

小規模なバッチ処理なら1回あたりの費用はかなり抑えられますが、大量データを毎日処理するような本番環境では積み上がりに注意が必要です。

コスト削減のポイントとしては、

  • 急ぎでない処理はFlex実行を使うこと
  • 処理が終わったらジョブをすぐ停止すること
  • DPU数を必要最小限に絞ること

が挙げられます。

また、Compute Savings Plansは適用できないため、大規模利用の場合はコスト試算をしっかり行うようにしましょう。

どうやって設定するの?

AWS Glueの設定は、AWSマネジメントコンソールから行えます。

大まかな流れはこちらです。

  • データソースの接続設定:S3・RDS・DynamoDBなど、読み込み元データソースへの接続情報を登録する
  • CrawlerでData Catalogを作成:データソースをスキャンしてスキーマ情報をカタログに登録する
  • ETLジョブの作成:Glue Studioのビジュアルエディタ、またはPythonスクリプトで変換処理を定義する
  • スケジュール設定:EventBridgeと組み合わせて定期実行を設定する
  • 実行・モニタリング:CloudWatchでジョブの実行ログを確認する

はじめての方にはGlue Studioのビジュアルエディタがおすすめです。

ソース・変換・ターゲットをドラッグ&ドロップでつなぐだけで基本的なETLフローが作れます。
コードを書かなくてもある程度の処理が組めるので、データエンジニアリングの入門としても取り組みやすいですよ。

より細かい制御が必要になってきたら、PySpark(PythonベースのApache Spark)でスクリプトを書くことで、複雑な変換処理にも対応できます。

GlueはSparkの実行環境をマネージドで提供してくれるので、Sparkクラスターの管理を気にせず処理ロジックの開発に集中できます。

データをつなぐ接着剤の正体がわかった

AWS Glueは「データを整えてつなぐ」という、地味だけど欠かせない役割を担うサービスです。
バラバラに存在するデータを分析できる形に変換・統合する、まさに「のり」のような存在ですよね。

  • フルマネージドでサーバー管理不要
  • ビジュアルエディタがあるのでコードが苦手でも始めやすい
  • 使った分だけ課金なので小さく試せる。

AWSのデータ基盤を整えたいと思っている方にとって、最初に触れてみる価値のあるサービスのひとつです。

「まずGlue Studioで簡単なETLフローを作ってみる」から始めると、データエンジニアリングの世界への入り口として使いやすいかもしれません。

とはいえ、データエンジニアリングそのものが奥深く、慣れるまでは独特の文化に苦戦するかもしれません。
一緒に頑張りましょう!

タイトルとURLをコピーしました