データ関連のAWS案件に関わる際、まず耳にするのが「AWS Glue」という名前。
Glue(グルー)って、日本語で「のり」や「接着剤」ですよね。
なんでデータサービスに接着剤?とわたしと同じように思った方、いらっしゃいませんか?
AWSのサービス名って、なんとなく想像がつく名前で、かつ「名付けセンス神かよ!!!」ってものが多いじゃないですか。
でも、中にはどうしても頭の中で変換ができず、資格試験で苦戦させられる子たちがいます。
今回はその筆頭の謎多き「AWS Glue」について
など、AWS Glueをわかりやすく解説したいと思います。
データ分析やETL処理に興味がある方も、「Glueって聞いたことあるけどよくわからない」という方も、参考んしていただけたら幸いです。
なんでGlue(のり)なの?
AWS公式がGlueという名前の由来を明言しているわけではないのですが、サービスの役割を見ると「え、もしやそういうこと?」と勝手に思うことがあります。
データ分析の現場では、データが1か所にまとまっていることはほとんどありませんよね。
このようなデータがバラバラに存在していることがほとんどです。
AWS Glueはそんなバラバラなデータソースをつなぎ合わせ、分析できる形に整える役割を担います。
データを「くっつける接着剤」のような働きをするから、Glueと呼ばれているのではないかと想像しています。
そもそも何ができるの?
AWS Glueは、フルマネージドのETLサービスです。
ETLとは
の略で、データを取り出して、整形して、別の場所に格納する一連の処理のことです。
Glueの主要な機能
主な機能は大きく3つに分けられます。
| 機能 | 内容 |
|---|---|
| ETLジョブ | データの抽出・変換・ロードを自動化する。Apache Spark/Pythonで処理を記述できる |
| Data Catalog | どこにどんなデータがあるかを管理するメタデータのカタログ |
| Crawler(クローラー) | S3やデータベースを自動スキャンしてData Catalogに登録する |
ETLジョブ
ETLジョブはGlueの中核機能です。
「S3にあるCSVを読み込んで、不要な列を削除して、RedshiftにロードするPythonスクリプト」のような処理を、サーバー管理なしで実行できます。
AWS Glue Studioというビジュアルエディタを使えば、コードを書かずにドラッグ&ドロップで処理フローを組み立てることもできます。
Data Catalog
Data Catalogは、データの「目次」のようなものです。
「このS3バケットにはこういうカラム構成のデータがある」という情報をカタログとして管理しておくことで、AthenaやRedshift Spectrumから直接クエリを投げられるようになります。
Crawler
Crawlerは、Data Catalogの登録を自動化してくれる機能です。
S3のバケットを指定してCrawlerを実行すると、ファイルの構造を自動で解析してカタログに登録してくれます。
スキーマが変わったときも自動で更新できるので、手動メンテナンスの手間が省けます。
どんな時に使うの?
AWS Glueが活躍するシーンをいくつかご紹介します。
逆に向いていない場面もあります。
リアルタイムのストリーミング処理にはKinesisやMSKの方が適していますし、シンプルなファイルコピーにはS3のレプリケーション機能で十分です。
「バッチ処理でデータを変換・統合したい」というニーズにもっとも合うサービスではないでしょうか。
お金はどのくらいかかるの?
AWS Glueの料金は DPU(Data Processing Unit)という単位で課金されます。
1 DPUは 4 vCPU・16GBメモリの処理能力に相当します。
※ 2026/4現在
| 機能 | 料金 | 備考 |
|---|---|---|
| ETLジョブ(標準) | $0.44/DPU-時間 | 最小10 DPU、1分単位課金 |
| ETLジョブ(Flex) | $0.29/DPU-時間 | 非緊急バッチ向け、約34%割引 |
| Crawler | $0.44/DPU-時間 | ETLジョブと同じ料金 |
| Data Catalog | 無料枠あり | 月100万オブジェクトまで無料、以降$1/10万オブジェクト |
具体的なイメージとして、6 DPUで15分間動かした場合は「6 × 0.25時間 × $0.44 = 約$0.66(約100円)」です。
小規模なバッチ処理なら1回あたりの費用はかなり抑えられますが、大量データを毎日処理するような本番環境では積み上がりに注意が必要です。
コスト削減のポイントとしては、
が挙げられます。
また、Compute Savings Plansは適用できないため、大規模利用の場合はコスト試算をしっかり行うようにしましょう。
どうやって設定するの?
AWS Glueの設定は、AWSマネジメントコンソールから行えます。
大まかな流れはこちらです。
- データソースの接続設定:S3・RDS・DynamoDBなど、読み込み元データソースへの接続情報を登録する
- CrawlerでData Catalogを作成:データソースをスキャンしてスキーマ情報をカタログに登録する
- ETLジョブの作成:Glue Studioのビジュアルエディタ、またはPythonスクリプトで変換処理を定義する
- スケジュール設定:EventBridgeと組み合わせて定期実行を設定する
- 実行・モニタリング:CloudWatchでジョブの実行ログを確認する
はじめての方にはGlue Studioのビジュアルエディタがおすすめです。
ソース・変換・ターゲットをドラッグ&ドロップでつなぐだけで基本的なETLフローが作れます。
コードを書かなくてもある程度の処理が組めるので、データエンジニアリングの入門としても取り組みやすいですよ。
より細かい制御が必要になってきたら、PySpark(PythonベースのApache Spark)でスクリプトを書くことで、複雑な変換処理にも対応できます。
GlueはSparkの実行環境をマネージドで提供してくれるので、Sparkクラスターの管理を気にせず処理ロジックの開発に集中できます。
データをつなぐ接着剤の正体がわかった
AWS Glueは「データを整えてつなぐ」という、地味だけど欠かせない役割を担うサービスです。
バラバラに存在するデータを分析できる形に変換・統合する、まさに「のり」のような存在ですよね。
AWSのデータ基盤を整えたいと思っている方にとって、最初に触れてみる価値のあるサービスのひとつです。
「まずGlue Studioで簡単なETLフローを作ってみる」から始めると、データエンジニアリングの世界への入り口として使いやすいかもしれません。
とはいえ、データエンジニアリングそのものが奥深く、慣れるまでは独特の文化に苦戦するかもしれません。
一緒に頑張りましょう!

