データ分析をしたい！最新ETL機能AWS Glueを徹底解説！

AWS Glueは、2017年08月に一般利用開始されたETLの新しいサービスです。12月にはアジアパシフィック(東京)AWSリージョンで使用可能になりました。AWS Glueでは、AWS上の各種サービス間のデータ連携基盤を簡単な操作で運用することができます。このサービスによってETL処理が簡単にできるとのことで、本記事では仕組みやメリット、料金体系等を解説します。

1 AWS Glueとは
2 AWS Glueの仕組み
3 AWS Glueのメリット
4 AWS Glueが活躍するシーン
5 料金
6 始め方
7 AWS Glueを使おう！

AWS Glueとは

AWS Glueとは、AWS上に保管しているデータを抽出-Extract、変換-Transform、ロード-load(ELT)する、完全マネージド型のサービスです。ETLは、すでに構築済みのサービスやサブシステムの連携をするものです。そのため、AWS Glueもそれ単体で動作するサービスではなく、AWSの各種サービス間を繋ぐデータ連携基盤としての役割を持ちます。まさに「糊(Glue)」のような役割です。

2017年12月には、東京リージョンで使用ができるようになりました。
次の章ではさっそく、AWS Glueの仕組みを解説します。

AWS Glueの仕組み

AWS Glueは、以下のような仕組みで動作します。

- データカタログの構築

データストアから取得対象を指定するだけで、クローラーという機能により定期的に自動でテーブル定義やスキーマ情報を取得し、データカタログを作ります。一般的に言う「クローラー」は、Web上の文書や画像等を周期的に取得し自動的にデータベース化するbotなどのプログラムを指しますが、AWSのクローラーも同様に「自動化」されたイメージです。

- ソースコードの自動生成

コンソール上でのちょっとした操作だけで、データの抽出や変換、フラット化、ロード等(ELT処理)をするためのコードを自動生成します。コードはScalaやPython、Apache Sparkで生成されます。

- ジョブの実行

ジョブのスケジューリングやジョブ間の連携、他のサービスからのジョブ呼び出し等でジョブを実行します。ジョブの実行順序を調整したり、ジョブが失敗した場合に再試行する機能等もあります。

AWS Glueのメリット

AWS Glueのメリットは主に3つ挙げられます。

- とにかく簡単にELT処理ができる

構築済みのデータストアに対するデータカタログの作成が自動で行われ、利用したいデータ項目を効率よく探索できるようになります。また、従来は手間がかかるELTジョブの構築、実行、スケジューリング等を自動的に行うことができます。

- サーバレスで動く

サーバレスのため、インフラの購入や管理の必要はありません。料金はジョブの実行に使ったリソースにのみ課金されます。

- 開発しやすい

ELT処理を行うコードは開発者にとって馴染みのあるScalaやPython、Apache Sparkで自動でコーディングされます。そのため、生成されたソースコードは用意されたコンソール上だけでなく、普段使い慣れた任意のIDEでも編集、デバッグ、テスト可能です。

AWS Glueが活躍するシーン

AWS Glueが活躍するシーンは以下のようなものが想定されます。

- DWH(データウェアハウス)の構築

データウェアハウスを構築するには、データカタログの作成やETL処理をするコードの作成、ETLジョブのスケジュールや監視等、手間のかかる作業がたくさんあります。AWS Glueはこれら作業を簡単な操作で自動化し、簡略化してくれます。

- S3(ストレージ)のデータレイクへのクエリ実行

データレイクとは、データの規模の大小やデータの構造化の有無にかかわらず、リポジトリに色んなデータをまとめて保存しておき、管理したりデータ抽出したりするための仕組みです。
S3でデータレイクを使用している場合、AWS Glueを使うことでデータの移動等の準備なしに、データレイクへ直接クエリを実行することができます。

- イベント駆動型のELTパイプラインの構築

AWS GlueではイベントをトリガーにしてELTジョブを実行させることができます。例えばAWS Lambda関数によりAmazon S3で新しいデータが利用可能になったタイミングでETLジョブを呼び出して実行させる事も可能です。ETLジョブの一環で、検知された新しいデータセットをAWS Glueデータカタログに登録する事も出来ます。

料金

前述した通り、AWS Glueはサーバレスのためインフラの購入の必要がありません。AWS Glueの料金は、データの検出およびETLジョブの実行に費やした時間に対して課金されます。

データの検出にかかる料金

ストレージ

データカタログの使用は最大100万個のオブジェクトまでが無料で保存可能です。保存するオブジェクトが100万を超えた場合は、
10万オブジェクトごとに毎月1ドル課金されます。オブジェクトの内訳は、テーブル、テーブルバージョン、パーティション、データベースを含みます。

リクエスト

データからログへのアクセスは、月あたり100万回アクセスまでは無料です。以降は100万回リクエストごとに1ドル課金されます。月ごとのアクセス数なので、月初にはカウントが0にリセットされます。

クローラーにかかる料金

クローラーにかかる料金は、クローラーの実行に使用されたDPU(Data Processing Unit)の時間を単位に、下記の条件で課金されます。

1つのクローラーには最低で2個のDPUが必要
1つのDPUあたり1秒ごとに0.44ドル(秒単位に切り上げ)
クローラー実行は最低10分で、以降は分単位で課金

ETLジョブにかかる料金

ETLジョブの実行に使用されたDPU(Data Processing Unit)の時間を単位に、下記の条件で課金されます。

- 1つのETLジョブには最低で2個のDPUが必要

※デフォルトの設定では1ジョブあたり10DPUが割り当てられている

1つのDPUあたり1秒ごとに0.44ドル(秒単位に切り上げ)
ETLジョブは最低10分で、以降は分単位で課金

その他リソースにかかる料金

ETL処理に使われるデータソースの利用料やデータ転送料はそれぞれのサービスごとの課金方法で課金されます。

始め方

ここでは、AWS Glueを使い始めるまでのおおまかな手順について解説します。
詳細については下記をご参照ください。
AWS Glueの始め方

- コンソールにログインする

AWS アカウントを設定してログインします。

- AWS GlueのIAMアクセス設定

AWS Identity and Access Management(IAM)でAWS Glueリソースへのアクセス許可の設定をします。

- データストアにアクセスするための環境設定

AWS GlueがELTジョブを実行するために、データストアへアクセスできるように環境設定します。

AWS Glueを使おう！

AWS GlueはAWSで利用している各種サービスに対して、データ連携基盤として利用できるELTサービスです。簡単なコンソール上の設定のみで、データを効率的に探索するためのデータカタログの作成が自動化され、ELT処理を行うプログラムも大部分を自動生成できます。サーバレスのため、インフラの料金はかからず、使った分だけの料金がかかります。

AWSでシステムを構築済みでETL処理をしたいと言った場合に、AWS Glueを使用することを検討してみてはいかがでしょうか。

エンジニアになりたい人に選ばれるプログラミングスクール「ポテパンキャンプ」

ポテパンキャンプは卒業生の多くがWebエンジニアとして活躍している実践型プログラミングスクールです。 1000名以上が受講しており、その多くが上場企業、ベンチャー企業のWebエンジニアとして活躍しています。

基礎的な学習だけで満足せず、実際にプログラミングを覚えて実践で使えるレベルまで学習したいという方に人気です。プログラミングを学習し実践で使うには様々な要素が必要です。

それがマルっと詰まっているポテパンキャンプでプログラミングを学習してみませんか？

卒業生の多くがWebエンジニアとして活躍

卒業生の多くがWeb企業で活躍しております。
実践的なカリキュラムをこなしているからこそ現場でも戦力となっております。
活躍する卒業生のインタビューもございますので是非御覧ください。

経験豊富なエンジニア陣が直接指導

実践的なカリキュラムと経験豊富なエンジニアが直接指導にあたります。
有名企業のエンジニアも多数在籍し品質高いWebアプリケーションを作れるようサポートします。

満足度高くコスパの高いプログラミングスクール「ポテパンキャンプ」

運営する株式会社ポテパンは10,000人以上のエンジニアのキャリアサポートを行ってきております。
そのノウハウを活かして実践的なカリキュラムを随時アップデートしております。

代表の宮崎もプログラミングを覚えサイトを作りポテパンを創業しました。
本気でプログラミングを身につけたいという方にコスパ良く受講していただきたいと思っておりますので、気になる方はぜひスクール詳細をのぞいてくださいませ。

データ分析をしたい！最新ETL機能AWS Glueを徹底解説！

AWS Glueとは

AWS Glueの仕組み

AWS Glueのメリット

AWS Glueが活躍するシーン