AWS Glue

Amazon Web Services, Inc.

AWS Glueは、Amazon Web Servicesが提供するETLツールです。データの抽出、変換、書き出しのためのコードが自動的にScalaまたはPythonで生成され、Apache Spark向けに記述されます。クローラーがソースやターゲットのデータに接続しデータのスキーマを自動検出できるため、開発を効率よく行うことができます。また、サーバーレスストリーミング ETL機能により、ストリーミングデータをすぐに準備できるため、継続的な取り込みパイプラインの設定を容易にします。

AWS Glueは、Amazon Web Servicesが提供するETLツールです。データの抽出、変換、書き出しのためのコードが自動的にScalaまたはPythonで生成され、Apache Spark向けに記述されます。クローラーがソースやターゲットのデータに接続しデータのスキーマを自動検出できるため、開発を効率よく行うことができます。また、サーバーレスストリーミング ETL機能により、ストリーミングデータをすぐに準備できるため、継続的な取り込みパイプラインの設定を容易にします。

AWS Glueの特徴

特徴1ScalaまたはPythonでETL コードを自動生成

AWS GlueではScalaまたはPythonでETLコードを生成します。このコードを使用して、ソースからのデータ抽出、ターゲットのスキーマに合わせたデータ変換、ターゲットへの書き出しを行います。生成されたコードは、コンソールやテキストエディタで編集、デバッグ、テストなどを行うことができます。

特徴2スキーマの自動検出により開発の効率化させる

クローラーがソースやターゲットのデータに接続され、分類子の優先順位付きリストによってデータのスキーマが判定された後、AWS Glueにメタデータが作成されます。メタデータはテーブルに保存され、ETLジョブの作成プロセスで使用されるため、開発の効率を向上させます。また、クローラーはスケジュールによる実行やオンデマンドでの実行、または、最新のメタデータが必要な際にトリガー設定することも可能です。

特徴3サーバーレスストリーミング ETLでストリーミングデータをすぐに準備

サーバーレスストリーミング ETL機能を使用すれば、ストリーミングデータをリアルタイムに変換しながら書き込むオンザフライ方式で準備できるため、継続的取り込みパイプラインを簡単にセットアップできます。また、サーバーレスストリーミングETLジョブは、データを強化および集約しバッチとストリーミングソースを結合し、複雑な分析や機械学習オペレーションを実行することまで可能です。

AWS Glueの料金・プラン

運用費用

0.44ドル/1秒

DPU時間あたりの価格です。実行したリクエストと時間分だけ支払う使用料制です。詳細は問い合わせください。