Webサイト制作コースのお申し込みはこちら Webサイト制作コースのお申し込みはこちら

AWSのredshift(データウェアハウスサービス)についてまとめています。

AWSのRedshiftはデータウェアハウス S3上の生データと組み合わせデータレイクの構築が可能

AWSのRedshiftはデータウェアハウスサービス。Redshiftを使って、検索や分析用に加工したリレーショナルデータに加え、IoTデバイスのデータやウェブから収集したクリックストリームやログなど未加工の生データを組み合わせて保管する「データレイク」を構築することが可能です。保管されたデータに対しては、標準SQLでクエリを発行することができます。

参考)Amazon Redshift(高速、シンプル、費用対効果の高いデータウェアハウス)| AWS

データレイクの利点は、設計時点でどのデータをどのように保管するかを慎重に設計する必要がない点です。将来を予測してデータ構造を考える必要がありません。役に立ちそうなデータをとりあえず保管しておき、機械学習などの手法を利用してビッグデータから知見を得るために使うことができるんですね。

ただし、データレイクを使用可能な状態に保つにはカタログの作成とデータ保護の仕組みが不可欠。ただ生データを保管するだけだと、データを見つけることができなくなり「データスワンプ」(データの沼=使えないデータの塊)となってしまいます。

参考)データレイクとは

Amazon Redshiftは、Parquet、ORC、JSON、Avro、CSV などのオープンファイルフォーマットに対してクエリを実行することが可能。データをデータレイクにエクスポートするには、RedshiftのUNLOADコマンドでファイル形式としてParquetを指定します。すると、Redshiftで自動的にデータのフォーマットとデータのAmazon S3への移動が行われるんですね。

【関連記事】
AWS S3ってどんなサービス?初心者向けに機能紹介

結果として、構造化されたデータをRedhistデータウェアハウスに保存しながら、エクサバイト規模の構造化データ、半構造化データ、非構造化データ(生データ)をAmazon S3で維持することができます。

AWS Redshiftの使い方

具体的にAmazon Redhisftを使う手順は以下の通り。チュートリアルにサンプルデータが用意されているので、実際にデータウェアハウスをデプロイして試すことができます。

参考)AWS にデータウェアハウスをデプロイする

また、Amazon Redshiftへの移行には、AWS Database Migration Service(AWS DMS)というサービスが用意されています。Oracleなどのメジャーなデータベースを、最小のダウンタイムでAmazon Redshiftに移行することが可能です。

【関連記事】
AWSのDMSは、低価格なデータベース移行サービス 継続レプリケーションも可能

ビッグデータに対して、機械学習モデルを組み合わせて、推論・予測をおこなうことが可能です。以下は、機械学習モデルの作成・トレーニングと、予測関数ml_fn_customer_churn_autoの定義です。

CREATE MODEL customer_churn_auto_model FROM (SELECT state,
             account_length,
             area_code,
             total_charge/account_length AS average_daily_spend, 
             cust_serv_calls/account_length AS average_daily_cases,
             churn 
      FROM customer_activity
      WHERE  record_date < '2020-01-01' 
     )
TARGET churn FUNCTION ml_fn_customer_churn_auto
IAM_ROLE 'arn:aws:iam::XXXXXXXXXXXX:role/Redshift-ML'SETTINGS (
  S3_BUCKET 'your-bucket'
);

以下は、予測関数(ml_fn_customer_churn_auto)を使って、2020年1月1日以降にサインアップした顧客のうち、解約すると予測される顧客と電話番号を取得します。

SELECT phone, 
       ml_fn_customer_churn_auto( 
          state,
          account_length,
          area_code, 
          total_charge/account_length , 
          cust_serv_calls/account_length )
          AS active
FROM customer_activity WHERE record_date > '2020-01-01';

抽出したデータを使って、電話でフォローアップするなどの解約を回避するアクションを取っていくわけですね。

AWS Redshiftの料金

Amazon Redshiftの料金は、インスタンスモデル(スペック)、バックアップストレージの容量、Redshift Spectrum(Amazon S3データにクエリを発行する機能)のスキャンデータ容量、マネージドストレージの容量で決まります。

料金モデルはオンデマンドとリザーブド(予約)があり、リザーブドにすると先払いする代わりに割引が適用されます。

AWS Pricing Calculator

Amazon Redshiftの具体的な見積もりは、見積もりツールに値を入力することで入手可能です。

【関連記事】
AWSの見積もりは、AWS Pricing Calculatorで自動計算 ユースケースから流用も可能

例えば、Redshiftインスタンスに4 台の ra3.xlarge ノード、40 TB の Redshift マネージドストレージを 1 か月間使用し、Redshift Spectrum で 20 TB のデータをスキャンした場合のオンデマンド料金は以下の通りです。

参考)料金 – Amazon Redshift | AWS

AWS Redshiftのまとめ

ポテパンダの一言メモ
  • AWS Redshiftは、データウェアハウスサービス
  • 構造化されたデータウェアハウスのデータと、非構造化のS3上の生データをSQLクエリで検索できる
  • 保管したデータに対して、SQLで機械学習モデルを生成・トレーニングし、予測関数の定義が可能

エンジニアになりたい人に選ばれるプログラミングスクール「ポテパンキャンプ 」

ポテパンキャンプは卒業生の多くがWebエンジニアとして活躍している実践型プログラミングスクールです。 1000名以上が受講しており、その多くが上場企業、ベンチャー企業のWebエンジニアとして活躍しています。

基礎的な学習だけで満足せず、実際にプログラミングを覚えて実践で使えるレベルまで学習したいという方に人気です。 プログラミングを学習し実践で使うには様々な要素が必要です。

それがマルっと詰まっているポテパンキャンプでプログラミングを学習してみませんか?

卒業生の多くがWebエンジニアとして活躍

卒業生の多くがWeb企業で活躍しております。
実践的なカリキュラムをこなしているからこそ現場でも戦力となっております。
活躍する卒業生のインタビューもございますので是非御覧ください。

経験豊富なエンジニア陣が直接指導

実践的なカリキュラムと経験豊富なエンジニアが直接指導にあたります。
有名企業のエンジニアも多数在籍し品質高いWebアプリケーションを作れるようサポートします。

満足度高くコスパの高いプログラミングスクール「ポテパンキャンプ」

運営する株式会社ポテパンは10,000人以上のエンジニアのキャリアサポートを行ってきております。
そのノウハウを活かして実践的なカリキュラムを随時アップデートしております。

代表の宮崎もプログラミングを覚えサイトを作りポテパンを創業しました。
本気でプログラミングを身につけたいという方にコスパ良く受講していただきたいと思っておりますので、気になる方はぜひスクール詳細をのぞいてくださいませ。