SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

AWS Data Pipeline について調べてみた

AWS Data Pipelineがよくわからなかったので、調べてみたことを以下に記述する。 完全にメモですので、ご了承ください。

AWS Data Pipelineとは

  • データの移動と変換をスケジュールベースで自動化するサービス
  • 1日に一回程度発生するデータの回収やバックアップなどが想定されるユースケース

パイプラインのコンポーネント

  • データノード
    • タスクの入力データの場所または出力データが保存される場所
      • DynamoDBDataNode
      • SqlDataNode
      • RedshiftDataNod
      • S3DataNode
  • アクティビティ
    • コンピューティングリソースと通常、入出力データノードを使用して、スケジュールに従って実行する作業の定義
      • CopyActivity
      • EmrActivity
      • HiveActivity
      • HiveCopyActivity
      • PigActivity
      • RedshiftCopyActivity
      • ShellCommandActivity
      • SqlActivity
  • 前提条件
    • アクションを実行する前に true である必要がある条件ステートメント
      • DynamoDBDataExists
      • DynamoDBTableExists
      • S3KeyExists
      • S3PrefixNotEmpty
      • Exists
      • ShellCommandPrecondition
  • スケジューリング
    • アクティビティの実行など、予定されているイベントのタイミング
    • 指定できる最も短い間隔は15分
      • Cron形式
      • 指定した間隔の最後
  • リソース
    • パイプラインで定義する作業を実行するコンピューティングリソース
      • Ec2Resource
      • EmrCluster
  • アクション
    • アクティビティの失敗など、指定された条件が満たされた場合にトリガーされるアクション
      • SnsAlarm
      • Terminate

参考資料

www.slideshare.net

docs.aws.amazon.com