AWS Data Pipeline について調べてみた - SEが最近起こったことを書くブログ

AWS Data Pipelineがよくわからなかったので、調べてみたことを以下に記述する。完全にメモですので、ご了承ください。

データノード
- タスクの入力データの場所または出力データが保存される場所
- 例
  - DynamoDBDataNode
  - SqlDataNode
  - RedshiftDataNod
  - S3DataNode
アクティビティ
- コンピューティングリソースと通常、入出力データノードを使用して、スケジュールに従って実行する作業の定義
- 例
  - CopyActivity
  - EmrActivity
  - HiveActivity
  - HiveCopyActivity
  - PigActivity
  - RedshiftCopyActivity
  - ShellCommandActivity
  - SqlActivity
前提条件
- アクションを実行する前に true である必要がある条件ステートメント
- 例
  - DynamoDBDataExists
  - DynamoDBTableExists
  - S3KeyExists
  - S3PrefixNotEmpty
  - Exists
  - ShellCommandPrecondition
スケジューリング
- アクティビティの実行など、予定されているイベントのタイミング
- 指定できる最も短い間隔は15分
- 例
  - Cron形式
  - 指定した間隔の最後
リソース
- パイプラインで定義する作業を実行するコンピューティングリソース
- 例
  - Ec2Resource
  - EmrCluster
アクション
- アクティビティの失敗など、指定された条件が満たされた場合にトリガーされるアクション
- 例
  - SnsAlarm
  - Terminate

AWS Black Belt Tech シリーズ 2015 - AWS Data Pipeline from Amazon Web Services Japan