AWS Data Pipelineがよくわからなかったので、調べてみたことを以下に記述する。 完全にメモですので、ご了承ください。
AWS Data Pipelineとは
- データの移動と変換をスケジュールベースで自動化するサービス
- 1日に一回程度発生するデータの回収やバックアップなどが想定されるユースケース
パイプラインのコンポーネント
- データノード
- タスクの入力データの場所または出力データが保存される場所
- 例
- DynamoDBDataNode
- SqlDataNode
- RedshiftDataNod
- S3DataNode
- アクティビティ
- コンピューティングリソースと通常、入出力データノードを使用して、スケジュールに従って実行する作業の定義
- 例
- CopyActivity
- EmrActivity
- HiveActivity
- HiveCopyActivity
- PigActivity
- RedshiftCopyActivity
- ShellCommandActivity
- SqlActivity
- 前提条件
- アクションを実行する前に true である必要がある条件ステートメント
- 例
- DynamoDBDataExists
- DynamoDBTableExists
- S3KeyExists
- S3PrefixNotEmpty
- Exists
- ShellCommandPrecondition
- スケジューリング
- アクティビティの実行など、予定されているイベントのタイミング
- 指定できる最も短い間隔は15分
- 例
- Cron形式
- 指定した間隔の最後
- リソース
- パイプラインで定義する作業を実行するコンピューティングリソース
- 例
- Ec2Resource
- EmrCluster
- アクション
- アクティビティの失敗など、指定された条件が満たされた場合にトリガーされるアクション
- 例
- SnsAlarm
- Terminate
参考資料
www.slideshare.net