最近のAWS関係の勉強で不明点をTwitterにメモったことをまとめておく
ひとまず、Tweetを張って追加で調べたほうがいいことを考える
機械学習周り
SageMaker、Kinesisあたりでいろいろと新しいことを知ったが、整理できてない感が。。。
SageMaker
SageMakerはネットワーク周りと、独自コンテナの作り方がよく分かってなかった。 このあたりをもっと勉強したい
SageMakerの学習環境・デプロイ先をローカルにできるのを知らなった。ローカルモードちゃんと理解しないと。https://t.co/3zFAvNnf4m
— loner49th (@loner49th) February 14, 2021
SageMakerノートブックインスタンスのネットワーク構成全然分かってなかった。https://t.co/xnzmPD2fdLhttps://t.co/zzHChu6TEH
— loner49th (@loner49th) March 20, 2021
AWS SageMaker上で独自の学習コンテナを構築時の構成が理解できてない
— loner49th (@loner49th) March 28, 2021
- /opt/ml/inputの中にハイパーパラメータのファイルが入る
- /opt/ml/modelの中に構築されたモデルが入る
- PATHさえ通せば、訓練と推論のファイルはどこにおいてもよい?https://t.co/zUhSl5Mu8Chttps://t.co/5piOcjnlBW
SageMakerマネージドコンテナの中にインターネットに出れないと使えないものがあるらしい
— loner49th (@loner49th) April 4, 2021
・Chainer
・PyTorch
・Scikit-learn
・SageMaker Reinforcement Learninghttps://t.co/ZknHuj61Fc
SageMakerでCreateRoleすると、名前に「 sagemaker 」を含むすべてのS3バケットのアクセス許可を取得したIAM ロールを作ってくれるのかhttps://t.co/WeC6eKddlc
— loner49th (@loner49th) April 10, 2021
SageMakerの組み込みアルゴリズムを使うときは、latestタグを使うと互換性の問題が発生する可能性があるので、安定版である1タグを利用するhttps://t.co/a50cUPPeZY
— loner49th (@loner49th) April 10, 2021
SageMakerとEMRを統合して利用することができる。このあたり、いまいちわかってないな。
— loner49th (@loner49th) April 18, 2021
SageMakerEstimatorを使って、EMRで前処理したデータをSageMakerで処理している?https://t.co/Fulg2qO2wShttps://t.co/FHYTLBrr9J
Kinesis
Kinesisはそもそもどんなサービスかすら分かってなかったことからすると、 大分理解が深まったが、まだまだ理解が浅い
Kinesisは、Lambdaと連携できる
Kinesis Data Analyticsの出力をLambdaにできるのか。やはりKinesis周り全然分かってない。。。https://t.co/m98Q0kwalF
— loner49th (@loner49th) March 27, 2021
メモ
— loner49th (@loner49th) April 18, 2021
Amazon Kinesis Data FirehoseでのLambdaを用いたデータ変換について
Lambdaからの戻り値には以下の値が必要
・レコードID
・レコードのデータ変換のステータス
・base64 エンコード後の変換されたデータペイロードhttps://t.co/8EKrinONms
Kinesisデータストリームからの読み取りの方法は良く忘れるので、メモ
— loner49th (@loner49th) April 3, 2021
・AWS Lambda
・Kinesis Data Analytics
・Kinesis Data Firehose
・KCLを利用するhttps://t.co/0OhjKuVIIp
メモ
— loner49th (@loner49th) April 18, 2021
Kinesis Data Firehoseで入力レコードの変換ができる。変換できる形式はJSON→Parquet or ORChttps://t.co/44UY6ZcJ2B
メモ
— loner49th (@loner49th) April 18, 2021
Kinesis Data Firehoseは以下に配信できる
・Amazon S3
・Amazon Redshift
・Amazon Elasticsearch Service
・Splunk
・HTTP エンドポイント送信先
配信先により、データ配信の失敗の処理(再試行期間、失敗時の保存先)が異なるため注意する。https://t.co/d15CQfHNMo
Glue
GlueのFindMatchesで重複レコードを識別できるのは便利かもhttps://t.co/jfEAmULdVQhttps://t.co/4RrWY61DyO
— loner49th (@loner49th) March 28, 2021
EMR
EMRFSはS3をHDFSのように利用できる実装と考えればよいのだろうか
— loner49th (@loner49th) March 28, 2021
以下のスライドをちゃんと読めば理解できそうhttps://t.co/PFsnlUX4ur
Lake Formation
Lake Formation、全然分かってなかったけども以下の機能がある?
— loner49th (@loner49th) April 3, 2021
・ブループリント機能を利用して、様々なデータソースから簡単にS3にデータを取り込む
・データカタログへのアクセス管理ができるhttps://t.co/iHNK53IKSf
Databrew
DataBrewのプロファイルジョブ、どういう統計情報が見れるか気になるなhttps://t.co/dUKHDJaWdy
— loner49th (@loner49th) February 20, 2021
AWS Glue DataBrewとAmazon SageMaker Data WranglerはどちらもGUIでデータ加工できそうだけども違いがいまいちわかってない。ドキュメントを読まなければ。https://t.co/wFK7SuZr8Vhttps://t.co/B0NC1pUX5S
— loner49th (@loner49th) February 7, 2021
Databrewまたできることが増えた。やはり一度試してみるべきかhttps://t.co/DmfBxSi2me
— loner49th (@loner49th) March 6, 2021
Glue DataBrewがJDBC接続に対応して、Redshiftなど様々データベースのデータはGUIで加工できるようになっていたらしいhttps://t.co/plNOaaqsEV
— loner49th (@loner49th) April 5, 2021
その他インフラ周り
Amazon FSx for Lustreはフルマネージドな高機能ストーレージ。SageMakerでも利用できる。このあたり、全然分かってないな。https://t.co/nIL2pmsvcB
— loner49th (@loner49th) April 11, 2021
AWSでの機械学習プロジェクトで使うサービスがまとまってる気がする。https://t.co/4VI5YJhGDI
— loner49th (@loner49th) February 26, 2021
その他
AWS Perspectiveの実装ガイド、後で読んでみよ。
— loner49th (@loner49th) February 18, 2021
アカウント内のデータからアーキテクチャ図が作れるのかなり便利な気がする。https://t.co/SBuLHnxbek
メモ。AWSで機械学習をマスターするhttps://t.co/BRDbPoH18K
— loner49th (@loner49th) February 28, 2021
builders.flash、自分が知りたい情報が多そう。ひとまずメモhttps://t.co/nxem0fYm6f
— loner49th (@loner49th) March 22, 2021
AWS Lambdaの中を知るにはものすごくありがたい記事。動画も時間があったら見よう。https://t.co/7q8NduKz9l
— loner49th (@loner49th) April 4, 2021
もはやAWSですらないメモ
BLEUスコア全然分かってなかったので調べてみたけども、こんな理解であっているのだろうか。
— loner49th (@loner49th) March 28, 2021
- 人間が作った参照訳と機械翻訳を比較して評価
- 0から1までの値でスコアが出る
- スコアは、以下で評価
- 機械翻訳のnグラムと参照訳のnグラムの類似度
- 機械翻訳が参照訳と比べて短すぎないか
これをきっかけにちゃんと復習する