Amazon QuickSight のML インサイトについて簡単に調べてみたので、メモをしておく
MLインサイトでできること
- ML を使用した異常検出
- ランダムカットフォレストにて、異常検知する
- ML を使用した予測
- 異常なデータポイントを除外し、予測する
- 自動説明文
- 説明文が埋め込まれた豊富なダッシュボードを作成して、データのストーリーをわかりやすい言葉で伝えることができる
ランダムカットフォレストとは
- ランダムフォレスト (RF) アルゴリズムの特殊タイプ
- クラスター分析を使用して時系列データのスパイク、周期性または季節性の中断、データポイントの例外を検出するために使う
- 処理の流れ
- . データをサンプリングする
- . 超平面を作成する次元を選択する
- ランダムだが分散が大きい次元が選択されやすい
- . 超平面の中でランダムにカットの位置を決める
- . カットした場所でツリーを分けてサブツリーを作成する
- . 2~4を繰り返し、各ツリーが1サンプルになるまで繰り返す
- . 5が完了したら、1つのツリー完成。1~5を繰り返しハイパーパラメータの数のツリーを作成する
- 各ツリーの深さの平均値を各データポイントのスコアとし、深さが浅いデータポイントを異常値とする
- 異常値の場合は、ツリーの浅い部分に現れる可能性高いことを利用
感想
いまいち、ランダムカットフォレストで予測する際にどのように動くかが理解できていない。 (最も異常値から遠いデータポイントを予測値としている??) さらなる勉強が必要です。。。