SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

t-SNEについて調べてみた

t-SNEとは?となり調べたので、理解できたことをメモしておく。

書いてみて、ちゃんと理解できてない感たっぷりですが、そのまま残しておきます。

  • t-SNEは高次元のデータを二次元または三次元に圧縮して可視化する
  • 元の特徴空間上で近い点が圧縮後の次元でも近くなる
  • 従来手法と比べてよいところ
    • 類似しているデータを低次元に落としても近くに保つことができる
      • 高次元の非線形データが特に難しい
  • 二つの点がxiはxjを近接点として選択する確率を距離と定義する
    • xjはxiを中心とした正規分布に基づいて確率的に選択される
  • 低次元にしたときも元々の空間での距離となるように配置する
    • もともとの正規分布と低次元でのt分布のKLダイバージェンスを最小化するようにプロットする
    • 低次元での確率分布を考えるときは、正規分布ではなくt分布を仮定する
      • t分布を仮定することで、中距離のデータポイントをより遠くとしてモデル化できる
  • SNEとの違いとして、xi-xjの距離とxj-xiの距離が同じになるようにした

参考資料

qiita.com

blog.albert2005.co.jp