SEが最近起こったことを書くブログ

ITエンジニアが試したこと、気になったことを書いていきます。

TF-IDFについて調べたことを簡単にメモ

これも何度も調べることになりがちな、TF-IDFについて調べたので、 メモを残しておく

  • TF-IDF

    • いくつかの文書があるときに、ある文書にとって重要な単語が何かを数値化する手法
    • この後記述するTFとIDFの乗算で計算する
  • TF

    • ある文書における、ある単語の出現頻度
    • 高いほどある文書で何度も現れる単語であるので、その単語が文書にとって重要である可能性が高い
  • IDF

    • ある単語の文書への出現頻度の逆数
    • 高いほど、その単語はその文書でしか現れないことを示すため、ある文書にとって大事な単語である可能性が高い

参考資料

qiita.com