これも何度も調べることになりがちな、TF-IDFについて調べたので、 メモを残しておく
TF-IDF
- いくつかの文書があるときに、ある文書にとって重要な単語が何かを数値化する手法
- この後記述するTFとIDFの乗算で計算する
TF
- ある文書における、ある単語の出現頻度
- 高いほどある文書で何度も現れる単語であるので、その単語が文書にとって重要である可能性が高い
IDF
- ある単語の文書への出現頻度の逆数
- 高いほど、その単語はその文書でしか現れないことを示すため、ある文書にとって大事な単語である可能性が高い