tf-idfとは?
状態:-
閲覧数:1,147
投稿日:2016-06-04
更新日:2017-03-17
文書中に出現した特定の単語がどのくらい特徴的であるかを識別するための指標のこと
・単語の出現頻度TF(Term Frequency)と、全文書中の単語の集中度合いIDF(Inverse Document Frequency)を掛け合わせることにより適合度を算出する
・情報探索やテキストマイニングなどの分野で利用される
情報検索や文章要約などの分野で最も有名で良く利用される、重み付けの方法
・文書中の単語に関する重みの一種
・tf(英: Term Frequency、それぞれの文書内における単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つの指標にもとづいて計算される
・キーワード抽出や全文検索エンジンの重み付けなどに応用される
tf重み と idf重み の 積 で与えられる
・tf値 と idf値 を掛けるだけで算出
・結果値は、文書中のタームの出現頻度と、文書集合中のタームの希少さに応じて増加
・単語の出現頻度TF(Term Frequency)と、全文書中の単語の集中度合いIDF(Inverse Document Frequency)を掛け合わせることにより適合度を算出する
・情報探索やテキストマイニングなどの分野で利用される
情報検索や文章要約などの分野で最も有名で良く利用される、重み付けの方法
・文書中の単語に関する重みの一種
・tf(英: Term Frequency、それぞれの文書内における単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つの指標にもとづいて計算される
・キーワード抽出や全文検索エンジンの重み付けなどに応用される
tf重み と idf重み の 積 で与えられる
・tf値 と idf値 を掛けるだけで算出
・結果値は、文書中のタームの出現頻度と、文書集合中のタームの希少さに応じて増加
tfidf = tf × idf
tf / idf
tfとは?
term frequency
・ある文書の中で特定の単語が出現した頻度
・ターム頻度
・「ある単語tがある文書d中に現れる回数」を、「文書d中の全ての単語数(重複を許す)」で割った値を意味する
idfとは?
inverse document frequency
・document frequency(文書頻度)をinverse(逆数)にしたもの
・単語(ターム)tの情報性(informativeness)を測る尺度
df(document frequency)
・ある単語の文書頻度