tf-idf

集合知

tf-idfとは?

 状態:-  閲覧数:1,060  投稿日:2016-06-04  更新日:2017-03-17  
文書中に出現した特定の単語がどのくらい特徴的であるかを識別するための指標のこと
・単語の出現頻度TF(Term Frequency)と、全文書中の単語の集中度合いIDF(Inverse Document Frequency)を掛け合わせることにより適合度を算出する
・情報探索やテキストマイニングなどの分野で利用される

情報検索や文章要約などの分野で最も有名で良く利用される、重み付けの方法
・文書中の単語に関する重みの一種
・tf(英: Term Frequency、それぞれの文書内における単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つの指標にもとづいて計算される
・キーワード抽出や全文検索エンジンの重み付けなどに応用される

tf重み と idf重み の 積 で与えられる
・tf値 と idf値 を掛けるだけで算出
・結果値は、文書中のタームの出現頻度と、文書集合中のタームの希少さに応じて増加
tfidf = tf × idf


tf / idf

 閲覧数:333 投稿日:2016-06-04 更新日:2016-06-04 

tfとは?


term frequency
・ある文書の中で特定の単語が出現した頻度
・ターム頻度
・「ある単語tがある文書d中に現れる回数」を、「文書d中の全ての単語数(重複を許す)」で割った値を意味する


idfとは?


inverse document frequency
・document frequency(文書頻度)をinverse(逆数)にしたもの
・単語(ターム)tの情報性(informativeness)を測る尺度

df(document frequency)
・ある単語の文書頻度


ピアソンの積率相関係数

コメント投稿(ログインが必要)



類似度ページランキング
順位 ページタイトル抜粋
1 tf-idf 83
2 deflate 46
3 Git 44
4 mod_deflate 35
5 stable build 33
6 latest build 33
7 httpie 33
8 article 31
9 Git BASH 29
10 Hibernate 27
11 attribute 27
12 REPL / Read-Eval-Print-Loop 24
13 ソフトリンク (Soft Link) 24
14 hiddenフィールド 24
15 Flash Video 24
16 Morris-Pratt algorithm border 23
17 activeCollab 22
18 Morris-Pratt algorithm 21
19 Ordinal Scale 21
20 Hyper Estraier 20
2024/3/29 21:49 更新