tf-idf

集合知

tf-idfとは?

 状態:-  閲覧数:915  投稿日:2016-06-04  更新日:2017-03-17  
文書中に出現した特定の単語がどのくらい特徴的であるかを識別するための指標のこと
・単語の出現頻度TF(Term Frequency)と、全文書中の単語の集中度合いIDF(Inverse Document Frequency)を掛け合わせることにより適合度を算出する
・情報探索やテキストマイニングなどの分野で利用される

情報検索や文章要約などの分野で最も有名で良く利用される、重み付けの方法
・文書中の単語に関する重みの一種
・tf(英: Term Frequency、それぞれの文書内における単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つの指標にもとづいて計算される
・キーワード抽出や全文検索エンジンの重み付けなどに応用される

tf重み と idf重み の 積 で与えられる
・tf値 と idf値 を掛けるだけで算出
・結果値は、文書中のタームの出現頻度と、文書集合中のタームの希少さに応じて増加
tfidf = tf × idf


tf / idf

 閲覧数:269 投稿日:2016-06-04 更新日:2016-06-04 

tfとは?


term frequency
・ある文書の中で特定の単語が出現した頻度
・ターム頻度
・「ある単語tがある文書d中に現れる回数」を、「文書d中の全ての単語数(重複を許す)」で割った値を意味する


idfとは?


inverse document frequency
・document frequency(文書頻度)をinverse(逆数)にしたもの
・単語(ターム)tの情報性(informativeness)を測る尺度

df(document frequency)
・ある単語の文書頻度

Twitter検索結果。「tf-idf」に関する最新ツイート

VVani / allegrogiken @vvanitter82

ピアソンの積率相関係数

コメント投稿(ログインが必要)



類似度ページランキング
順位 ページタイトル抜粋
1 deflate 46
2 Git 44
3 mod_deflate 35
4 httpie 33
5 latest build 33
6 stable build 33
7 article 31
8 Git BASH 29
9 Hibernate 27
10 attribute 27
11 REPL / Read-Eval-Print-Loop 24
12 ソフトリンク (Soft Link) 24
13 hiddenフィールド 24
14 Flash Video 24
15 Morris-Pratt algorithm border 23
16 activeCollab 22
17 Morris-Pratt algorithm 21
18 Ordinal Scale 21
19 Hyper Estraier 20
20 gzip 20
2023/2/06 2:08 更新