N-Gram

N-Gramとは？

　状態:- 　閲覧数:1,114 　投稿日:2017-03-17 　更新日:2017-03-23 　

与えられた文字列中のn文字の連続した文字列
・文脈や単語を考慮せず、文字数の単位（N=2の場合は2文字毎）で文字を分解する

「N文字分の文字の連なり」をキーとしてインデックスを作成する全文検索の古典的な手法
・単純に文字の並びを見出し語としてインデックスを作成
・検索に漏れが発生しない一方で、検索結果にノイズが多くなったり、インデクスのサイズが肥大化したりする傾向がある

形態素解析との比較

　閲覧数:519　投稿日:2017-03-18　更新日:2017-03-18　

キーの数が大きくなる

文字の連なりがインデックスのキーとなる
・そのため、形態素解析の分かち書きで作られた文字列キーよりもキーの数が大きくなる

辞書のメンテナンスが不要

形態素解析を行わない
・そのため、形態素解析用の辞書のメンテナンスが不要

N-Gramの種類

　閲覧数:581　投稿日:2017-03-19　更新日:2017-03-23　

3種類

ユニグラム
・1文字を元にインデックスを作成する方法

バイグラム
・2文字の並びを元にインデックスを作成する方法

トリグラム
・3文字の並びを元にインデックスを作成する方法

バイグラム方式／例1

2文字ごとに切り出す

14文字からなる文章だった場合
・13個のNgramを抽出
・添字はそのNgramの出現位置を表す

14文字からなる文章

私は今、日本に住んでいます。

13個のNgramを抽出

Array
(
[0] => 私は
[1] => は今
[2] => 今、
[3] => 、日
[4] => 日本
[5] => 本に
[6] => に住
[7] => 住ん
[8] => んで
[9] => でい
[10] => いま
[11] => ます
[12] => す。
)

バイグラム方式／例2

「これはペンです」をNを2としてNgramで分解
・「これれははペペンンでです」
※配列でなくても良い

何文字でも良い

n-gramで”abcd”という文字列をトークナイズする

N=1 : 'a', 'b', 'c', 'd';
N=2 : 'ab', 'bc', 'cd';
N=3 : 'abc', 'bcd';
N=4 : 'abcd';

転置インデックス

フレーズ検索

順位	ページタイトル抜粋	％
1	N-Gram	100
2	GNU	44
3	PNG	44
4	Chromecast	38
5	Same-origin policy	33
6	article	31
7	AirPlay	31
8	Basecamp	29
9	K-means 法（K平均法）	29
10	Markdown	29
11	Morris-Pratt algorithm	29
12	memcached	27
13	Hibernate	27
14	attribute	27
15	MPEG-DASH	27
16	Apache Solr	24
17	mod_deflate	24
18	Morris-Pratt algorithm border	23
19	CGM	22
20	Git	22
	2025/12/18 1:33 更新

順位	ページタイトル抜粋	アクセス数
1	^ ／キャレット \| 数学	15
2	エントロピーソース	4
3	UPS \| ネットワーク	3
4	2進数 \| デジタル回路	2
4	ASCII制御文字一覧表詳細	2
5	3層アーキテクチャ \| 開発	1
5	UML(開発) カテゴリー	1
5	HTTP圧縮 \| ネットワーク	1
5	curl \| HTTPクライアント(ネットワーク)	1
5	ログイン	1
5	その他カテゴリー	1
5	Ordinal Scale \| 統計	1
5	アカウント登録	1
5	ワンライナー \| プログラミング	1
5	コンテナフォーマットカテゴリー	1
5	テキストデータ \| データ形式(プログラミング)	1
5	2タグ(開始タグ＋終了タグ) ／ Markdown 記法	1
5	全文検索エンジン(検索エンジン) カテゴリー	1
5	正規表現(プログラミング) カテゴリー	1
5	スループット \| 開発	1
	2025/12/18 1:02 更新

N-Gramとは？

形態素解析との比較

キーの数が大きくなる

辞書のメンテナンスが不要

N-Gramの種類

3種類

バイグラム方式／例1

バイグラム方式／例2

何文字でも良い

コメント投稿(ログインが必要)

ゲスト … 1行コメント投稿

N-Gramとは？

形態素解析との比較

キーの数が大きくなる

辞書のメンテナンスが不要

N-Gramの種類

3種類

バイグラム方式 ／ 例1

バイグラム方式 ／ 例2

何文字でも良い

コメント投稿(ログインが必要)

ゲスト … 1行コメント投稿

バイグラム方式／例1

バイグラム方式／例2