K-means 法のアルゴリズム | プログラミング用語

カテゴリー: 統計　閲覧数:538　配信日:2016-08-25 09:32

一般的な流れ

データ数
・n

クラスタ数
・k
・まず事前に分割したいクラスター数を指定

1.シードをランダム選出
・サンプルの中から、予め設定した「分割したいクラスター数と同じ数のサンプル」をランダムに選出
・選出したサンプルをシード（seed = 種）と言う

2.各サンプルと各シードに対する距離を計算。各サンプルに最も近いシードを求める
・各サンプルを、「最も近いシードと同じクラスターに属する」と仮決定

3.クラスターの重心という架空の点をそれぞれ求める
・重心は、各クラスターの平均値をもとに算出

4.2度目のクラスター分け
・この重心を新しいシードとして、最初と同様に、それぞれのサンプルを「最も近いシード」と「同じクラスター」に属するよう「仮クラスター分け」

5.2度目の各クラスター重心を求める
・クラスター構成が変わったため、そのクラスターの平均値を表わす重心も移動

6.以下、「重心を求め、クラスタリングをしなおすという手法」を繰り返せなくなるまで継続
・全てのクラスタ割り当てが変化しなかった場合、あるいは変化量が事前に設定した一定の閾値を下回った場合に、収束したと判断して処理を終了する
・そうでない場合は新しく割り振られたクラスタから重心を再計算して上記の処理を繰り返す

結果

最初のクラスタのランダムな割り振りに大きく依存する
・1回の結果で最良のものが得られるとは限らない

対策案
1.何度か繰り返して行って最良の結果を選択する手法
2.k-means++法のように最初のクラスタ中心点の振り方を工夫する手法

順位	ページタイトル抜粋	アクセス数
1	^ ／キャレット \| 数学	15
2	UPS \| ネットワーク	3
2	エントロピーソース	3
3	ASCII制御文字一覧表詳細	2
4	2タグ(開始タグ＋終了タグ) ／ Markdown 記法	1
4	全文検索エンジン(検索エンジン) カテゴリー	1
4	正規表現(プログラミング) カテゴリー	1
4	スループット \| 開発	1
4	統計カテゴリー	1
4	クラス図 \| UML(開発)	1
4	4.製造・実装	1
4	機械学習カテゴリー	1
4	シェル \| Linux	1
4	パーセプトロン \| アルゴリズム	1
4	分かち書き \| 形態素解析	1
4	Headless Browsers \| プログラミング	1
4	Morris-Pratt algorithm border \| 探索アルゴリズム(アルゴリズム)	1
4	ユークリッド距離 \| 集合知	1
4	プログラミング言語比較 \| プログラミング	1
4	ベクトル空間 \| 数学	1
	2025/12/19 1:02 更新

順位

ページタイトル抜粋

アクセス数

2タグ(開始タグ＋終了タグ) ／ Markdown 記法

全文検索エンジン(検索エンジン) カテゴリー

Headless Browsers | プログラミング

Morris-Pratt algorithm border | 探索アルゴリズム(アルゴリズム)

ユークリッド距離 | 集合知

プログラミング言語比較 | プログラミング

ベクトル空間 | 数学

2025/12/19 1:02 更新

順位	ページタイトル抜粋	アクセス数
1	Flash Video \| コンテナフォーマット	3717
2	プログラミング用語	1443
3	YouTube \| API	1295
4	ベクトル \| 数学	1292
5	curl \| HTTPクライアント(ネットワーク)	1263
6	ユースケース \| 開発	1256
7	ルーター \| ネットワーク	1172
8	チェックアウト \| バージョン管理システム(開発)	1025
9	デーモン \| Linux	988
10	ネットワークアドレス \| ネットワーク	955
11	オーバーヘッド \| プログラミング	952
12	リバースエンジニアリング \| 開発	925
13	ASCII制御文字一覧表詳細	903
14	マッピング \| 開発	899
15	ニューロン \| 機械学習	892
16	フィルター \| 開発	872
17	スタック \| プログラミング	842
18	プロキシ \| ネットワーク	841
19	ファイルシステム \| 開発	835
20	分かち書き \| 形態素解析	834
	2025/12/19 1:02 更新

順位

ページタイトル抜粋

アクセス数

Flash Video | コンテナフォーマット

3717

プログラミング用語

1443

YouTube | API

1295

ベクトル | 数学

1292

curl | HTTPクライアント(ネットワーク)