データクラスタリング／クラスタリング／クラスタ解析／クラスター分析

データクラスタリングとは？

　状態:- 　閲覧数:1,339 　投稿日:2016-09-03 　更新日:2016-10-15 　

お互いに連携しているもの同士、人々の集団、アイデアのグループなどを発見し、可視化するための手法の一つ
・異なる性質のものが混ざり合った集団から、互いに似た性質を持つものを集め、クラスターを作る方法
・多次元空間内で集団をあぶり出す技術
・教師なし学習の一例

集団をいくつかのグループに分ける手法
・似たもの集めの手法
・「セグメンテーション」と呼ばれたりもする

「セグメント(segment)」という言葉
・「切る」という意味を語源に持つ

「クラスタ(cluster)」という言葉
・「塊」「房」「集団」「群れ」のこと
・似たものがたくさん集まっている様子を表す

クラスタリングの種類

2種類
┣階層型クラスタリング(hierarchical clustering)
┗非階層型クラスタリング

-	階層型	非階層型
分類数の事前決定	不要	必要

階層クラスター分析

　閲覧数:569　投稿日:2016-09-07　更新日:2016-10-18　

概要

最も似ている組み合わせから順番にまとまり（クラスター）にしていく方法
・近いものから順番にくくる
・途中過程が階層のように表せる

長所
・予めクラスター数を決める必要がない(近いものから順番にくくるため)

最終的には？
・樹形図（デンドログラム）ができる

処理の流れ

1-2.構成要素を表す「点」（例えば顧客ひとりひとり）が分布している中から、2点間の距離が最も近いペアを同じ集団とする
3-5.さらに、互いに距離が最も近い点同士から順にグルーピングしていく手続きをひたすら繰り返していく
6.最終的に全体をいくつかの集団にまとめることが出来る

1.全ての「点」同士の間の「距離」を計算する　（N個の点があると、N(N-1)/2回の計算をすることになる）
2.全ての「点」同士の間の「距離」を比較し、最も「距離」が小さな「点」同士を、統合した一つの「グループ」とする
3.統合して新たに作った「グループ」と、その他の「点」（または他の「グループ」）との間の距離を計算する
4.新しい「グループ」を含め、統合されずに残っている全ての「点またはグループ」同士の距離を比較し、もっとも「距離」が小さな「点またはグループ」同士を、新たに統合する
5.(3.)と(4.)を繰り返す
6.全ての「点」が一つのグループに統合された時点で終了する

非階層クラスター分析

　閲覧数:534　投稿日:2016-09-13　更新日:2016-10-13　

概要

階層的な構造を持たず、あらかじめいくつのクラスターに分けるかを決め、決めた数の塊（排他的部分集合）にサンプルを分割する方法

目的
・同じクラスターの中に属するサンプルはなるべく似通っているように、異なるクラスターに属するサンプル間ではなるべく違いがはっきりするようにすること

特徴
・サンプル数が大きいビッグデータを分析するときに適している
・「予め幾つのクラスターに分けるか」は分析者が決める必要があり、最適クラスター数を自動的には計算する方法は確立されていない

代表的手法
・K-means 法

K-means 法（K平均法）

順位	ページタイトル抜粋	％
1	データクラスタリング／クラスタリング／クラスタ解析／クラスター分析	36
2	(計算機科学における)クラスタリング	25
3	デファクトスタンダード	24
4	クローリング	22
5	コーディング	22
6	バイナリデータ	21
7	システムインテグレーター	20
8	リバースエンジニアリング	20
9	エンタープライズシステム	20
10	クヌース–モリス–プラット法	19
11	タグクラウド	18
12	テキストデータ	17
13	エントロピー／エントロピーソース	17
14	プログラミング	17
15	ランダムアクセス	17
16	転置インデックス	17
17	デザインパターン	17
18	Webスクレイピング	16
19	シーケンシャルアクセス	16
20	Google タグマネージャ	15
	2026/7/25 5:27 更新

順位	ページタイトル抜粋	アクセス数
1	モード／ RGB vs グレースケール／インデックス化カラー画像	8
2	プログラミング用語	3
3	データ（ファイル）の形式 \| データ形式(プログラミング)	2
3	ゲーム分野においては？／ 3次元グラフィックス分野においては？／プログラミング分野においては？／測量分野においては？／思考法分野においては？	2
3	前提／導入メリット	2
3	クヌース–モリス–プラット法 \| 探索アルゴリズム(アルゴリズム)	2
3	Markdown \| 言語	2
3	全文検索エンジン(検索エンジン) カテゴリー	2
3	Flash Video \| コンテナフォーマット	2
3	Cross-Origin Resource Sharing \| HTTP(ネットワーク)	2
4	用語の違いLink	1
4	最初に／最終的には／分類一覧	1
4	JavaScript	1
4	Grep	1
4	more	1
4	CentOS7	1
4	クローラ \| 検索エンジン	1
4	正規表現の種類(歴史)	1
4	1タグ(終了タグが存在しないタグ) ／ Markdown 記法	1
4	導入メリット／静的動的	1
	2026/7/25 5:05 更新

データクラスタリングとは？

クラスタリングの種類

階層クラスター分析

概要

処理の流れ

非階層クラスター分析

概要

コメント投稿(ログインが必要)

ゲスト … 1行コメント投稿