データクラスタリングとは?
状態:-
閲覧数:1,100
投稿日:2016-09-03
更新日:2016-10-15
お互いに連携しているもの同士、人々の集団、アイデアのグループなどを発見し、可視化するための手法の一つ
・異なる性質のものが混ざり合った集団から、互いに似た性質を持つものを集め、クラスターを作る方法
・多次元空間内で集団をあぶり出す技術
・教師なし学習の一例
集団をいくつかのグループに分ける手法
・似たもの集めの手法
・「セグメンテーション」と呼ばれたりもする
「セグメント(segment)」という言葉
・「切る」という意味を語源に持つ
「クラスタ(cluster)」という言葉
・「塊」「房」「集団」「群れ」のこと
・似たものがたくさん集まっている様子を表す
2種類
┣階層型クラスタリング(hierarchical clustering)
┗非階層型クラスタリング
・異なる性質のものが混ざり合った集団から、互いに似た性質を持つものを集め、クラスターを作る方法
・多次元空間内で集団をあぶり出す技術
・教師なし学習の一例
集団をいくつかのグループに分ける手法
・似たもの集めの手法
・「セグメンテーション」と呼ばれたりもする
「セグメント(segment)」という言葉
・「切る」という意味を語源に持つ
「クラスタ(cluster)」という言葉
・「塊」「房」「集団」「群れ」のこと
・似たものがたくさん集まっている様子を表す
クラスタリングの種類
2種類
┣階層型クラスタリング(hierarchical clustering)
┗非階層型クラスタリング
- | 階層型 | 非階層型 |
---|---|---|
分類数の事前決定 | 不要 | 必要 |
階層クラスター分析
概要
最も似ている組み合わせから順番にまとまり(クラスター)にしていく方法
・近いものから順番にくくる
・途中過程が階層のように表せる
長所
・予めクラスター数を決める必要がない(近いものから順番にくくるため)
最終的には?
・樹形図(デンドログラム)ができる
処理の流れ
1-2.構成要素を表す「点」(例えば顧客ひとりひとり)が分布している中から、2点間の距離が最も近いペアを同じ集団とする
3-5.さらに、互いに距離が最も近い点同士から順にグルーピングしていく手続きをひたすら繰り返していく
6.最終的に全体をいくつかの集団にまとめることが出来る
1.全ての「点」同士の間の「距離」を計算する (N個の点があると、N(N-1)/2回の計算をすることになる)
2.全ての「点」同士の間の「距離」を比較し、最も「距離」が小さな「点」同士を、統合した一つの「グループ」とする
3.統合して新たに作った「グループ」と、その他の「点」(または他の「グループ」)との間の距離を計算する
4.新しい「グループ」を含め、統合されずに残っている全ての「点またはグループ」同士の距離を比較し、もっとも「距離」が小さな「点またはグループ」同士を、新たに統合する
5.(3.)と(4.)を繰り返す
6.全ての「点」が一つのグループに統合された時点で終了する
非階層クラスター分析
概要
階層的な構造を持たず、あらかじめいくつのクラスターに分けるかを決め、決めた数の塊(排他的部分集合)にサンプルを分割する方法
目的
・同じクラスターの中に属するサンプルはなるべく似通っているように、異なるクラスターに属するサンプル間ではなるべく違いがはっきりするようにすること
特徴
・サンプル数が大きいビッグデータを分析するときに適している
・「予め幾つのクラスターに分けるか」は分析者が決める必要があり、最適クラスター数を自動的には計算する方法は確立されていない
代表的手法
・K-means 法