Comments
Description
Transcript
多変量解析による分析手法について
参考資料3 多変量解析による分析手法について 1.クラスター分析 多変量解析の 1 つで、対象物(データの集まり)をサンプルの類似度(距離) によって、いくつかのグループ(クラスター)に分けるデータ分析/分類手法、 あるいはそのアルゴリズムの総称。特にデータを外的基準なしに自動的、定量 的に分類する数学的方法をいう。 具体的な手順としては、まず類似性の定義を行ってサンプルの類似度を数値 化する。そこからサンプルそれぞれの距離を算出し、それに応じてサンプル同 士をまとめ(クラスタリング)、クラスター間の距離も計算する。距離の測定方 法としては、ユークリッド距離、ユークリッド平方距離、標準化ユークリッド 距離、ミンコフスキー距離、マハラノビスの距離などがある。 クラスタリング手法(アルゴリズム)も、分析や用途に応じてさまざまなも のが提唱されており、その分類もいろいろあるが階層的と非階層的で説明する ことが多い。階層的方法には、最短距離法、最長距離法、メジアン法、重心法、 群平均法、ウォード法、可変法などがあり、非階層的方法には、K-Means 法 (c-Means 法)、自己組織化マップ(Kohonen ネットワーク)などがある。 クラスター分析はもともと、生物分類学における数量表形学の“分類手法” として生まれ育ったものだが、現在では一般的な数理統計手法として心理学・ 社会学・認知科学から、経営分析、マーケティング、各種製品開発まで幅広く 使われている。 【参考文献】 『クラスター分析』 ジョン・A・ハーティガン=著/西田春彦=訳/マイクロソフトウェ ア/1983 年 8 年(『Clustering Algorithms』の邦訳) 『クラスター分析とその応用』 マイケル・R・アンダーバーグ=著/西田英郎=監訳/内 田老鶴圃/1988 年 12 月(『Cluster Analysis for Applications』の邦訳) 『クラスター分析』 上田尚一=著/朝倉書店/2003 年 1 月 2.対応(コレスポンデンス)分析 多次元集計されたデータを多次元空間にマッピングして、データ要素同士の 関係性を視覚的に表現する多変量解析の 1 つ。一般には、2 次元の行列(分割表、 クロス集計表)の行要素(サンプル)と列要素(カテゴリ)に定性データが与 えられているとき、同一のサンプルに反応したカテゴリ同士、同一のカテゴリ に反応したサンプル同士を集め、それを空間に配置するのに適した原点(座標) を算出。これに基づいて散布図(ポジショニングマップ)を作成して要素をプ ロットする。 類似度・関係性の強い要素同士は近くに、弱い要素同士は遠くにプロットさ れる(ただし、相対的な関係である)。このとき、軸がクロスする原点付近にプ ロットされる要素は比較的特徴が薄いと解釈できる。直観的・感覚的にデータ の傾向を把握できることもあって、ブランドポジショニング分析や消費者特性 分析、パーセプションマップの作成など、マーケティング分野でよく用いられ る。 コレスポンデンス分析は、1960 年代にパリ第 6 大学のジャン=ポール・ベン ゼクリ(Jean-Paul Benzécri)が多次元の質的データを対象とした主成分分析 型 手 法 と し て 考 案 し た 。 フ ラ ン ス 語 で は 「 AFC ( analyse factorielle des correspondances)」という。1970 年代に「CA(correspondence analysis) 」と して英語圏に紹介されると、統計解析ソフトに搭載されるなど世界に広まった。 数理的には数量化 III 類、双対尺度法などと同種の手法である。 【参考文献】 『Excel で学ぶコレスポンデンス分析』 高橋信=著/オーム社開発局=編/オーム社/ 2005 年 情報出典: http://www.atmarkit.co.jp/im/terminology/