...

社会調査データを用いたポジショニング分析の基礎 [2015 年 2 月版]

by user

on
Category: Documents
94

views

Report

Comments

Transcript

社会調査データを用いたポジショニング分析の基礎 [2015 年 2 月版]
Nara Women's University Digital Information Repository
Title
社会調査データを用いたポジショニング分析の基礎 【2015年2月
版】
Author(s)
林, 拓也
Citation
奈良女子大学 文学部 人文社会学科 林拓也先生 講義テキスト
Issue Date
2015-02
Description
URL
http://hdl.handle.net/10935/2897
Textversion
publisher
This document is downloaded at: 2017-03-30T11:49:28Z
http://nwudir.lib.nara-w.ac.jp/dspace
社会調査データを用いたポジショニング分析の基礎
【2015 年 2 月 改訂版】
林 拓也
(奈良女子大学研究院 人文科学系)
目
次
Ⅰ ポジショニング分析
1 ポジショニング分析の概要 .
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.1
1.1. ポジショニング分析とは
1.2. ポジショニング分析における次元縮約と次元空間
1.3. 調査データに基づく分析例
1.4. 分析の基本手順と考え方
1.5. データ特性と解析手法
1.6. 固有値・特異値の導出
1.7. 分析プログラム
2 主成分分析 .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 16
2.1. 解析用データ:共分散行列
2.2. 次元抽出と説明力:固有値と寄与率
2.3. 個体・変数の布置と次元解釈
2.4. 主成分得点を用いた事後分析
2.5. 因子分析との異同
2.6. 分析プログラム R による実践
3 対応分析 .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 27
3.1. カテゴリー間の距離:カイ二乗距離
3.2. 解析用データ:規準化度数偏差と慣性
3.3. 次元抽出と説明力:特異値分解と寄与率
3.4. カテゴリー布置
3.5. 現実データへの適用
3.6. 多重対応分析
3.7. 補足事項
3.8. 分析プログラム R による実践
4 多次元尺度構成法(MDS) .
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 40
4.1. 解析用データ:対象間の距離・類似度
4.2. 初期布置と点間距離
4.3. 不適合度の指標ストレスと布置の更新
4.4. 次元数の決定と対象布置
4.5. 他の特性値・方法を用いた追加分析
4.6. 補足事項
4.7. 分析プログラム R による実践
5 選好度の多次元尺度構成法(MDPREF) .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 56
5.1. 対象布置と評定ベクトル
5.2. 次元抽出と説明力:特異値分解と VAF 比・再現性
5.3. 対象布置・個人布置
5.4. 現実データへの適用
5.5. 追加分析
5.6. 補足事項
5.7. 分析プログラム R による実践
Ⅱ ポジショニング分析と関連する多変量解析
6 因子分析 .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 70
6.1. 分析モデル
6.2. 分析手順 1 因子数の決定
6.3. 分析手順 2 因子の抽出
6.4. 分析手順 3 軸の回転
6.5. 分析後の処置:解釈と得点化
6.6. 応用的手法
6.7. 分析プログラム R による実践
7 クラスター分析① 階層的凝集法 .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.94
7.1. 距離データに基づくグループ化
7.2. クラスターの連結方法
7.3. クラスター数の選択
7.4. 個体×変数データに基づく距離/類似測度
7.5. その他の連結方法
7.6. 分析プログラム R による実践
8 クラスター分析② k-means 法 .
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.110
8.1. 概要と手順
8.2. 初期値と分類結果の評価
8.3. 大規模データへの適用
8.4. 補足事項
8.5. 応用的手法:潜在クラス分析
8.6. 分析プログラム R による実践
9 回帰分析① 基本モデル .
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.122
9.1. 線形回帰式による予測
9.2. ダミー変数:離散的な独立変数
9.3. 重回帰分析
9.4. 関係する統計量と結果の提示
9.5. 回帰分析の留意点
9.6. 分析プログラム R による実践
10 回帰分析② 応用モデル .
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.144
10.1. 交互作用効果
10.2. 分散分析と一般線形モデル
10.3. 分析プログラム R による実践
11 回帰分析③ ロジスティック回帰モデル .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.157
11.1.“線形”回帰分析とロジスティック回帰分析
11.2. ロジットを予測する回帰式
11.3. 最尤推定法とモデル適合度
11.4. 多項ロジスティック回帰分析
11.5. 補足事項
11.6. 分析プログラム R による実践
引用文献 .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.182
上記以外の推奨書籍 .
.
.
.
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.184
Ⅰ ポジショニング分析
1 ポジショニング分析の概要
1.1. ポジショニング分析とは
ポジショニング分析(positioning analysis)とは、ある特定の分析手法を指すのではなく、
分析対象の位置関係を表すことを主な目的とした手法の総称である。この名称は、主とし
てマーケティング分野において用いられることが多く、商品の各種ブランドに対する消費
者の位置づけをデータから明らかにする分析などが、この応用例として挙げられる(e.g. 岡
太・守口 2010、中山 2009)。社会学における計量研究において、この名称が用いられるこ
とは少ないが、上記のような対象の位置関係を表すことが可能な分析 ――主成分分析や対
応分析、多次元尺度構成法など―― は、実際にはよく行われている。つまり、個々の分析
手法としてはよく知られ、またよく用いられているのである。こうした手法を「ポジショ
ニング分析」としてまとめて扱うことには、次の理由がある。まず第一に、上述したよう
な分析目的が共通しているという点である。もう少し詳しく述べると、分析目的は、(1)デ
ータ構造を少数の独立した次元に縮約し、(2)複数の対象を当該の次元空間上に位置づける
という 2 点に集約できる。そして第二の理由は、これら手法における分析手順も共通する
部分が多いという点である。具体的には、①解析用データ準備→②次元抽出→③再現性・
適合度評価→④対象布置と次元解釈→⑤事後分析・布置という流れで分析が展開される。
これらは、多変量解析として頻繁に用いられている他の分析手法と異なる特徴である。
たとえば
「予測」
型の分析手法 ――重回帰分析をはじめとする線形モデルなど―― では、
データとして利用する変数を独立変数と従属変数を区分した上で、前者から後者を予測す
るためのモデルを構築する。社会学の研究においては、着目する社会現象や人間の行動・
意識を従属変数とし、それに影響を及ぼすと想定される他の特性・属性などの要因を独立
変数としてモデル化することが多い。これに対して、ポジショニング分析では、独立/従
属変数の区別はせずに、対象とする変数を一括して扱い、上述の手順によって主要次元を
抽出する。また、同じように独立/従属変数の区別をしない手法の中でも、上記の目的と
しない手法も多く存在する。たとえばクラスター分析は、類似する対象を 1 つの塊(クラ
スター)としてグループ化するための手法であるが、そこでは次元空間上に対象の位置関
係を表すことはなされない。以上のように、ポジショニング分析は、多くの解析手法の中
でも先述した目的に特化した諸手法であると考えることができる。
他方で、これらに含まれる手法は、他の手法と断絶するものではないことも強調してお
きたい。たとえば、主成分分析は対象を次元空間上に表すにとどまらず、当該次元におけ
る対象の位置を得点として表した上で、次の段階では、その得点(主成分得点)を「予測」
型の手法における独立変数または従属変数として投入することも頻繁に行われる。また、
クラスター分析は対象間の距離データに基づいて行われるが、同じ形式のデータから行わ
れるポジショニング分析(多次元尺度構成法)を併用して、次元空間における対象の位置
と、クラスター分析による対象のグループ化との対応性を確認することもある。これらの
ように、ポジショニング分析はそれのみで終始するものでは必ずしもなく、とくに社会学
研究においては、それをもとに他の手法と併用することによって、いかにして社会現象や
人間行動・意識を読み解くかにかかっていると言えよう。
-1-
1.2. ポジショニング分析における次元縮約と次元空間
先にポジショニング分析の主目的として述べた、少数の次元に縮約すること、および次
元空間に位置づけることについて、
その概略的なイメージを(主成分分析を念頭に置いて)
解説しておこう。
ここに 2 つの変数 X1 と X2 があり、それぞれの個体が取る値は図表 1-1(a)
の散布図のようにばらついているとする。この 2 変数の散布図は、2 次元の空間を表して
いると言える。さて、両変数の変動はまったく無関係というわけではなく、一方(X1)が
プラスの値をとれば、もう一方(X2)もプラスになる傾向がいくらか確認できる。この場
合に、図表 1-1(b)のような 2 変数の関連を集約する(両変数の散布状態を効率良くまとめ
る)ような新たな「軸 A」を作成することによって、元の 2 次元空間をその軸による 1 次
元に縮約することが可能となる。こうした縮約は元の次元空間を完全に再現できるとは限
らないが、さまざまに想定される軸の中で、最大限の再現性をもたらす軸を導くことが、
ポジショニング分析における次元抽出の基準となるのである。
図表 1-1(a) 変数 X1 と X2 の散布図
図表 1-1(b) 「軸 A」による次元縮約
+
↑
X2
+
↑
X2
X1 → +
X1 → +
図表 1-1(c) 「軸 B」の追加
+
↑
X2
X1 → +
この再現性の大きさについては、
新たに作成される軸の長さによって表すことができる。
図表 1-1(c)には新たな軸(の候補)として「軸 B」を追加描画されているが、個体の散布
-2-
を捕捉するのに必要な軸の長さは、軸 A の方が軸 B と比べて長いことが見て取れよう。こ
のことは同時に、元の 2 次元空間における個体散布状態が、軸 A によって大きく説明でき
る(集約できる)ことも意味する。したがって、この例で 1 次元に縮約する場合には、軸
A という次元軸が採用されるのである。
図表 1-2 軸 A における個体の位置
軸A
軸 A が採用された場合の各個体の位置づけについては、図表 1-2 の通り、当該次元軸へ
下ろした垂線(点線)と交差する箇所が、軸上の値(スコア)として表される。そしてこ
れに基づいて、次のような検討が行われる。まず第一に、元の変数(X1,X2)の値と次元軸
上の値がどのような関係にあるかを確認した上で、その軸が何を表すものであるかを推定
し解釈することである。たとえば図表 1-1(b)では、元変数 X1 と軸 A、元変数 X2 と軸 A は、
いずれも正の関連(相関)にあることが確認され、このことから軸 A は両変数が合成され
た要素を表すと解釈される。そして第二に、縮約された次元軸上における個体の散布(分
散)が、元の変数から構成される次元空間における散布(分散)をどの程度再現されるか
を評価することである。図表 1-2 で示されている軸 A 上の個体分散は、軸 A が抽出される
際の基準から、最大の分散を有するものであるが、それでも元変数の値からの垂線(点線)
で表されるように、1 次元の軸だけでは再現されずに残ってしまう分散もある。元の 2 次
元空間上の分散は 2 変数 X1,X2 の分散の合計で表されるので、それを 1 つ次元軸によって
表される分散と、残ってしまう分散とに分けて、全分散に占める前者の割合が再現性の指
標として評価がなされるのである。
なお、次元軸は、元の変数と同様、プラス/マイナスの方向性をもつが、こうした方向
性は反転可能である(つまり、図表 1-1(b)での矢印の向きを逆にすることができる)。反転
によって変わる点は、軸上の個体の位置スコアについてもプラス/マイナス値が反転する
ことと、軸が何を表すのかの解釈が逆方向になることであり、これらについて注意をして
おけば、次元軸が析出された後に、たとえば軸の解釈がしやすくなるように、符号を逆に
しても良い。
1.3. 調査データに基づく分析例
さらに具体的にイメージしてもらうために、実際の調査データに基づく分析例を示して
おこう。1 つ目の例は、高齢者の保護や子供の養育・教育に関する責任を個人・家族に求
-3-
めるか、それとも国や自治体に求めるかについて、4 項目の質問に対してそれぞれ 5 段階
の回答(1:個人や家族の責任~5:国や自治体の責任)を求めたデータを利用し1、4 変数
の関連構造(つまり元は 4 次元空間)を、主成分分析によって 2 次元に縮約するというも
のである。
図表 1-3 項目間の共分散行列と相関行列
A 高齢者の生活保障
B 高齢者の医療・介護
C 子どもの教育
D 保育・育児
A
1.411
(1.000)
0.850
(0.669)
0.257
(0.190)
0.228
(0.172)
※上段は共分散行列、下段(
図表 1-4
B
0.850
(0.669)
1.141
(1.000)
0.279
(0.229)
0.229
(0.192)
C
0.257
(0.190)
0.279
(0.229)
1.307
(1.000)
0.863
(0.676)
D
0.228
(0.172)
0.229
(0.192)
0.863
(0.676)
1.247
(1.000)
)内は相関行列
抽出された次元軸と元変数との相関(ベクトル表示)
0.8
第2主成分
D 保育・育児
0.6
C 子どもの教育
0.4
0.2
第1主成分
0.0
-0.8
-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
0.8
-0.2
B 高齢者の
医療・介護
-0.4
-0.6
A 高齢者の
生活保障
-0.8
図表 1-3 は 4 変数間の関連を示したものであり、それに基づいて主成分分析を行った結
果、主要な次元が 2 つ抽出された。その次元軸と元の 4 変数との関連は相関係数によって
表され、後者のベクトルを次元空間上に表したのが図表 1-4 である。元の変数のうち、相
互に関連が高いペア(A-B:相関 r=0.669 および C-D:相関 r=0. 676)は、縮約した次元空
間においても近い位置にあることが確認できよう。この情報に基づいてそれぞれの次元軸
が解釈されるが、詳しくは、分析手続きも含めて後の章に譲る。また、元の 4 変数の個人
分散(の合計)は、最初の次元(横軸)によって 51.6%が、その次の次元(縦軸)によっ
1
この場合の 1~5 は連続変数として扱う。ただし、こうした扱いについては異論もあり、慎重に考える
必要がある。詳しくは、
【コラム 1】を参照。
-4-
て 32.2%が再現され、2 次元への縮約によって再現される割合は 83.8%にのぼった。
2 つ目の例は、回答者の就業状態(前週に仕事を行ったかどうか)と就業形態(従業上
地位 12 区分)に基づいて再構成された就業 7 類型と、性・年齢組み合わせ 12 区分との関
連構造を対応分析にかけた結果である。利用した変数は上記の 2 変数であり、その関連は
図表 1-5 の分割表(クロス集計表)のように表すことができるので、わざわざポジショニ
ング分析にかけなくても済むが、これらのように変数に含まれる値(カテゴリー)が多数
にわたる場合は、分割表だけでは関連性が理解しにくい。こうした場合に、カテゴリー間
の距離を次元空間上に表す対応分析が有効性を発揮する。
図表 1-5
性・年齢×就業類型の分割表
経営者・
役員
男 20代
男 30代
男 40代
男 50代
男 60代
男 70代
以上
女 20代
女 30代
女 40代
女 50代
女 60代
女 70代
以上
2
(1%)
6
(4%)
10
(5%)
37
(12%)
24
(9%)
9
(5%)
0
(0%)
0
(0%)
9
(3%)
15
(5%)
5
(2%)
4
(1%)
121
(4%)
常勤:
常勤:
部長・課長 係長・職長
0
(0%)
7
(4%)
36
(17%)
62
(20%)
4
(2%)
0
(0%)
0
(0%)
3
(1%)
0
(0%)
2
(1%)
0
(0%)
0
(0%)
114
(4%)
7
(4%)
45
(26%)
47
(22%)
30
(10%)
2
(1%)
0
(0%)
0
(0%)
2
(1%)
11
(4%)
2
(1%)
1
(0%)
0
(0%)
147
(5%)
常勤:
役職なし
92
(59%)
77
(45%)
70
(33%)
68
(22%)
14
(5%)
2
(1%)
70
(40%)
56
(24%)
60
(22%)
46
(15%)
8
(3%)
1
(0%)
564
(20%)
パート、
派遣
28
(18%)
7
(4%)
6
(3%)
15
(5%)
35
(14%)
7
(4%)
45
(26%)
74
(31%)
87
(32%)
77
(24%)
38
(13%)
6
(2%)
425
(15%)
自営業
7
(4%)
20
(12%)
35
(17%)
62
(20%)
43
(17%)
21
(11%)
5
(3%)
13
(6%)
29
(11%)
51
(16%)
34
(12%)
20
(7%)
340
(12%)
無職
20
(13%)
9
(5%)
6
(3%)
33
(11%)
136
(53%)
157
(80%)
54
(31%)
88
(37%)
78
(28%)
122
(39%)
199
(70%)
242
(89%)
1144
(40%)
156
171
210
307
258
196
174
236
274
315
285
273
2855
※濃いセルは、全体構成比より 5%以上高いことを示す。
カテゴリー間の距離を表すには、最大で【カテゴリー数-1】次元を要するが、異なるカ
テゴリー数を含む 2 変数の分割表を扱う場合は、それが小さい方の次元数となる(したが
って、この例では最大で 7 カテゴリー-1=6 次元)
。対応分析の結果、主要な 2 次元に縮
約され、その次元空間における各カテゴリーの位置を表したのが図表 1-6 である。先の分
割表において似たような特徴を示すカテゴリー(例.
「無職」率の高い男女 60 代・70 代以
上)が、縮約された次元空間においても近い位置にあることが確認できよう。この位置関
係に基づいて、カテゴリーのまとまりや次元軸を解釈していく。また、元の分割表におけ
る度数分散2の合計は、最初の次元(横軸)によって 59.3%が、その次の次元(縦軸)によ
って 25.2%が再現され、2 次元への縮約によって再現される割合は 84.4%にのぼった。
2
ピアソンのカイ二乗統計量の考え方に則して、各カテゴリーの期待度数からの偏差を規準化した値で
「慣性」と呼ぶ。詳しくは、後の章で解説する。
-5-
図表 1-6
対応分析結果(性・年齢×就業類型)
1.0
性・年齢
M 20
0.8
就業類型
F 20
パート、派遣
0.6
常勤:役職なし
F 30
F 40
0.4
F 50
0.2
M 30
0.0
無職
F 60
M 60
-0.2
自営業
F 70
M 40
-0.4
M 70
常勤:係長・
職長
-0.6
経営者・役員
M 50
-0.8
常勤:部長・
課長
-1.0
-1.2
-1.0
-0.8
-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
※M は男性/F は女性で、それに付帯する数値は年齢層を示す(例.M20→男 20 代)
。
【 コラム 1 】社会調査データにおける連続変数の扱いについて
連続変数の有する性質の例として、たとえば身長は通常「cm」で計測されるが、精緻
なメジャーがあれば「mm」以下も計測可能である。また、年齢も「~歳」だけでなく、
「月」や「時間」
、果ては「秒」までも単位とすることが(理論上は)可能である。他方、
個人を対象とした社会調査において、こうしたデータを実質的に得ることはきわめて困
難であるので、多くの場合、連続的な尺度としての性質を有するという「仮定」を置き、
分析を行っているのが実情である。
1.3 の分析例で示した 5 段階評定(1:個人や家族の責任~5:国や自治体の責任)の場
合も、調査から得られるデータに即せば 5 つの値が離散的に分布しているにとどまり、
各値間の測定値は細分化されていないため、厳密には順序尺度(≠連続変数)である。
ただし、分析の実践面の観点からは、連続変数として扱う方が効率が良いという事情も
あり、上記の「仮定」を置きつつ、近似的に連続変数とみなしている。また、評定段階
として調査において提示した回答選択肢を、そのまま連続変数の値とみなす場合、値間
の間隔が一定であるという前提(例.選択肢番号“1”と“2”の間隔=“2”と“3”の
間隔)となる。回答選択肢にラベルが付与されている設問を扱う際にはとくに注意が必
要で、たとえば 1.賛成/2.やや賛成/3.やや反対/4.反対という場合、この前提が成立す
るかについての議論の余地が大きい。
このように見解が分かれるようなデータについては、連続変数として扱った分析だけ
でなく、離散変数として扱った上での分析もあわせて行い、両者の結果に相違がないか
どうかを確認しておくと、前者の扱いについてある程度の説得性を確保できるだろう。
-6-
1.4. 分析の基本手順と考え方
ポジショニング分析に含まれる解析手法には、その分析手順に関して共通部分が多く、
それはおおむね 5 段階の手順としてまとめられることを冒頭で述べた。ここでは、先の 1.3
で示した 2 つの分析例に即して、それらの手順についてもう少し詳しく解説しよう。
①解析用データ
まず最初の手順は、①解析用データを用意することである。この場合の「データ」とは、
社会調査等で得られた(個体×項目などの)原データだけではなく、次元を抽出するため
に原データを加工したデータまでも含む。たとえば主成分分析では、次元を抽出するため
に項目間の関連を表す共分散行列(または相関行列)がこの加工データに相当する。また
対応分析では、2 変数間の関連を表す分割表(クロス集計表)に基づいて計測される規準
化偏差行列がこれにあたる。いずれも原データに基づいて、1 つの分析段階を経た後のデ
ータであることを確認されたい。この加工されたデータを、以降では「解析用データ」と
呼ぶことにする。
②次元抽出
関連構造を表す(加工)データから次元を抽出するにあたっては、それを最も端的に表
すような主軸から順に取り出していく。
「第 1 主成分」
「次元 1」
「第 1 軸」などと呼ばれる
次元軸は、あらゆる軸の中でデータの関連構造を最も大きく説明するものである。それが
抽出された次の段階では、それ以前に抽出された次元軸とは直交(独立・無相関)であり、
かつその次に関連構造を大きく説明する次元軸 ――第 2 主成分、次元 2、第 2 軸など――
が抽出されることになる。抽出可能な次元軸の数は、解析手法および関連構造の行列数に
よって異なる。たとえば主成分分析では元の変数の数まで、対応分析では分割表における
行・列変数それぞれのカテゴリー数のうち小さい方-1 個までの次元数である。ただし、
多くの場合、すべての次元軸を検討するのではなく、説明力の高い少数の次元軸に限定し
て結果を解釈する(1.3 の分析例では、いずれも 2 次元まで)
。
行列データに基づく次元抽出の方法については、固有値(対称行列の場合)や特異値(非
対称行列の場合)といった値を求めるための数学的な手順にしたがうことになる。詳しく
は「1.6 固有値・特異値の導出」および線形代数などのテキストを参照してもらいたい。
③再現性・適合度評価
少数の次元空間に縮約することは、情報圧縮という「効率性」を追求するものであるが、
他方で、それによる情報損失の程度をできるだけ抑える「有効性」も重要となってくる。
この有効性は、縮約された次元空間によって、元の関連構造をどの程度再現できるか、あ
るいはそれらにどの程度適合するかの指標をもって評価される。1.3 の例では 2 次元空間へ
の縮約によって再現される割合がいずれも 80%を超えていることから、これで有効性が十
分であると判断されれば、次元縮約という効率性を重視して、再現できない 2 割弱には目
をつぶることになる。なお、各次元軸が元の関連構造を再現する程度は、手順②における
固有値によって計測され、それに基づく再現率は寄与率と呼ばれる。
-7-
④対象布置と次元解釈
抽出された次元軸が何を表すのかについては、分析の後に「解釈」することになる。そ
の「解釈」にあたって重要となるのが、解析用データにおける対象(変数やカテゴリー)
が、次元空間上でどの位置にあるのかという情報である。この次元空間上の位置は、布置
(configuration)と呼ばれ、固有値・特異値とともに導出される固有ベクトルあるいは特異
ベクトルに基づいて、座標軸上のスコアが付与される。1.3 の主成分分析では、利用した 4
変数と各次元軸におけるスコア(主成分得点)との相関係数を、空間上のベクトルとして
表した。また対応分析では、利用した変数に含まれる各カテゴリーに、各座標軸上のスコ
アを付与した上で、次元空間上にプロットした。これらの処理から得られる情報を整理し
つつ、各次元軸を解釈していくことになる。
⑤事後分析・布置
この手順⑤は、解析手法や利用する変数によって様相は異なるが、次元を解釈する情報
として用いられる項目とは別に、個体(調査の回答者など)がある次元軸についてどのよ
うな特性を有しているかを確認したり、個体の集合体(属性グループなど)の次元空間上
の位置を事後的に確認することを目的とした補助的・追加的な分析である。この場合は、
次元軸を抽出するのに用いたもの以外の変数を、事後的な分析に利用することになる。
たとえば 1.3 の主成分分析により、2 次元空間における各個体(分析対象者)に主成分得
点を付与した後、対象者を属性グループ(例.性・年齢)にまとめた上で、各グループの
主成分得点平均を次元空間上にプロットすることができる。あるいは、複数の要因も考え
られるならば、各次元の主成分得点を従属変数とした重回帰分析モデルを立て、想定され
る要因を独立変数とした上で、それらの効果を検証することも可能である。
1.5. データ特性と解析手法
先の 1.4 ①で、ポジショニング分析においては次元抽出のために、原データだけではな
く、1 つの分析段階を経た後の「解析用データ」
(例.共分散行列、規準化偏差行列)が必
要になると述べた。次元抽出のための解析手法は、解析用データの種類によって分かれて
くるので、ここではそのデータの特性や形式を 4 種類に分けた上で、それに応じた解析手
法について概説を加えておこう。
(1) 連続変数間の関連
連続変数とは、ある事象や特性が数量として表され、それらの間隔・距離をとることが
可能な変数のことであり、測定値が限りなく細分化される性質を有するものである(【コラ
ム 1】を参照)
。複数の連続変数間の関連構造から、それを構成している主要な次元軸を抽
出する解析手法としては、主成分分析(principal component analysis: PCA)がある。その解
析用データとしては、共分散行列または相関行列が用いられる。後者は、前者を標準化し
たもの、すなわち利用する連続変数すべてを平均“0”
・標準偏差“1”に変換した上での共
分散行列=相関行列であるが、どちらを用いるかによって分析結果が異なってくる点は留
意する必要がある。
-8-
また、相関行列を用いた解析手法としては、因子分析(factor analysis: FA)もよく用い
られる。主成分分析と因子分析は、固有値・固有ベクトルを導出するなど数学的には近い
手法であるが、その考え方や部分的な分析過程において違いがあり、ここでは因子分析を
積極的には扱わない(一通りのポジションニング分析手法の後に詳しく紹介する→6 章)
。
というのも、因子分析の主眼は関連構造に潜在している要素(因子)を抽出することにあ
り、ポジショニング分析の主旨である「対象の位置関係を表す」ことと多少ずれているた
めである。また次元抽出に際して、1.4 ②で論述した「主要な次元軸から順に抽出」
「他の
次元軸とは直交」
といった基準が、因子分析では絶対的なものではないという理由もある。
(2) 離散変数間の関連
離散変数とは、ある事象や特性に関する質的な区分(名義尺度)であったり、何らかの
順序関係を持つ区分(順序尺度)を表す変数のことを指す。その性質は、連続変数とは対
照的に、値の間に境界が存在することにあり、各値は「カテゴリー」とも呼ばれる。
こうした離散変数間の関連構造は分割表として表され、それに基づく規準化偏差行列を
解析用データとして次元軸を抽出する解析手法としては、 1.3 で紹介した対応分析
(correspondence analysis: CA)がある。一般に、単に「対応分析」と言う場合は、1.3 の分
析例のように、2 つの離散変数を扱う分析のことを指す。この分析の応用として。3 つ以上
の離散変数を利用することも可能であり、その場合は多重対応分析(multiple correnpondence
analysis: MCA)と呼ばれ区別される。基本的な考え方は対応分析と同じであるが、解析用
データや再現性の評価など、分析の過程においていくつか異なる点がある。
(3) 対象間の距離・類似度
利用する変数の種類は、大きく離散変数と連続変数に分けられるので、先の(1)と(2)でい
かなる変数でもポジショニング分析が可能となる。ただし、それは個体×変数という形式
の原データから、変数間の関連構造を表す解析用データに加工・変換することを前提とし
た場合である。これに対して、対象間の距離や類似度を表すデータを解析用のそれとして
扱うこともある。その例として、国(田辺 2004)や職業(Burton 1972、林 2012)といっ
た対象に着目し、多数の対象ペア間の類似性を行列として表した類似度行列が挙げられる
(図表 1-7)
。これは対象×対象の正方行列であり(また多くの場合、対称行列でもある)、
その形式は(1)で用いる共分散行列や相関行列と共通する。その意味では、(1)での解析用デ
......
ータ行列は、変数間の距離(の小ささ)を表すものであり、対象間距離の一形態とも言い
うる。
正方の距離行列あるいは(非)類似度行列を解析用データとした、次元抽出のための解
析手法としては多次元尺度構成法(multi-dimensional scaling: MDS)を挙げることができる。
そこでは、データである対象間の距離または非類似度の相対的な大/小が、空間上の遠/
近として再現されるような主要な次元軸が析出される。この手法は、各対象ペア間の距離
または(非)類似度を比例尺度・間隔尺度(連続変数)として扱うか、それとも順序尺度
として扱うかによって計量的(metric)/非計量的(non-metric)方法に分かれるが、ここ
では後者の非計量的 MDS を主に扱っていく。その理由は、社会調査によって得られる対
-9-
象間データは、厳密に連続的な距離として測定した結果とみなすことが難しいこと、これ
と関連して、非計量 MDS では(非)類似度に関する順序関係のみを仮定すれば良く、分
析に際して制約が少ないことがある。
図表 1-7
類似度行列の例(対象:職業)
1
1
2
3
4
5
6
7
8
9
10
記者
警察官
印刷作業者
公務員
美容師
販売店員
受付事務員
会社経営者
医師
衣服仕立て職
2
3
4
5
6
7
8
9
41
19
7
35 158
27
8
19
6
28 14
29 13
28 39
19
5
5
19
35
29
13
3
56
8
8
30
16
34
5
36
16
11
34
95
56
12
5
44
46
2
22
22
8
15
10
(4) 評定主体×対象の評定ランク
解析用データとしては変数間や対象間の関連構造とは異なる形式ではあるが、ポジショ
ニング分析の主旨に適った解析手法に連なるものとして、評定主体(回答者個人など)と、
それによる複数の対象の評定ランクによって構成される矩形行列データを紹介しておきた
い。図表 1-8 はその例で、各評定主体(個人 a,b,...)ごとに、各対象(企業 A,B,...,H)への
選好の順位(1~8)がデータ化されている。
こうした形式のデータを解析用のそれとして扱う手法として、選好度の多次元尺度構成
法(multi-dimensional preference scaling: MDPREF)を挙げておく。この解析手法の特徴は、
評定の対象(この例では企業)を次元空間上の位置として表わすと同時に、各評定者の評
定の方向性
(この例では選好の方向性)を空間におけるベクトルとして表わすことにある。
そして、数学的には主成分分析とも密接な関連がある。主成分分析は、個体(行)×変数
(列)データに基づいて、変数間の関連構造を解析用データとし、結果として次元空間上
に変数のベクトルを表すことになる。一方、MDPREF はこうした行/列を逆にして、次元
空間における変数(行)の位置と、個体(列)のベクトルを同時に表す手法と言える。ま
た、名称こそ「選好度 preference」となっているが、調査データとして応用できる範囲は広
く、たとえば職業に対する地位評定(威信)をデータとして扱うことも可能であるし、他
にも離散変数間の分割表に基づき、一方の変数を主体、他方の変数を対象とみなしつつ、
その構成比率を評定値として扱う分析例もある(木村 2002)
。
図表 1-8
評
定
主
体
評定データの例(個人×企業に対する選好順位)
a
b
:
:
A
B
C
3
4
:
:
5
1
:
:
8
8
:
:
対 象 企 業
D
E
1
5
:
:
4
2
:
:
F
G
H
6
3
:
:
7
6
:
:
2
7
:
:
- 10 -
1.6. 固有値・特異値の導出
データの関連構造を表す解析用データに基づいて、その構造を大きく説明する次元軸を
順次抽出していく数学的な手順となる固有値および特異値の導出について、その基本的な
考え方に触れておこう。まず固有値導出の要諦は、n×n の対称行列 S(n は次数)が与え
られたとき、 Sa
 a を充たすような定数λ(=固有値 eigenvalue)と、それに対応する
列ベクトル a(=固有ベクトル eigenvector)を求めることにある。その際には、次のよう
な条件が加わる。
(1) λと a のセットは1つだけではなく、元の正方行列の次数 n だけ存在する。たとえ
ば 3×3 の正方行列では、λ1 と a1/λ2 と a2/λ3 と a3 の 3 種類がある。
(2) a を構成する要素(a1, a2, ..., an)には、何らかの制約を加える必要がある。一般的に
n
2
はベクトル長を“1”と設定し、 ai  a12  a22    an2  1 とする。
i 1
以下の 3×3 の相関係数行列(あるいは共分散行列)を例に取ってみよう。
1.000
0.700
0.300
0.700
1.000
0.500
0.300
0.500
1.000
この行列から 3 種類の固有値および固有ベクトルが求まる。その結果だけ記すと、以下
の通りとなった。
λ1 = 2.018 a1 = [0.587, 0.644, 0.490] T
λ2 = 0.721 a2 = [-0.537, -0.142, 0.831] T
λ3 = 0.261 a3 = [0.605, -0.751, 0.263] T
なお、3 つのセットは固有値の大きな順番に提示しており、その固有値の合計は元の対
称行列の対角要素の合計に一致する(2.018+0.721+0.261 = 1.000+1.000+1.000)
。また、求め
られた固有値および固有ベクトルについて、この具体的な結果から先に説明した要件が成
立することが確認できる。
Sa1 =λ1a1
元行列
1.000
0.700
0.300
0.700
1.000
0.500
0.300
0.500
1.000
×
固有値
2.018
×
固有ベクトル
0.587
0.644
0.490
固有ベクトル
0.587
0.644
0.490
=
1.185
1.300
0.988
=
=
1.185
1.300
0.988
=
-0.387
-0.102
0.599
=
-0.387
-0.102
0.599
Sa2 =λ2a2
元行列
1.000
0.700
0.300
0.700
1.000
0.500
0.300
0.500
1.000
×
固有値
0.721
×
固有ベクトル
-0.537
-0.142
0.831
固有ベクトル
-0.537
-0.142
0.831
=
- 11 -
Sa3 =λ3a3
元行列
1.000
0.700
0.300
0.700
1.000
0.500
0.300
0.500
1.000
×
固有値
0.261
×
固有ベクトル
0.605
-0.751
0.263
固有ベクトル
0.605
-0.751
0.263
=
0.158
-0.196
0.069
=
=
0.158
-0.196
0.069
さらに、それぞれの固有値・固有ベクトル自体を行列としてまとめ、対角要素が固有値
である対角行列 Λ 、固有ベクトルを連結した行列を U とすると、S  UΛU  が成り立つ。
このような形で S を分解する手続きは「スペクトル分解」とも言う。
先の例で確認すると、以下の通りである。
固有ベクトル
0.587
-0.537
0.644
-0.142
0.490
0.831
0.605
-0.751
0.263
×
固有値行列
2.018
0
0
0.721
0
0
0
0
0.261
×
=
固有ベクトル(転置)
0.587
0.644
-0.537
-0.142
0.605
-0.751
0.490
0.831
0.263
元行列
1.000
0.700
0.300
0.300
0.500
1.000
0.700
1.000
0.500
こうした解を求めるにあたっては、固有方程式 ( S  I )a  0 を解くことになり、その
方法としてさまざまなものがある。詳しくは「固有値問題」を扱う線形代数の専門書で学
習してもらいたい(cf. 岡太 2008)
。
次に、非対称行列を扱う特異値の導出について概説する。その要諦は、n×m からなる非
対称行列 D が与えられたとき、 D  UΛV  を充たすような対角行列 Λ (対角要素は特異
値 singular value)と特異ベクトル U および V を求めることにある(ただし、 Λ は r×r、
U は n×r、V は m×r)。実際には以下が成り立つので、
DD  (UΛV ) (UΛV )  UΛ2U 
DD  (UΛV ) (UΛV )  VΛ2V 
DD'、D'D それぞれのスペクトル分解( Λ 2 は固有値を要素とする対角行列)を行うこ
とにより、特異値および特異ベクトルを求めることができる。この分解は、
「特異値分解」
と呼ばれる。
以下の 4×3 の非対称行列を例に取ってみよう。
-2
-1
0
2
0
0
1
-2
1
2
-1
0
これに基づいて 2 種類の対称行列 DD'および D'D が作成され、それぞれについてスペ
クトル分解を行った結果は下記の通りである。
- 12 -
DD'
Λ
5
4
-1
-4
4
5
-2
-2
-1
-2
2
-2
9
-4
-4
-4
5
-1
-4
-1
6
2
12.850
-0.580
-0.470
0.017
0.665
6.517
0.226
0.541
-0.552
0.593
0.633
0.733
-0.642
-0.125
0.190
2
12.850
0.826
-0.366
-0.429
6.517
0.076
-0.681
0.728
0.633
-0.559
-0.634
-0.535
U
-4
-2
-2
8
→
D'D
Λ
→
V
固有値λ2 は共通しており、大きい順に 12.850 / 6.517 / 0.633 である。そして、それぞれ
の平方根(のプラス値)が特異値λであり、それぞれ 3.585 / 2.553 / 0.796 となる。求めら
れた特異値および特異ベクトルに基づくと、下記の通り、元の非対称行列が再現できる。
U
V'
Λ
-0.580
-0.470
0.017
0.665
0.226
0.541
-0.552
0.593
0.733
-0.642
-0.125
0.190
×
3.585
0
0
0
2.553
0
0
0
0.796
0.826
0.076
-0.559
×
-0.366
-0.681
-0.634
-0.429
0.728
-0.535
D
=
-2
-1
0
2
0
0
1
-2
1
2
-1
0
1.7. 分析プログラム
分析の実践を提示するために、本書では、フリーソフトウェア「R」による分析手続き
を紹介する。統計分析のためのパッケージ・ソフトウェアは、SPSS や SAS をはじめ数多
く存在するが、個人で購入するには高額であることが敷居になる。その点、研究者有志に
よる開発・公開が行われているフリーソフトウェア「R」は、そうした経済的制約を受け
ることなく利用できるという大きな価値をもっている。R を利用した分析を行う場合、基
本的にはコマンドを入力して実行するという形をとる。R の操作方法やコマンドについて
は、その専門書(金 2007 など)や、専用のホームページ(http://cran.r-project.org/、
http://www.okada.jp.org/RWiki/など)に詳しい。また、一部の基本的操作・分析に関しては、
コマンド形式ではなく GUI 形式で分析を指定・実行する「R コマンダー」という機能から
も利用可能である(大森ほか 2014)
。
以降では、先の固有値・特異値の導出について、コマンド・手順を紹介する。
- 13 -
固有値分解(スペクトル分解)
#1
#1
matrix(c(1.0, 0.7, 0.3, 0.7, 1.0, 0.5, 0.3, 0.5, 1.0), ncol=3, byrow=TRUE)
3×3 の相関係数行列を作成する
〔出力〕
[,1]
[1,] 1.0
[2,] 0.7
[3,] 0.3
[,2]
0.7
1.0
0.5
[,3]
0.3
0.5
1.0
#2
m1 <- matrix(c(1.0, 0.7, 0.3, 0.7, 1.0, 0.5, 0.3, 0.5, 1.0), ncol=3, byrow=TRUE)
#3
eigen(m1)
#2
相関係数行列の名前を「m1」とする
#3
行列 m1 から固有値・固有ベクトルを求める
〔出力〕3
$values
[1]
2.0179834
0.7207524
0.2612642
[,2]
0.5372107
0.1420105
-0.8314071
[,3]
0.6052848
-0.7513906
0.2627595
$vectors
[,1]
[1,] -0.5873968
[2,] -0.6443953
[3,] -0.4896118
3
固有ベクトルの符号+/-は、先の例と逆転しているが、反転しても構わない(→1.2)
。
- 14 -
特異値分解
#4
#4
matrix(c(-2, 0, 1, -1, 0, 2, 0, 1, -1, 2, -2, 0), ncol=3, byrow=TRUE)
4×3 の非対称行列を作成する
〔出力〕
[,1]
[1,] -2
[2,] -1
[3,]
0
[4,]
2
[,2]
0
0
1
-2
[,3]
1
2
-1
0
#5
m2 <- matrix(c(-2, 0, 1, -1, 0, 2, 0, 1, -1, 2, -2, 0), ncol=3, byrow=TRUE)
#6
svd(m2)
#5
非対称行列の名前を「m2」とする
#6
行列 m2 から特異値・特異ベクトルを求める
〔出力〕
$d
[1]
3.5847363
2.5527975
0.7955443
[,1]
-0.58038091
-0.46960913
0.01746082
0.66507172
[,2]
-0.2256241
-0.5407529
0.5520661
-0.5932142
[,3]
0.7326528
-0.6415465
-0.1251913
0.1896450
[,1]
0.8258667
-0.3661867
-0.4287791
[,2]
-0.0761624
0.6810154
-0.7282975
[,3]
-0.5586980
-0.6341335
-0.5345383
$u
[1,]
[2,]
[3,]
[4,]
$v
[1,]
[2,]
[3,]
- 15 -
2 主成分分析
2.1. 解析用データ:共分散行列
1 つの次元軸で表される 1 つの連続変数の軸の長さは、当該変数の分散で表すことがで
きる。同様に考えると、n 個の連続変数からなる n 次元の空間全体の大きさはそれらの分
散の合計で表される。他方、ポジショニング分析のひとつである主成分分析の目的は、そ
れらの散らばりをできる限り少数の次元に縮約することにあり、そのためのキーとなるの
が、変数間の値の連動性を表す共分散(covariance)である。共分散の大きい変数同士は、
1 つの次元軸として集約しつつ、それにより元の変数の分散の多くの部分を説明すること
ができる。このように、連続変数を扱う主成分分析において、新たな次元空間を構成する
のに必要となる基本データは、各変数の分散と変数間の共分散であり、それらを行列形式
で表した共分散行列が、
次の段階で固有値を導出するための解析用データとなる(手順①)
。
実例のひとつとして、高齢者や子どもに対する福祉の責任所在の意識データに基づく、4
変数間の共分散行列を再度見てみよう(図表 2-1(a))。対角部分には当該変数の分散が、そ
れ以外の非対角部分には異なる変数ペアの共分散が示されている。いずれもプラス値であ
り、すべての変数は同方向に変動する傾向にあること、また変数 C と D(0.863)
、変数 A
と B(0.850)が、他のペア同士よりも大きいことが確認できる。後で見るように、このこ
とが 2 つの主成分(次元軸)の特徴として立ち現われてくる。
図表 2-1(a) 福祉意識の共分散行列
A
1.411
0.850
0.257
0.228
A
B
C
D
B
0.850
1.141
0.279
0.229
C
0.257
0.279
1.307
0.863
図表 2-1(b) 相関行列
D
0.228
0.229
0.863
1.247
A
B
C
D
A
1.000
0.669
0.190
0.172
B
0.669
1.000
0.229
0.192
C
0.190
0.229
1.000
0.676
D
0.172
0.192
0.676
1.000
また、主成分分析のための解析用データとして、変数間の関連を表す(積率)相関行列
もよく用いられる(図表 2-1(b))
。先述したように、これはすべての使用変数を平均 0・標
準偏差 1 に標準化した共分散行列であり、元の尺度のままでは変数によって分散が大きく
異なっている場合に、用いられることが多い。たとえば図表 2-2 左は、社会的地位に関わ
る変数として着目した教育年数・職業的地位・年収額の共分散行列であるが、対角要素に
ある各変数の分散は、年収額>職業的地位>教育年数であること、また各変数ペアの共分
散も分散の大きな変数(年収額)に関わるそれが大きいことが確認できよう。
図表 2-2
社会的地位に関わる変数間の共分散行列と相関行列
共分散行列
教育
職業
年収
相関行列
教育
5.9
7.8
258.5
職業
7.8
73.7
1166.1
年収
258.5
1166.1
102053.3
教育
職業
年収
教育
1.000
0.376
0.334
職業
0.376
1.000
0.425
年収
0.334
0.425
1.000
このようなデータを用いて主成分分析を行うと、分散の大きな変数に強く影響される傾
向にあるため、標準化を行うことにより全変数の分散をそろえた後に、相関行列(図表 2-2
- 16 -
右)に基づく解析を行うことになる。ただし、標準化によって分散をそろえることが望ま
しいかどうかは、解析用データを作成するにあたってよく吟味する必要がある。たとえば
先の福祉意識の 4 変数については、質問紙調査の段階でいずれも 5 段階に統一された尺度
として提示されており、得られたデータにおける変数間の分散の違いは、それ自体が重要
な意味をもつものである(変数 A が最も分散が大きく、変数 B が最も小さい)。したがっ
て、これらの分散をそろえることは、分散の小さい変数を過大評価/分散の大きい変数を
過小評価することになり、質問紙において統一的に示した 5 段階尺度から得られたデータ
情報の一部を捨象してしまうことになる。こうした場合には、共分散行列を解析用データ
として利用するのが望ましいだろう4。これに対して、社会的地位に関わる 3 変数の場合は、
変数間で分散が大きく異なり、かつ元の変数の値や分散そのものよりも、各変数における
回答者の相対的な位置(標準化得点)の情報が重要と判断されるため、相関行列を利用す
ることになる(→分析結果については【コラム 2】参照)。
2.2. 次元抽出と説明力:固有値と寄与率
分散・共分散をより大きく説明する次元を順次抽出するために、解析用データに基づい
て、扱う変数の数だけ固有値と固有ベクトルのセットが抽出される(手順② →1.6)
。実際
に、福祉意識データの共分散行列を解析用データとして固有値・固有ベクトルを求めた結
果、以下が得られた。
固有値λ1 = 2.634, 固有ベクトル a1 = [0.526, 0.470, 0.516, 0.485] T
固有値λ2 = 1.645, 固有ベクトル a2 = [-0.558, -0.438, 0.495, 0.502] T
固有値λ3 = 0.427, 固有ベクトル a3 = [-0.474, 0.545, 0.467, -0.511] T
固有値λ4 = 0.401, 固有ベクトル a4 = [-0.434, 0.539, 0.520, 0.501] T
ここで得られた固有値はそれぞれの次元軸における個体の分散を表しており、その合計
は元変数の分散の合計に等しい(この例では 5.107)。言い換えると、それぞれの固有値(次
元軸の分散)は、元の 4 変数を集約している程度を表すことになり、主成分分析において
はそれが大きい順に「第 1 主成分」
「第 2 主成分」
.
..と呼ぶ。
また、この情報を利用し、それぞれの次元軸が元の変数の分散合計の何%を説明するこ
とができるかを、各固有値/全分散(固有値合計)によって示す(手順③)
。たとえば最初
の(最も固有値の大きい)次元軸は 2.634 / 5.107 = 51.6%であり、1 つの次元軸だけでも元
の 4 変数の分散のうち約半分が説明されることになる。このように比率で表される各次元
軸の説明力は、寄与率と呼ばれる。
新たな 4 つの次元軸によって元の 4 変数の全分散を説明できるが、それでは次元を縮約
するという実質的な利点はないので、抽出の結果に基づき、いくつかの重要な少数次元の
みに限定してその先の検討をすすめることが多い。次元の数を決めるにあたっては、次元
ごとの固有値・寄与率およびそれらの変動が勘案される。その検討のために、4 つの固有
値とそれに基づく寄与率の累積についてプロットしたのが図表 2-3 である。まず着目され
4
この例の場合は、変数間の分散に大きな違いがないため、変数間の共変動の相対的な大小が両行列間で
類似しており、結果としてどちらのデータで主成分分析を行っても大きな違いはない。
- 17 -
るのは、固有値の大きさの変化であり、その降下が緩やかになる「肘(elbow)」と呼ばれ
る部分である。この例では次元 3 の箇所がそれに相当し、それ以降の次元では固有値が低
迷していることが示されていることから、それより前の次元(この例では次元 2)までを
検討の対象とすることが、基準の 1 つとしてよく利用される。また別の基準として、全変
数の平均分散を上回る固有値を有する次元軸に限定するという考え方もある。逆に言えば、
元変数の平均分散を下回っている次元軸は、
「変数の分散を集約する」という本来の目的を
果たしていないため、検討に値しないとして捨象するのである。この例では、先に述べた
ように、4 変数の分散合計は 5.107 であるので、平均は 1.277 である。そして、それを上回
っている固有値は次元 1 と次元 2 であるので、この基準からも次元 2 までを対象とするの
が適当であると判断される。さらに、次元 2 までの累積寄与率は 83.8%であり、2 次元空
間への縮約によっても元変数の分散が十分に再現されていると言える。
図表 2-3
主成分抽出における各次元の固有値と寄与率
100.0%
2.5
100%
92.1%
2.634
83.8%
2.0
80%
固有値(左目盛)
1.5
51.6%
1.645
累積寄与率(右目盛)
1.0
60%
40%
0.5
20%
0.427
0.401
3
4
0.0
0%
1
2
次元
2.3. 個体・変数の布置と次元解釈
主成分分析の目的のひとつは、多く変数の分散を大きく説明するよう新しく作成された
次元軸上に各個体を位置づけることにある(→1.2、手順④)。そのための手続きは、先に
得られた固有ベクトルを利用して、それぞれ元の変数に「重み」を付けた値を計測する。
具体的に、次元 1 の得点を PC1 とした場合、それは以下の式から求められる。
PC1i = 0.526 Ai + 0.470 Bi + 0.516 Ci + 0.485 Di
※Ai ~Di:個体 i の元変数 A~D の値
たとえば、すべての変数に“1”
(福祉は個人・家族責任)と回答した場合は、その次元
軸の値は 2.00、逆にすべての変数に“5”
(福祉は国・自治体責任)と回答した場合は、そ
の次元軸の値は 9.99 となる。このようにして各個体の次元軸上の位置を示すために付与さ
れた値は主成分得点と呼ばれ、上記の例は「第 1 主成分得点」となる。同様に、次元 2 の
場合は、
PC2i = -0.558 Ai - 0.438 Bi + 0. 495 Ci + 0. 502 Di
- 18 -
である。これにしたがうと、この次元軸における最大値は、変数 A・B に対して回答“1”
、
かつ変数 C・D に対して回答“5”の場合であり(第 2 主成分得点=3.99)
、最小値は、変数
A・B に対して回答“5”
、かつ変数 C・D に対して回答“1”の場合である(第 2 主成分得
点=-3.98)
。図表 2-4 は、横軸に第 1 主成分得点、縦軸に第 2 主成分得点を取り、元変数の
値についてのいくつかのパターンごとに、それぞれの個体の得点をプロットしたものであ
る。横軸の第 1 主成分得点に着目すると、その高/低は、元変数全体の値の高/低にほぼ
対応している。縦軸の第 2 主成分得点に着目すると、元変数全体の値(≒第 1 主成分得点)
が同じ程度である場合でも、その内訳として、変数 C,D で高い値をとるか(例.[1,1,5,5])
、
変数 A,B で高い値をとるか(例.[5,5,1,1])によって、得点の高/低が分かれている。図
表 2-4 で、それぞれの変数の値の方向を示した矢印が参考になるだろう。
図表 2-4
※ 上段[
次元空間上の個体の布置:元の値と主成分得点
] 内は元変数 A,B,C,D の各値、下段【
】内は第 1 主成分得点/第 2 主成分得点を表す
このような主成分得点と元の変数の値との関係性は、抽出された次元軸(主成分)が何
を表すのかを解釈するのに有効な情報となる。より端的には、各主成分得点と元変数との
積率相関係数を指標とすることができ(図表 2-5)、その相関は主成分負荷量と呼ばれる。
図表 2-5
主成分負荷量
A 高齢者の生活保障
B 高齢者の医療・介護
C 子どもの教育
D 保育・育児
PC1
0.719
0.715
0.733
0.705
PC2
-0.602
-0.526
0.555
0.576
これは 1.3 で示した図表 1-4 のように、次元空間上に方向性をもつベクトル(図表 2-4
の矢印をより精緻化したもの)として表すこともできる。この例について、第 1 主成分と
の相関は 4 変数とも+0.7 程度であり、元の 4 変数のスコアの高さ(「国や自治体の責任」
- 19 -
という回答)と正の相関にある。このことから、第 1 主成分はプラスの方向に、福祉全般
(高齢者・子供を問わず)が政府の責任であるという意見を示すものと解釈される。マイ
ナス方向は、これと逆に福祉全般が個人・家族の責任であるという意見であるので、この
主成分は「福祉に関する大きな政府-小さな政府志向」と名付けることができる(福祉国
家論における、社会民主主義的福祉レジーム-家族主義的福祉レジームと対応する)
。
第 2 主成分に目を転じると、変数 C・D とは+0.6 程度の相関、変数 A・B とは-0.6 程
度の相関と、先とは異なり、変数によってプラス/マイナスの関連に分かれていることが
確認できる。前二者は子供に対する福祉、後二者は高齢者に対する福祉の項目であること
から、この主成分は、プラスの方向に子供は政府責任/高齢者は個人・家族責任という意
見、マイナス方向に子供は個人・家族責任/高齢者は政府責任という意見を表すものと解
釈される。したがって、これは「政府が担う福祉の対象:子供-高齢者」と名付けること
ができる。
2.4. 主成分得点を用いた事後分析
主成分分析によって各個体(回答者)に新たな次元軸の位置スコア=主成分得点を付与
した後、それを用いて別の分析を展開することができる(手順⑤)。たとえば、先の福祉意
識に関して個人属性による異同を検討するために、回答者を性・年齢の組み合わせにより
計 12 区分(男性 20 代、30 代、
.
.
.
、女性 70 代以上)した上で、それぞれの主成分得点の
平均値を求めたのが図表 2-6 である。なお、主成分得点は先に求められたものを標準化し
てある(平均 0・標準偏差 1)5。
図表 2-6
主成分得点(標準化)に関する性・年齢別平均
0.2
M 70
0.1
F 60
M 60
F 30
M 50
F 50
F 40
F 70
0.0
-0.1
M 40
M 20
M 30
F 20
-0.2
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
まず横軸の第 1 主成分、つまり大きな政府志向(プラス方向)-小さな政府志向(マイ
ナス方向)に着目すると、プラス方向には女性および男性 30 代(F30, M30)が位置してお
5
主成分分析において変数が標準化される場合は、(1)元の変数間の連動性を解析用データとして用いると
きに標準化する(→相関行列に)
、(2)分析に基づいて各個体に主成分得点が付与された後、その得点を標
準化する(→事後分析に)
、という二通りあることに留意されたい。
- 20 -
り、マイナス方向には女性 50 代以上(F50, F60, F70)および男性 70 代(M70)が位置し
ていることが確認できる。20 代をのぞくと、おおむね若年層が「大きな政府」志向/高年
層が「小さな政府」志向であると言える。そして縦軸の第 2 主成分、つまり政府が担う福
祉対象:子供(プラス方向)-高齢者(マイナス方向)に着目すると、マイナス方向に男
性 20~40 代(M20, M30, M40)および女性 20 代(F20)が位置しているのが特徴的である。
さらに性・年齢以外の要因も考慮し、各主成分得点を従属変数とした重回帰分析(→9
章)を行った結果が図表 2-7 である。第 1 主成分得点に対しては、性・年齢・収入認知が
有意な効果(p<.05)を示しており、それぞれ男性・若年層・低収入認知層が「大きな政府」
志向(プラス方向)を有していることが検証された。第 2 主成分得点に対しては、年齢と
収入認知が有意な効果を示し、高年層・高収入認知層が「子供福祉は政府責任/高齢者福
祉は個人・家族責任」という意識(プラス方向)を有していることが検証された。
図表 2-7
主成分得点を従属変数とした重回帰分析
――――――――――――――――――――――――――――――――――――――――――――
従属変数
第 1 主成分得点
第 2 主成分得点
回帰係数 標準誤差 有意確率
回帰係数 標準誤差 有意確率
――――――――――――――――――――――――――――――――――――――――――――
定数
0.508
0.152
0.001
-0.489
0.153
0.001
性別ダミー(男=1)
0.080
0.039
0.039
-0.032
0.039
0.412
年齢
-0.007
0.002
0.000
0.005
0.002
0.001
収入ダミー(ほぼ平均=1) -0.187
0.040
0.000
0.062
0.041
0.126
収入ダミー(平均より多い=1) -0.232
0.064
0.000
0.172
0.064
0.007
婚姻ダミー(離死別=1)
-0.122
0.063
0.052
0.042
0.063
0.508
婚姻ダミー(未婚=1)
-0.064
0.062
0.303
0.009
0.062
0.880
教育年数
-0.003
0.008
0.749
0.016
0.008
0.059
――――――――――――――――――――――――――――――――――――――――――――
決定係数
0.025
0.009
――――――――――――――――――――――――――――――――――――――――――――
※収入ダミーの基準カテゴリーは「平均より少ない」
※婚姻ダミーの基準カテゴリーは「有配偶」
2.5. 因子分析との異同
連続変数間の関連性に基づいて次元抽出を行うための、主成分分析と近い手法として、
因子分析がよく利用される。先の 1.5(1)で少し触れたように、対象を空間上に位置づける
ポジショニング分析とは趣がやや異なるが、ここで扱った主成分分析との異/同は重要で
あるので、分析例を用いて簡単に紹介しておこう。因子分析の目的は、変数間の関連構造
に潜在している要素=共通因子を抽出することにあり、解析用データである相関行列を、
できる限り少数の共通因子によって再現することが分析の要諦となる。とくに主成分分析
と異なる点としては、以下が挙げられる。
(1) 因子は、元の変数(観測変数)に影響を与えることを前提とする
(2) その因子は、複数の観測変数に影響を与える共通因子(common factor)と、個々の観
測変数ごとに影響与える独自因子(unique factor)とに分かれる
(3) 相関行列を再現する因子のパターン(解)は、1 種類とは限らない
- 21 -
主成分分析では、元の観測変数セットを最も大きく説明する次元軸を、順々に抽出して
いくのが基準となっているため、最初のそれ(第 1 主成分)はほとんどの変数についての
値の大小を総合した軸となるケースが多い。こうした場合、その軸を積極的に解釈するこ
との意義が小さいと判断されるかもしれない。これに対して、因子分析の場合は、観測変
数と共通因子との関係性ができる限り明確になるよう、因子軸の回転や軸同士の関連(相
関)についてさまざまな基準によって柔軟な対応ができる。
両分析の違いについて、図表 2-8 に簡潔にまとめておいた。このように因子分析は、対
象を次元空間上に位置づけるためのポジショニング分析というよりも、潜在する要素を特
定するためのモデル分析と言えるだろう。ここでは紙幅を割いて詳しく解説することはし
ないが、因子の数の設定、抽出の方法、因子軸の回転など、分析の過程で選択を行う必要
が多く、これらについては 6 章を参照されたい。
図表 2-8
主成分分析と因子分析の違い
解析用データ
主成分/因子の数
主成分分析
因子分析
共分散行列、または相関行列
相関行列(多くの場合)
観測変数と同数、抽出後に固有値の大
解析の事前に、観測変数より少ない数の因
きなものにしぼりこむ
子数を設定
個々の観測変数に対する共通性
再現性の評価指標
観測変数の全分散への(累積)寄与率
元の相関行列と再現相関行列との適合性
(最小二乗法、最尤法など)
解の種類
複数の主成分/因
子同士の関係
一意に定まる
不定(複数の解が可能)
相関の有/無(軸が斜交/直交)は任意に
無相関(軸が直交)
決めることができる
- 22 -
2.6. 分析プログラム R による実践
#1
d1 <- read.delim("clipboard", header=FALSE)
#2
var(d1)
#1
クリップボードにコピーされたデータ(変数名は含まない)を読み込み、d1 とする
#2
データ d1 に含まれる変数間の共分散行列を求める
〔出力〕
V1
1.4113649
0.8495311
0.2573847
0.2279414
V1
V2
V3
V4
#3
#3
V2
0.8495311
1.1413246
0.2791572
0.2294838
V3
0.2573847
0.2791572
1.3068755
0.8625627
V4
0.2279414
0.2294838
0.8625627
1.2472817
cor(d1)
データ d1 に含まれる変数間の相関行列を求める
〔出力〕
V1
V2
V3
V4
V1
1.0000000
0.6693527
0.1895161
0.1717992
#4
eigen(var(d1))
#4
V2
0.6693527
1.0000000
0.2285742
0.1923380
V3
0.1895161
0.2285742
1.0000000
0.6756026
V4
0.1717992
0.1923380
0.6756026
1.0000000
データ d1 の共分散行列に基づく固有値分解
〔出力〕
$values
[1]
2.6342622
1.6446372
0.4265740
0.4013734
[,2]
0.5577369
0.4378661
-0.4951492
-0.5020260
[,3]
0.4735938
-0.5447931
-0.4665372
0.5111286
[,4]
-0.4336446
0.5386917
-0.5202005
0.5011537
$vectors
[1,]
[2,]
[3,]
[4,]
[,1]
-0.5259191
-0.4704094
-0.5162961
-0.4853477
- 23 -
#5
#5
prcomp (d1, center = TRUE, scale = FALSE)
データ d1 の共分散行列に基づく主成分分析
〔出力〕
Standard deviations:
[1]
1.6230410
1.2824341
0.6531264
0.6335403
PC2
-0.5577369
-0.4378661
0.4951492
0.5020260
PC3
0.4735938
-0.5447931
-0.4665372
0.5111286
PC4
-0.4336446
0.5386917
-0.5202005
0.5011537
Rotation:
PC1
0.5259191
0.4704094
0.5162961
0.4853477
V1
V2
V3
V4
#6
pc1 <- prcomp(d1, center = TRUE, scale = FALSE)
#7
summary (pc1)
#6
主成分分析の結果を pc1 とする
#7
結果 pc1 の要約を出力する
〔出力〕
Importance of components:
Standard deviation
Proportion of Variance
Cumulative Proportion
#8
#8
PC1
1.623
0.516
0.516
PC2
1.282
0.322
0.838
PC3
0.6531
0.0835
0.9214
PC4
0.6335
0.0786
1.0000
cor (d1, pc1$x)
結果 pc1 の主成分得点行列 x と、元データ d1 の観測変数との相関行列を求める
〔出力〕
V1
V2
V3
V4
PC1
0.7185033
0.7146623
0.7330123
0.7053428
PC2
-0.6020669
-0.5256199
0.5554616
0.5764730
PC3
0.2603656
-0.3330613
-0.2665424
0.2989132
- 24 -
PC4
-0.2312536
0.3194552
-0.2882889
0.2842909
#9
pcscore1 <- pc1$x [,1]
#10 pcscore2 <- pc1$x [,2]
#11 pcscore1 <- scale (pcscore1)
#12 pcscore2 <- scale (pcscore2)
#9
分析結果 pc1 の主成分得点行列 x から、第 1 主成分得点を抽出し、pcscore1 とする
#10 分析結果 pc1 の主成分得点行列 x から、第 2 主成分得点を抽出し、pcscore2 とする
#11 第 1 主成分得点 pcscore1 を標準得点(z 得点)に変換する
#12 第 2 主成分得点 pcscore2 を標準得点(z 得点)に変換する
#13 d2 <- read.delim ("clipboard", header=FALSE)
#14 tapply (pcscore1, d2, mean)
#15 tapply (pcscore2, d2, mean)
#13 性・年齢グループの変数データ(変数名は含まない)をクリップボードにコピーした上で、それ
を読み込み d2 とする
#14 性・年齢グループ“d2”ごとの、第 1 主成分得点の平均値を出力
#15 性・年齢グループ“d2”ごとの、第 2 主成分得点の平均値を出力
〔出力〕
> tapply (pcscore1, d2, mean)
V1
F20
F30
F40
0.07403746 0.23608409 0.05793101
M20
M30
M40
-0.01566308 0.17493591 0.13021506
F50
F60
F70
-0.10712708 -0.23496789 -0.21762551
M50
M60
M70
0.09442664 0.04262084 -0.15282675
> tapply (pcscore2, d2, mean)
V1
F20
F30
F40
F50
F60
F70
-0.136846080 0.055426722 0.002736193 0.025658020 0.072718083 0.006562614
M20
M30
M40
M50
M60
M70
-0.128953208 -0.119350246 -0.110869065 0.043384787 0.059569419 0.090416667
- 25 -
【 コラム 2 】相関行列に基づく分析との結果比較
主成分分析を行うときの留意点として、解析用データとして共分散行列ではなく相関
行列を用いる可能性について先に触れた(2.1)。そこでの例として、使用する変数の分
散が大きく異なる社会的地位(教育年数・職業的地位・年収額)を挙げておいたので、
その分析結果について示しておこう。まず元の変数の値に変更を加えず、共分散行列を
利用して主成分分析を行うと、第 1 主成分だけで寄与率が 99.9%と大半の分散が説明さ
れる。その成分が何であるかを、元変数との相関(負荷量)によって確認すると、
「年収
額」との相関がほぼ“1”であった。つまり、第 1 主成分は年収額そのものであると解釈
されるのであるが、これはこの変数の分散が他の変数のそれに比べて顕著に大きいこと
に起因する。次に、こうした分散の違いによる影響を避けるために、全変数を標準化し、
分散をそろえた上での共分散行列すなわち相関行列を解析用データとして分析を行うと、
第 1 主成分の寄与率は 58.6%にとどまり、また各変数との負荷量(いずれも+0.7 程度)
から、3 つの変数がバランス良く総合された社会的地位の成分であると解釈される。
固有値
寄与率
固有
ベクトル
成分
負荷量
教育
職業
収入
教育
職業
収入
(元変数のまま)
PC1
PC2
102067.3
60.8
99.9%
0.1%
0.003
0.087
0.011
0.996
1.000
-0.012
0.334
0.281
0.426
0.905
1.000
0.000
PC3
4.8
0.0%
0.996
-0.087
-0.002
0.900
-0.022
0.000
(元変数を標準化後)
PC1
PC2
PC3
1.758
0.674
0.568
58.6%
22.5%
18.9%
0.552
0.806
0.211
0.599
-0.208
-0.773
0.579
-0.554
0.598
0.733
0.662
0.159
0.795
-0.171
-0.583
0.768
-0.455
0.451
【本章で利用した調査データ】
日本在住の 20~89 歳男女を対象としてほぼ毎年実施されている「日本版総合社会調査
(Japanese General Social Surveys: JGSS)」の 2002 年調査に含まれているデータを利用し
た。設問は以下の通り。
(留置調査票 問 12) 以下の項目は、個人や家族の責任でしょうか、国や地方自治体の責任でしょう
か。下記の尺度の上の番号(1~5)を1つ選んでください。
個人や家族の責任
国や自治体の責任
1
2
3
4
5
A 高齢者の生活保障(生活費)
1
2
3
4
5
B 高齢者の医療・介護
1
2
3
4
5
C 子どもの教育
1
2
3
4
5
D 保育・育児
1
2
3
4
5
※ 日本版 General Social Surveys(JGSS)は、大阪商業大学比較地域研究所が、文部科学省から学術フ
ロンティア推進拠点としての指定を受けて(1999-2003 年度)、東京大学社会科学研究所と共同で実施
している研究プロジェクトである(研究代表:谷岡一郎・仁田道夫、代表幹事:佐藤博樹・岩井紀子、
事務局長:大澤美苗)。東京大学社会科学研究所附属日本社会研究情報センターSSJ データアーカイブ
がデータの作成と配布を行っている。
- 26 -
3 対応分析
3.1. カテゴリー間の距離:カイ二乗距離
対応分析によって縮約された次元空間に表される(再現される)のは、各離散変数に含
まれるカテゴリー間の距離である。簡単な例をとってその考え方を確認しよう。図表 3-1
のように、カテゴリーa1, a2, a3 をもつ変数 A と、カテゴリーb1, b2, b3 をもつ変数 B との 3
×3 分割表があったとする。
図表 3-1
分割表の簡易例
b1
80
50
20
150
a1
a2
a3
b2
10
20
50
80
b3
10
30
30
70
100
100
100
300
.
ここで計測されるのは、各変数内におけるカテゴリー間の距離であり、変数間のそれで
はないことにまず留意されたい。したがって、変数 A については a1-a2, a1-a3, a2-a3 とい
う 3 ペアの距離、変数 B については b1-b2, b1-b3, b2-b3 という 3 ペアの距離である。距離
の指標は、行あるいは列方向における構成比率(行プロフィルあるいは列プロフィル)を
用いた、以下のように表されるカイ二乗距離6である(以下は行変数 a1 と a2 の距離)
。
ChiD( a1, a 2) 
J

r
 r2 j 
r j
2
1j
j 1
“r”は行変数に関する行プロフィルを表し(列プロフィルの場合は“c”)、
“r1j”は行変
数 A カテゴリーa1 の、列変数 B それぞれのカテゴリー(b1,b2,...,bj)対する行プロフィル、
“r j”は周辺度数のそれを表す。なお後者は、列変数 B それぞれのカテゴリーの構成比率
●
であり、列のマス(mass)と言う(同様に、周辺度数の列プロフィルは行のマスとなる)
。
簡易例を使って具体的に計測してみると、図表 3-2(a)・(b)の通りとなる。たとえば a1 と a2
のカイ二乗距離は、
0.8  0.52  0.1  0.22  0.1  0.32
0.500
0.267
0.233
 0.180  0.038  0.171  0.624
のように求められている。
変数 A については a1 と a3 が最も距離が大きく(1.221)、変数 B については b1 と b2 が
最も大きい(1.116)
。それぞれの構成比率で見ても同様に、距離の大きなカテゴリー間で
分布の違いが大きいことが確認できる。さらに、全体の構成比率(total)からの各カテゴ
リーの距離も同じように計測でき(図表 3-2 下部)
、これは分割表の「重心」からの距離と
して、次に説明する解析用データ行列とも密接な関係をもつ。
6
正確には「二乗」を元に戻すため平方根を求めているが、この呼称を用いる。そのほか、r j による規準
化を施さないユークリッド距離もある。
●
- 27 -
図表 3-2(a) 行プロフィルとカイ二乗距離
図表 3-2(b) 列プロフィルとカイ二乗距離
列プロフィル
b1
0.533
0.333
0.133
1.000
行プロフィル
a1
a2
a3
total
0.800
0.500
0.200
0.500
0.100
0.200
0.500
0.267
0.100
0.300
0.300
0.233
1.000
1.000
1.000
1.000
カテゴリー間距離
a1-a2
0.180
a1-a3
0.720
a2-a3
0.180
0.038
0.600
0.338
0.171
0.171
0.000
0.624
1.221
0.719
全体(重心)からの距離
a1-total
0.180
a2-total
0.000
a3-total
0.180
0.104
0.017
0.204
0.076
0.019
0.019
0.600
0.189
0.635
b2
0.125
0.250
0.625
1.000
b3
0.143
0.429
0.429
1.000
カテゴリー間距離
b1-b2
b1-b3
0.500
0.457
0.021
0.027
0.725
0.261
1.116
0.864
b2-b3
0.001
0.096
0.116
0.461
total
0.333
0.333
0.333
1.000
全体(重心)からの距離
b1-total b2-total b3-total
0.120
0.130
0.109
0.000
0.021
0.027
0.120
0.255
0.027
0.490
0.637
0.404
3.2. 解析用データ:規準化度数偏差と慣性
以上のようなカテゴリー間のカイ二乗距離を再現するための解析用データ(手順①)
は、
分割表における度数の分散を表す規準化偏差行列である。主成分分析で扱うような連続変
数の場合、ある変数の分散は「平均値」からの偏差に基づいて計測され、複数の変数にわ
たる場合も考慮して一般化すると、
「重心」からの偏差ということになる。離散変数におけ
る度数について同じように考えると、その「重心」に相当するのは、期待度数(expected
frequency)である。分割表においてこの期待度数は、変数間の分布が無関係(独立)であ
ると仮定した状態を表し、先の簡易例では図表 3-3(a)のような度数行列が得られる。
図表 3-3(a) 簡易例の期待度数
図表 3-3(b) 偏差行列・規準化偏差行列
期待度数
50.0
50.0
50.0
150
偏差
30.0
0.0
-30.0
26.7
26.7
26.7
80
23.3
23.3
23.3
70
100
100
100
300
-16.7
-6.7
23.3
-13.3
6.7
6.7
規準化偏差行列 D
0.245
-0.186
0.000
-0.075
-0.245
0.261
-0.159
0.080
0.080
他方で、観測される度数がこの期待度数(重心)からどの程度離れているのかを、度数
の偏差として表すことができる(図表 3-3(b))。この偏差の平方を期待度数で規準化した総
和がピアソンのカイ二乗統計量  2 であり、よく知られているように、それを用いて独立性
の検定が行われる。このプロセスと軌を一にしつつ、各セルについて規準化した偏差を求
めたのが、対応分析の解析用データとして用いられる行列となる。以下から求められる値
が各セルの規準化度数偏差となる。
dij 
(nij  fˆij )
fˆij
N
なお、nij は各セルの観測度数、 fˆij は期待度数、N は全ケース数を表す。先の例からそれ
ぞれを求めると、図表 3-3(b)右のような行列が得られる。
- 28 -
これら個々の偏差の平方和が、分割表全体の度数分散の指標となり、対応分析ではそれ
を次元分解していくことになる。この偏差平方和は慣性(inertia)と呼ばれ、下記のよう
にピアソンのカイ二乗統計量を全ケース数で除した値と等価となる。なお、この簡易例に
おける慣性は 0.266 であった。
I
J
inertia   (dij )2 
i 1 j 1
2
N
また、この慣性は、先の 2.2.1 で示した重心からのカイ二乗距離について、マス(全体構
成比率)の重みを付けた総和となる。たとえば、行プロフィルから得られるカイ二乗距離
とは下記の関係が成り立つ(列プロフィルも同様)
。
I
I  J r  r 2 



inertia   ChiD(2ai, centroid)  massai    ij  j   ci  
r j

i 1
i 1 


 j 1


3.3. 次元抽出と説明力:特異値分解と寄与率
解析用データに基づいて、慣性(全体の度数分散)をより大きく説明する次元を順次抽
出する手続きは、数学的には特異値分解にしたがって行われる(手順②)
。非対称行列を扱
う特異値分解は、2 種類の対称行列の固有値・固有ベクトルを求めることに帰着する(→
1.6)
。先の 3×3 の簡易例を利用すると、解析用の規準化偏差行列 D に基づいて、行カテ
ゴリーa1,a2,a3 に着目した対称行列 DD'、および列カテゴリーb1,b2,b3 に着目した対称行
列 D'D それぞれについて固有値を導出すると次の通りとなる。
図表 3-4
簡易例の特異値分解(DD'および D'D)
DD'
0.120
0.001
-0.121
固有値
固有
ベクトル
D'D
0.001
0.012
-0.013
↓
0.249
-0.684
-0.044
0.728
-0.121
-0.013
0.134
0.017
-0.445
0.815
-0.370
0.120
-0.110
-0.059
a1
a2
a3
固有値
固有
ベクトル
-0.110
0.108
0.045
↓
0.249
-0.693
0.642
0.328
-0.059
0.045
0.038
0.017
-0.141
-0.566
0.812
b1
b2
b3
なお、対応分析における特異値分解の場合、得られる固有値の数は、行数・列数のうち
少ない方-1 個7であるので、この例では 2 個である。その固有値(いずれの対称行列でも
共通)に着目すると、1 つ目(λ12)は 0.249、2 つ目(λ22)は 0.017 であり、これらの合
計が慣性である(0.266)
。したがって、分割表全体の度数分散を説明する次元分解の結果
としては、まず最初の次元軸(λ12)によって 93.5%(0.249 / 0.266)が説明され、次の次
元軸(λ22)で残りの 6.5%(0.017 / 0.266)が説明されることになる。これらのような慣性
に占める各次元の固有値が、対応分析における寄与率として再現性の評価指標となる(手
順③)
。
7
固有値の数が一般的な非対称行列の特異値分解(→1.6)の場合と異なるのは、対応分析における特異値
分解では期待度数からの規準化偏差を解析用データとして用いるためであり、期待度数自体がすでに 1 つ
の固有値(次元)を先取りしていると考えると良い。詳しくは、Weller and Romney(1990: 59-65)参照。
- 29 -
3.4. カテゴリー布置
次元数が決まったら、その次元空間上における対象(カテゴリー)の位置、すなわち布
置を求めることになる(手順④)
。その際には、3.1 で説明したカテゴリー間のカイ二乗距
離を次元空間上に再現することになるが、解析用データを作成する段階でマスによる重み
を付けているので(→3.2)
、それを解除する必要がある。このことをふまえた上で、各変
数カテゴリーの次元空間上の座標ポイントは、それぞれのマス r,c、特異ベクトル(行・列
それぞれの固有ベクトル)u,v、固有値λ2 を用いつつ、以下のように求められる。
行変数のカテゴリーi の次元 k における座標ポイント
1
Rik 
ci
 M
uik 2k
1 2
row
UΛ

列変数のカテゴリーj の次元 k における座標ポイント
1
C jk 
r j
 M
v jk 2k
1 2
column
なお、式の右側の(
VΛ

)内は、それぞれ行列表記で表したものである。たとえば、簡
易例における行変数のカテゴリーa1 の座標ポイント [R11, R12] は、
1
R11 
0.333
1
R12 
0.333
 0.684  0.249  0.592
 0.445  0.017  0.101
となる。同様にして、他の座標ポイントを求めていき、それを 2 次元空間にプロットし
たのが図表 3-5 である。
図表 3-5
各カテゴリーの座標ポイント(簡易例 2 次元空間)
0.4
0.2
a2 (-0.038, 0.185)
0.0
a1 (-0.592, -0.101)
1.221
a3 (0.629 -0.084)
-0.2
-0.8
-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
0.8
0.4
b3 (0.339,0.220)
0.2
0.0
b2 (0.621,-0.144)
b1 (-0.489, -0.026)
-0.2
-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
0.8
この座標ポイントにしたがって、カテゴリー間の距離を求めると、先のカイ二乗距離が
- 30 -
再現できる。たとえば行変数のカテゴリーa1,a3 についての次元空間上の距離は、
(0.592  0.629) 2  (0.101  0.084) 2  1.221
となる(この例の場合は最大で 2 次元なので距離が完全に再現できるが、縮約した次元の
場合は完全にはならない)
。
3.5. 現実データへの適用
ここで、社会調査データに基づく実例も確認しておこう。1.3 で提示した性・年齢 12 区
分と就業類型 7 区分との分割表に基づく規準化度数偏差行列は図表 3-6 の通りであり、さ
らにそこから計測される慣性は 0.718 であった。
図表 3-6
性・年齢区分×就業類型の分割表と規準化偏差行列
分割表
経営者
M 20
M 30
M 40
M 50
M 60
M 70
F 20
F 30
F 40
F 50
F 60
F 70
計
2
6
10
37
24
9
0
0
9
15
5
4
121
部長・課長
0
7
36
62
4
0
0
3
0
2
0
0
114
係長・職長
7
45
47
30
2
0
0
2
11
2
1
0
147
役職なし
パート、派遣
92
77
70
68
14
2
70
56
60
46
8
1
564
28
7
6
15
35
7
45
74
87
77
38
6
425
自営業
7
20
35
62
43
21
5
13
29
51
34
20
340
無職
計
20
9
6
33
136
157
54
88
78
122
199
242
1144
156
171
210
307
258
196
174
236
274
315
285
273
2855
規準化偏差
経営者
M 20
M 30
M 40
M 50
M 60
M 70
F 20
F 30
F 40
F 50
F 60
F 70
-0.034
-0.009
0.007
0.124
0.074
0.005
-0.051
-0.059
-0.014
0.008
-0.038
-0.042
部長・課長
係長・職長
-0.047
0.001
0.178
0.266
-0.037
-0.052
-0.049
-0.039
-0.062
-0.056
-0.063
-0.062
-0.007
0.228
0.206
0.067
-0.058
-0.059
-0.056
-0.055
-0.015
-0.066
-0.067
-0.070
役職なし
0.206
0.139
0.083
0.018
-0.097
-0.110
0.114
0.026
0.015
-0.039
-0.120
-0.135
パート、派遣
0.019
-0.068
-0.085
-0.085
-0.010
-0.077
0.070
0.123
0.135
0.082
-0.013
-0.102
自営業
無職
-0.050
-0.002
0.037
0.079
0.041
-0.009
-0.065
-0.053
-0.012
0.041
0.000
-0.041
-0.101
-0.135
-0.159
-0.152
0.060
0.166
-0.035
-0.013
-0.057
-0.007
0.149
0.237
規準化度数偏差行列について特異値分解を行うと、その結果は、図表 3-7 のようにまと
められる。さらに、固有値とそれに基づく寄与率の累積について、次元ごとの変化をプロ
ットしたのが図表 3-8 である。プロットを確認しながら必要な次元数について検討してい
くと、固有値の降下が緩やかになる肘(elbow)は、次元 3 の箇所に見られるので、その手
前である次元 2 までを対象としてみる。また次元 2 までの累積寄与率を確認すると、慣性
に対する説明力は 2 次元空間によって 84.4%と十分に高いと言えよう。
- 31 -
図表 3-7
性・年齢区分×就業類型の特異値分解
次元
固有値
(寄与率)
(累積)
固有
ベクトル
(行)
1
0.426
(59.3%)
(59.3%)
-0.194
-0.395
-0.482
-0.406
0.172
0.305
-0.021
0.059
0.000
0.103
0.318
0.413
-0.093
-0.399
-0.464
-0.446
0.064
-0.076
0.639
固有
ベクトル
(列)
図表 3-8
2
0.181
(25.2%)
(84.4%)
0.419
0.044
-0.253
-0.467
-0.158
-0.226
0.391
0.334
0.318
0.133
-0.107
-0.262
-0.271
-0.489
-0.192
0.481
0.554
-0.241
-0.233
3
0.070
(9.8%)
(94.2%)
0.199
0.564
0.177
-0.452
-0.209
0.189
0.026
-0.151
-0.235
-0.313
0.080
0.380
-0.346
-0.345
0.503
0.272
-0.519
-0.262
0.310
4
0.026
(3.6%)
(97.8%)
-0.491
0.410
0.108
-0.355
0.176
-0.096
-0.370
-0.013
0.376
0.272
0.100
-0.225
-0.025
0.406
-0.607
0.478
-0.353
-0.303
0.142
5
0.014
(2.0%)
(99.8%)
-0.377
-0.233
0.383
-0.030
-0.523
-0.146
0.074
0.490
0.111
-0.187
0.189
0.179
0.643
-0.526
-0.169
0.245
-0.337
0.306
-0.116
6
0.002
(0.2%)
(100.0%)
-0.235
0.195
-0.272
0.150
0.270
0.149
0.100
0.269
0.323
-0.590
-0.409
0.113
0.585
0.032
0.215
-0.093
0.180
-0.750
0.088
慣性
0.718
(100.0%)
次元ごとの固有値と累積寄与率の変化
0.5
100%
0.4
80%
0.3
60%
固有値(左目盛)
0.2
累積寄与率(右目盛)
0.1
40%
20%
0.0
0%
1
2
3
4
5
6
次元
2 次元空間上のカテゴリー座標を求め、行・列それぞれの変数のカテゴリー群の位置関
係を示したのが図表 3-9 である。なお、先だって 1.3 で図示した次元空間は、両変数の「結
合プロット」であるが、異なる変数のカテゴリー間距離(例.
「F60(女性 60 代)」と「無
職」が近い)として解釈することは厳密にはできない。本来、対応分析において着目し再
..............
現しているのは、同一変数内のカテゴリー間距離(例.「F70」と「M70」が近い)だから
である。したがって、異なる変数のカテゴリーについては、次元軸における方向性につい
ての大まかな遠/近として捉える方が無難であろう。
それぞれの変数について得られたカテゴリー布置にしたがって、2 つの次元軸が何を表
しているのかを検討・解釈していこう(手順④)
。まず次元 1(横軸)について、性・年齢
変数の布置では、プラス方向に男性 30 代~50 代(M30, M40, M50)、マイナス方向には男
- 32 -
女 60 代以上(F70, M70, F60, M60)が位置している。また就業類型変数の布置では、プラ
ス方向には「常勤:係長・主任」
「常勤:部長・課長」といった管理職が、マイナス方向に
は「無職」が位置している。これらを勘案すると、この次元軸は、男性中年層・企業組織
の基幹労働(+)/高年層・職業生活の引退(-)の対比を表すと言えるだろう。先の寄
与率で見たように、この 1 次元で全体の度数分散の 6 割近くが説明される。
図表 3-9
各カテゴリーの座標ポイント(性・年齢区分×就業類型 2 次元空間)
1.0
1.0
M 20
0.8
F 20
F 30
0.6
0.8
パート、派遣
0.6
F 40
0.4
F 50
0.2
M 30
0.0
-0.2
-0.4
0.2
F 60
F 70
常勤:役職なし
0.4
0.0
M 60
-0.2
M 40
M 70
常勤:係長・
職長
自営業
無職
-0.4
-0.6
-0.6
M 50
経営者・役員
-0.8
-0.8
-1.0
常勤:部長・
課長
-1.0
-1.2
-1.0 -0.8 -0.6 -0.4 -0.2 0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
-1.2
-1.0 -0.8 -0.6 -0.4 -0.2 0.0
0.2
0.4
0.6
0.8
1.0
1.2
次に、次元 2(縦軸)について、性・年齢変数の布置では、プラス方向に男性 20 代(M20)
および女性 20 代~40 代(F20,F30,F40)、マイナス方向には男性 40 代以上(M40-70)や女
性 70 代(F70)などが位置している。就業類型変数の布置では、プラス方向に「パート・
派遣」
「常勤・役職なし」
、マイナス方向には「常勤:部長・課長」
「経営者・役員」などが
位置している。この次元軸はやや解釈が難しいが、次元 1 プラスの部分(基幹労働)にと
くに着目しつつ、若年層・キャリア開始または途上(+)/中高年層・キャリア到達(-)
の対比を表すと考えられる。
この例のように、
次元軸の解釈が難しい場合もあるが、無理にその解釈を試みるよりも、
次元空間全体におけるカテゴリーの遠/近に着目する方が実践的である。たとえば、性・
年齢変数のまとまりに着目してみると、そのカテゴリーの位置関係はもう一方の変数であ
る就業類型に関する特徴の類似/非類似を意味するので、空間右下に位置する男性 40・50
代のまとまり(管理職が特徴的)
、空間上部に位置する女性 20~40 代のまとまり(パート・
派遣が特徴的)
、空間左下に位置する 60・70 代のまとまり(無職が特徴的)、といったこと
が見て取れる。また、年齢段階による軌跡をたどってみると、男性の場合は空間(右)上
→右下→左下であり、就業類型でみると常勤・役職なし→管理職→無職がその軌跡に対応
しているのに対し、女性の場合は空間上→左下であり、就業類型ではパート・派遣→無職
という対応が確認できよう。このように、分割表における度数の分散を説明する主要な次
元空間を抽出した上で、
「次元軸」の解釈だけにこだわらず、その空間上のカテゴリー布置
をもとに柔軟に解釈していくのも、この対応分析の結果を検討していく際には重要である。
- 33 -
1.4
1.6
3.6. 多重対応分析
ここまで扱ってきた例のように離散変数が 2 つである場合とは異なり、3 つ以上の変数
を同時に利用するための手法として、多重対応分析を紹介しておきたい。変数に含まれる
カテゴリーの位置関係を次元空間上に表すという主旨については、対応分析とまったく同
じであるが、分析の過程において以下のような相違点がある。
(1) 解析用データの作成
対応分析では 2 変数による二元分割表に基づいて解析用データが作成されたが、多重対
応分析においては、離散変数をすべてダミー変数に変換した上での個体×ダミー変数の行
列(指標行列 indicator matrix と言う)
、あるいは利用する変数ペア間の二元分割表をすべて
合併した多重分割表(バート行列 Burt matrix と言う)に基づく。個体×ダミー変数行列は、
図表 3-10 のような形式をもつ非対称行列である。
図表 3-10 指標行列の例
1
2
3
4
5
6
7
8
9
10
11
:
:
a1
1
1
1
0
0
0
0
0
0
1
1
:
:
a2
0
0
0
1
1
1
0
0
0
0
0
:
:
a3
0
0
0
0
0
0
1
1
1
0
0
:
:
b1
1
1
0
1
0
0
0
0
0
1
0
:
:
b2
0
0
1
0
1
0
1
1
0
0
0
:
:
b3
0
0
0
0
0
1
0
0
1
0
1
:
:
c1
1
0
0
1
0
0
1
1
0
1
0
:
:
c2
0
1
1
0
1
1
0
0
1
0
1
:
:
後者の多重分割表は図表 3-11 のような形式をもつ、すべての離散変数のカテゴリーを連
結させた対称行列であり、左上から右下にかけて位置する同一変数内に含まれる部分は対
角行列となる。なお、指標行列 Z とバート行列 B の関係は B = Z' Z という関係にあり、
実践上はどちらか一方の行列に基づいて分析を行えば良い。
図表 3-11 バート行列の例
a1
a2
a3
b1
b2
b3
c1
c2
a1
100
0
0
80
10
10
40
60
a2
0
100
0
50
20
30
30
70
a3
0
0
100
20
50
30
50
50
b1
80
50
20
150
0
0
80
70
b2
10
20
50
0
80
0
20
60
b3
10
30
30
0
0
70
20
50
c1
40
30
50
80
20
20
120
0
c2
60
70
50
70
60
50
0
180
(2) 慣性の分解と再現性評価
バート行列を見れば明らかなように、同じ変数内の異なるカテゴリー(例.a1 と a2)に
含まれる度数は当然“0”であり、度数分散である慣性をそのままの形から求めると、それ
らの部分の分散が過大評価されてしまう。それと連動して、次元分解の際に析出される固
- 34 -
有値(および寄与率)が過小評価されることにもなる。先の対応分析で慣性を求めたのは
異なる変数間の部分(例.a1~a3×b1~b3)であるので、多重対応分析においてもそうし
た非対角(off-diagonal)の部分の慣性や固有値として調整する必要がある。このような固
有値およびそれに基づく寄与率は、Benzécri(1992)あるいは Greenacre(1993, 2006)によ
って調整済み慣性(adjusted inertia)として提起され8、多重対応分析の分析結果に利用され
ている。
実際の分析例を見てみよう。
主成分分析において取り上げた福祉意識に関する 4 変数を、
連続変数ではなく離散変数として捉え、それらに含まれるカテゴリーを多重対応分析にか
けた結果を図表 3-12 に示す。まず次元 1(横軸)の調整済み寄与率は 32.5%で、プラスの
方向には各変数のカテゴリー“1”および“5”という両極が位置しており、原点付近とマ
イナス方向にその他の中間的なカテゴリーが位置する。次元 2(縦軸)の調整済み寄与率
は 24.7%で、プラス方向にカテゴリー“5”、マイナス方向にカテゴリー“1”が位置する。
これらの変数を連続変数として扱った主成分分析(→2.3)では、第 1 主成分として 4 変数
全体にわたる「福祉の政府責任」が析出されたが、今回の分析においてそれは次元 2(カ
テゴリー“5”
:国や自治体の責任)として表れている9。
図表 3-12 福祉意識に関する多重対応分析結果
3.0
λ2(adj )= 0.134
(24.7%)
d5
2.5
c5
2.0
1.5
a5
1.0
b5
0.5
λ1(adj )= 0.177
(32.5%)
0.0
d1
-0.5
c1
-1.0
-1.5
a1
b1
-2.0
-2.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
※ 図中の記号は項目と選択肢番号を示し、たとえば“a1”は項目 A の選択肢 1 というカテゴリーを表
す。また同一項目については、選択肢番号順に点線で結んである。
8
修正済み慣性は同じだが、その寄与率について、Greenacre(2006)は Benzécri の方法が”optimistic”であ
ると指摘し、異なる計算方法を提示している。
9
順序尺度の変数を(多重)対応分析にかけた結果として、こうした U 字形が表れる場合、それは「馬蹄
(horseshoe)問題」と呼ばれ、当該次元(この例では次元 1)の扱いや解釈については慎重を期する。た
とえば、この例では、次元 2(縦軸)だけを主要次元として取り上げるか、次元 1(横軸)にも着目して
「両極の選択肢回答/中間の選択肢回答」と積極的に解釈するかは判断が分かれる。
- 35 -
3.7. 補足事項
最後に、いくつかの事項について補足しておこう。1 点目は、各カテゴリーに含まれる
ケース数の影響についてである。座標ポイントを求める際に、カテゴリーの構成比率(マ
ス)の逆数を用いていることからも、ケース数の少ないカテゴリーはそのポイントについ
て極端な値を取りやすい傾向にある。これに対する対処として、(1)解析前にケース数が著
しく少ないカテゴリーを他と合併する、(2)解釈の際には座標ポイントだけでなく、次元軸
に対するそれぞれのカテゴリーの寄与度(contribution)も考慮する、(3)次元空間上にプロ
ットする場合には、ケースの多少も判明するようポイントの大小もあわせて表示するとい
ったことがなされる。
2 点目は、対応分析と類する解析手法についてである。この名称は、Benzécri にはじま
るフランスで発展してきた手法として位置づけられるが、他にも数理的にこれと同等の手
法が個別に展開されてきており(最適尺度法、双対尺度法、等質性分析など)、とくに日本
においてはそれらより早く(1950 年代)から、林知己夫による数量化 III 類として定式化
されたという経緯がある。数量化 III 類は、分割表から次元軸を抽出するというより、個体
×2 値変数のデータ(→3.6 の指標行列)に基づいて、両要素の相関が最大になるような次
元軸を抽出するという考え方を基礎に置いている。このように発想の基礎が異なるために、
別系統として展開されてきたが、数理的には同等の手法であることが明らかになっている
(したがって、本章での分析例は数量化 III 類でも再現可能である)。
3.8. 分析プログラム R による実践
#1
m1 <- as.matrix(read.delim("clipboard", head=FALSE))
#2
rownames(m1) <- c("M20", "M30", "M40", "M50", "M60", "M70", "F20", "F30", "F40",
"F50", "F60", "F70")
#3
colnames(m1) <- c("経営者", "部長・課長", "係長・職長", "役職なし", "パート・派遣
", "自営業", "無職")
#4
print(m1)
#1
分割表をクリップボードにコピーし、それを行列データ m1 として読み込む
#2
データ m1 行変数のカテゴリー名を付与
#3
データ m1 列変数のカテゴリー名を付与
#4
分割表の確認
- 36 -
〔出力〕
M
M
M
M
M
M
F
F
F
F
F
F
20
30
40
50
60
70
20
30
40
50
60
70
経営者
2
6
10
37
24
9
0
0
9
15
5
4
部長・課長
0
7
36
62
4
0
0
3
0
2
0
0
#5
library(MASS)
#6
corresp(m1,2)
#5
係長・職長
7
45
47
30
2
0
0
2
11
2
1
0
役職なしパート・派遣 自営業
92
28
7
77
7
20
70
6
35
68
15
62
14
35
43
2
7
21
70
45
5
56
74
13
60
87
29
46
77
51
8
38
34
1
6
20
対応分析を含むライブラリー“MASS”を読み込む(当該パッケージをあらかじめインストール
しておく)
#6
分割表 m1 に基づき、対応分析の 2 次元解を求める
〔出力〕
First canonical correlation(s):
0.6524147 0.4251425
Row scores:
M20
M30
M40
M50
M60
M70
F20
F30
F40
F50
F60
F70
無職
20
9
6
33
136
157
54
88
78
122
199
242
[,1]
0.8286926218
1.6150707990
1.7771655889
1.2388285377
-0.5732481075
-1.1637467447
0.0834452878
-0.2068614507
0.0006126783
-0.3089599012
-1.0067272873
-1.3355835987
[,2]
1.7944989
0.1783740
-0.9333673
-1.4256340
-0.5259578
-0.8641271
1.5823925
1.1600706
1.0279525
0.3997429
-0.3393971
-0.8485853
Column scores:
経営者
部長・課長
係長・職長
役職なし
パート・派遣
自営業
無職
[,1]
0.4524779
1.9974288
2.0436120
1.0044009
-0.1659502
0.2212167
-1.0087715
[,2]
-1.3153903
-2.4463634
-0.8482657
1.0830378
1.4352493
-0.6988097
-0.3675492
- 37 -
#7
CA1 <- corresp(m1,2)
#8
biplot(CA1)
#7
対応分析の結果を CA1 とする
#8
結果の布置を同時プロットする
〔出力〕
-0.5
0.0
0.5
1.0
1.0
1.0
-1.0
M20
パート・派遣
F30
F40
0.5
0.5
F20
役職なし
0.0
M30
0.0
F50
M60
自営業
係長・職長
M40
-0.5
F70M70
経営者
-0.5
F60無職
部長・課長
-0.5
0.0
0.5
-1.0
M50
1.0
【本章で利用した調査データ】
日本在住の 20~89 歳男女を対象としてほぼ毎年実施されている「日本版総合社会調査
(Japanese General Social Surveys: JGSS)」の 2002 年調査に含まれているデータを利用し
た。就業類型を作成するために用いた設問は、以下の通り。
(面接調査票 問 1-1)先週、あなたは収入をともなう仕事をしましたか、または仕事をすることにな
っていましたか。この中からあげてください。
1 仕事をした
2 仕事をすることになっていたが、病気、休暇などで先週は仕事を休んだ
3 仕事をしていない
(面接調査票 問 2-1)あなたの仕事は、大きく分けて、この中のどれにあたりますか。
1 経営者・役員
8 臨時雇用・パート・アルバイト
2 常時雇用の一般従事者 役職なし
9 派遣社員
3
〃
職長、班長、組長
10 自営業主・自由業者
4
〃
係長、係長相当職
11 家族従業者
5
〃
課長、課長相当職
12 内 職
6
〃
部長、部長相当職
13 わからない
7
〃
役職はわからない
- 38 -
これらに基づいて、分析に際しては、以下のような 7 類型とした。
問 1-1
問 2-1
就業類型
仕事をしていない
―――
無職
経営者・役員
経営者・役員
仕事をした
仕事を休んだ
常時雇用
部長、部長相当職
常時雇用
課長、課長相当職
常時雇用
係長、係長相当職
常時雇用
職長、班長、組長
常時雇用
役職なし
臨時雇用・パート・アルバイト
派遣社員
常勤:部長・課長
常勤:係長・職長
常勤:役職なし
パート、派遣
自営業主・自由業者
家族従業者
自営業
内職
※ 日本版 General Social Surveys(JGSS)は、大阪商業大学比較地域研究所が、文部科学省から学術フ
ロンティア推進拠点としての指定を受けて(1999-2003 年度)、東京大学社会科学研究所と共同で実施
している研究プロジェクトである(研究代表:谷岡一郎・仁田道夫、代表幹事:佐藤博樹・岩井紀子、
事務局長:大澤美苗)。東京大学社会科学研究所附属日本社会研究情報センターSSJ データアーカイブ
がデータの作成と配布を行っている。
- 39 -
4 多次元尺度構成法 (MDS)
4.1. 解析用データ:対象間の距離・類似度
多次元尺度構成法(以降は“MDS”)では、対象間の距離や非類似度の大/小を、次元
空間上における遠/近として表すことを目的とする。したがって、用意する解析用データ
は、対象×対象の距離、非類似度または類似度を表す正方行列である(手順①)。図表 4-1
は、先の 1.5(5)でも提示した職業を対象とした行列であるが、それらの「類似度」を表す
ものであり、その値が大きいほど当該職業ペアが似ている(近い)ことを示す。その中で
は、
「4.公務員」と「2.警察官」が類似度 158 で最も似ており、逆に最も似ていないのは「9.
医師」と「7.受付事務員」の類似度 2 である。この行列では、対角セルにある同じ対象同
士(例.
「1.記者」と「1.記者」
)はデータとしてとくに必要ではないため(当然「類似度」
が高い)
、また対角線を境として右上の部分は、すでにデータがある左下部分と同じである
ため、いずれも省略され空欄となっている10。
図表 4-1
職業間の類似度行列
1
1
2
3
4
5
6
7
8
9
10
記者
警察官
印刷作業者
公務員
美容師
販売店員
受付事務員
会社経営者
医師
衣服仕立て職
2
3
4
5
6
7
8
9
41
19
7
35 158
27
8
19
6
28 14
29 13
28 39
19
5
5
19
35
29
13
3
56
8
8
30
16
34
5
36
16
11
34
95
56
12
5
44
46
2
22
22
8
15
10
ちなみにこのデータは、調査において(ここで提示した 10 職業を含む)36 個の職業名
が記されたカードを回答者に渡し、回答者自身が「似ている」と判断した職業同士をグル
ープとしてまとめる作業に基づいて作成された。回答者ごとに各職業ペアが同じグループ
の場合に“1”
、異なるグループの場合は“0”が付与され、それを全回答者(N=200)で総
和した結果がここでの類似度行列として提示されている。したがって、ここでの「類似度」
とは、200 人の回答者のうち何人が当該ペアを同じグループに含めたかを表す。このよう
な同時生起の頻度を用いた測定方法は、共起(co-occurence)と呼ばれる。
対象間の距離や(非)類似度は、必ずしもこのような方法によってのみ計測されるだけ
でなく、対象×対象特性といった形式のデータからも作成することができる。図表 4-2(a)
は、先の 10 職業について、
「社会的評価」
「自律性の高さ」「個人技能の発揮」という 3 つ
の特性基準が「あてはまる」と回答されたそれぞれの比率であり、ここから各職業ペア間
の比率の差に基づくユークリッド距離を求めることができる。ユークリッド距離とは、特
性 k に関する対象 i と対象 j の値 x k に基づき、
●
10
この例のような形式は、
「下三角行列」と言う。対角セルや右上部分の値もすべて含めた正方行列でも
分析上違いはない。
- 40 -
Euclid (i , j ) 
K
(x
ik
 x jk ) 2
k 1
から求められる。たとえば「1.記者」と「2.警察官」の距離は、 (15  43) 2  (28  4) 2  (57  28) 2
より 47 となる。10 職業間のユークリッド距離を求めた結果が図表 4-2(b)であり、その中で
は、
「3.印刷作業者」と「7.受付事務員」が距離“14”で最も近く、逆に遠いのは「7.受付
事務員」と「8.会社経営者」の距離“127”である。先の類似度と比べる場合、類似度/距
離という逆方向である点に注意する必要はあるが、測定方法によって対象間の距離や類似
度の構造が異なって現れる可能性があることは念頭に置く必要があろう。
図表 4-2(a) 職業 3 特性の該当比率
1
2
3
4
5
6
7
8
9
10
職業名
記者
警察官
印刷作業者
公務員
美容師
販売店員
受付事務員
会社経営者
医師
衣服仕立て職
評価 自律 技能
15 28 57
43
4 28
0 10 13
43
6
3
12 41 86
0 15 32
0
2
2
78 77 68
88 35 82
1 16 49
図表 4-2(b) 特性比率に基づく職業間ユークリッド距離行列
1
1
2
3
4
5
6
7
8
9
10
記者
警察官
印刷作業者
公務員
美容師
販売店員
受付事務員
会社経営者
医師
衣服仕立て職
47
50
65
32
32
63
81
77
20
2
3
4
46
25 44
75 80 95
45 20 53
50 14 43
90 117 102
77 115 95
48 37 63
5
6
7
8
9
61
93 33
77 106 127
76 103 123 45
46 17 49 100
95
10
4.2. 初期布置と点間距離
1.5 で紹介したように MDS ではいくつかの方法があるが、ここでは、Kruskal(1964)が
提起した方法、すなわち(非)類似性の程度の大小関係だけを考慮するなど解析に際して
制約が少なく、より多様なデータに対応可能な非計量的(non-metric)な方法にしぼって解
説を進めていく。その方法においては、主成分分析や対応分析のような「次元軸を抽出し、
その空間上の布置を定める」というよりも、
「あらかじめ設定した次元空間と布置を、実際
のデータに適合するよう改善していく」というプロセスをたどる(手順②)
。つまり、次元
数や次元軸上の対象の位置(布置)は、仮のもので良いので、解析前に設定しておく必要
がある。この最初に設定する「仮の布置」のことを初期布置(initial configuration)と言い、
この設定の仕方について、ランダムな配置や既存の布置11の利用、そして合理的初期布置
11
先行する同種の研究で析出された布置のほか、同一データにおいてより高次の次元数を設定して析出さ
れた布置に基づくことが多い。後者が分析プログラムとして組み込まれている場合、複数にわたる次元数
- 41 -
または Togerson 法と呼ばれる方法がある。合理的初期布置とは、計量的(metric)な方法
によって抽出された次元空間上の布置であり、それを非計量的方法に導入するのは矛盾す
るように思われるかもしれないが、あくまでも「仮の布置」として参考にするといった程
度に考えれば良い。その方法について詳細は省略するが、対象×対象の二乗距離行列に対
して二重に中心化を施した後、その行列から得られる固有ベクトル(または、それに定数
を乗じた値)を初期の座標ポイント(布置)として用いることになる(cf. Togerson
1952=1968)
。なお、対象間の距離は相対的なものであるので、全体の次元空間の大きさは
任意に定めることができる。ここでは利用する分析プログラムの関係上12、次元 k におけ
る対象 i の座標ポイント xik について、その二乗和が対象数となるよう制約を置く
(
K
I
 x
N
A
B
C
D
0.531
1.233
1.132
1.720
1.594
1.416
2.223
2.089
1.875
1.261
)
。
2
ik
k 1 i 1
図表 4-3
A
B
C
D
E
A
0
4
3
1
8
距離データの簡易例
B
4
0
6
5
10
図表 4-4
C
3
6
0
9
7
D
1
5
9
0
2
E
8
10
7
2
0
初期布置とそれに基づく点間距離 d
1.2
A
B
C
D
E
C [-0.59, 1.02]
1.0
0.8
E
0.6
E [1.19, 0.43]
0.4
0.2
0.0
A [-0.41, -0.20]
-0.2
-0.4
-0.6
d (A,B) = 0.531
D [0.61, -0.69]
B [-0.80,-0.56]
-0.8
-1.0 -0.8 -0.6 -0.4 -0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
1.4
初期布置が定まったら、次はデータへの適合性を確認し、より適合的になるように新た
な布置を求めるプロセスに移る。簡易例によって、そのプロセスを追ってみよう。図表 4-3
は対象 A~E の「距離」を表す行列であり、次元数 2 とした場合の初期布置を図表 4-4 の
通り設定した。
さらに、
この初期布置において再現される各対象ペアの距離は点間距離
(
“d”
と表記)と呼ばれるが、これを先のユークリッド距離にしたがって求めると、全 10 ペアの
を指定することで、ある次元における最終布置に基づいて、1 つ低次の分析における初期布置が自動的に
設定される(cf. 岡太・今泉 1994)
。
12
4.6 までの分析では、今泉忠・岡太彬訓による“PCKRUS”を利用した。このソフトウェアについては、
岡太・今泉(1994)
、岡太・守口(2010)を参照。
- 42 -
距離は図表 4-4 右の通り得られた。この時点で、元データの対象間実測距離 s におけるペ
ア間の順序関係と、初期布置の点間距離 d におけるそれとの間には、いくらかの食い違い
が存在する。
図表 4-5
ディスパリティの導出
AD
DE
AC
AB
BD
BC
CE
AE
CD
BE
実測距離
点間距離
s
d
1
2
3
4
5
6
7
8
9
10
1.132
1.261
1.233
0.531
1.416
1.594
1.875
1.720
2.089
2.223
↓
1.507
平均
ディスパリティ
d^1
1.132
1.261
×
→
d^2
1.132
1.247
1.247
×
d^3
1.039
1.039
1.039
1.039
1.416
1.594
1.875
×
不適合2
0.009
0.049
0.038
0.259
0.000
0.000
0.006
0.006
0.000
0.000
↓
総和 0.366
d^4
1.039
1.039
1.039
1.039
1.416
1.594
1.797
1.797
2.089
2.223
実測距離の小さいペアから順に並べ替えた図表 4-5 左を見ていくと、たとえば DE と AC
との順序関係が両距離間で異なっていることがわかる。次の段階では、こうした仮の布置
における実際のデータとの不適合部分について、修正を施していく。具体的には、先の両
距離の順序が単調関係になるように点間距離を調整する。この調整された点間距離のこと
を、ディスパリティ(disparity:
“ d̂ ”と表記)と呼ぶ。図表 4-5 右で、元データの実測距
離の小さい方から順にその調整過程を確認していくと、まず d^1 で先に指摘した DE と AC
との順序関係が逆転しているので、その部分に×印を付しておき、次の d^2 ではそれらの
ディスパリティとして、両ペアの点間距離の平均値を割り当てた(d^2 太枠部分)。以降も
同様に、このような点間距離の逆転部分について、当該ペアの平均値をディスパリティと
して割り当てていくことによって(d^4 まで)、図表 4-6 のように、実測距離とディスパリ
ティとの間に単調関係が成立することになる。なお、このような散布図は、シェパード・
ダイアグラム(Shepard diagram)と言う。
図表 4-6
シェパード・ダイアグラム
2.5
実測距離-点間距離
実測距離-ディスパリティ
点 2.0
間
距
離
・
デ
1.5
ィ
ス
パ
リ
テ
ィ 1.0
0.5
0
1
2
3
4
5
6
7
8
9
10
11
実測距離
- 43 -
4.3. 不適合度の指標ストレスと布置の更新
上記のプロセスは、
(初期)布置における点間距離とデータにおける実測距離との単調な
順序関係が成立するために、前者にいくらかの調整が必要であることを意味し、その調整
の程度はストレス(stress)と言う不適合の指標として計測される(手順③)。このストレ
スは、点間距離 d とその調整距離であるディスパリティ d̂ と差の平方和を用いた下記の種
類がある13。
Stress I 
(d  dˆ )
d
ij
ij
2
ij
2
Stress II 
 (d
 (d
ij
 dˆij ) 2
ij
 d ij ) 2
簡易例について、両距離の差の平方和は 0.366(図表 4-5 右「不適合 2」の「総和」
)であ
り、ここから Stress I = 0.121、Stress II = 0.401 となる。両者の違いは平方根の中の分母にあ
り、当初 Kruskal が提起したのは Stress I であったが、これは布置が少数の個所に集中する
場合(
「退化」と言う)にストレスが小さくなるという欠点があった。そこで、新たな指標
(Stress II)においては、こうした傾向を抑制するために、分母を点間距離の平均からの偏
差平方和とした経緯がある。
以降のプロセスでは、この不適合度指標であるストレス(とくに Stress II)がより小さ
くなるような布置を逐次更新していくことになる。数学的には最適化問題に帰着し、
Kruskal が用いた最急降下法をはじめとして、いくつものアルゴリズムが存在する14。布置
の更新をどの段階まで行うかについては、反復回数とストレス値の変化幅という基準があ
る。
今度は仮想の簡易例ではなく、実際の調査から得られた 36 職業の共起類似度データを用
いた分析を見ていこう。図表 4-7 は、次元数を 2 と設定した後、初期布置からの更新(反
復)ごとに Stress II がどのように変化しているかを見たものである。まず初期布置:反復
0 の段階の Stress II は 0.529 であり、反復 1 のそれは 0.523 と、1 回の更新で 0.006 だけス
トレスが減少したことが確認できる。以降、布置を更新するごとにその値は小さくなって
いる(=実測距離への適合度が高まっている)が、反復 4 回目より後の Stress II の変化は
ほとんど見られなくなっている。布置の更新は際限なく続くので、前段階からのストレス
値の変化が任意の基準(たとえば“0.00001”)を下回った場合、それ以上の更新は微々た
るものであるという考え方から、その時点での布置を最終的な解として、以降の更新を打
ち切るという判断がなされる。あるいは、何回更新してもこうした変化幅の基準を下回ら
ない場合には、反復回数をあらかじめ設定しておいて(たとえば 50 回)、その回数で更新
を打ち切ることもある。この例では、反復 21 回目で前者の基準を下回ったので、そこで更
新を打ち切ることにした。
この最終段階におけるシェパード・ダイアグラムが、図表 4-8 である。横軸には実測の
13
そのほか、Takane, Young and de Leeuw (1977) による S-Stress がある。これは、様々な種類の MDS の統
合的アルゴリズム ALSCAL(alternating least squares algorithm for individual differences scaling)において利
用される不適合度の指標である。
14
ここで詳しく紹介する余裕はないので、
「最適化問題」を扱う非線形計画法の専門書を参照されたい(cf.
高根 1980)
。
- 44 -
共起類似度、縦軸には点間距離およびディスパリティを設定しており、全 630 ペア
(36*(36-1)/2)に関するそれぞれの値をプロットしてある。先の簡易例と異なるのは、実
測の値が「類似度」であるので、それが高いほど距離が小さくなるという反比例の関係性
(右下がり)を示す点である。これを見ると、×印で示した点間距離はばらつきが大きく、
ディスパリティへの調整幅が大きいことが概観できる(したがってストレスが大きい)。
図表 4-7
初期布置からの解の反復とストレスの変化(36 職業の類似度データ)
0.55
0.529
0.523
Stress II
0.50
0.458
0.461
0.45
0.449
0.452
0.40
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21
反復
図表 4-8 2 次元解のシェパード・ダイアグラム(36 職業の類似度データ)
2.5
2
類似度(実測)-点間距離
類似度(実測)-ディスパリティ
1.5
1
0.5
0
0
20
40
60
80
100
120
140
160
また、ストレスはディスパリティという調整距離を利用した不適合度を表すが、より直
接的に、点間距離と実測類似度(距離)との適合性を表すような別の指標を考えてみるこ
ともできる。たとえば、順序尺度間の相関の大きさを表す Speaman’s rho を用いて、点間距
離による実測類似度がどの程度再現されているかを確認できる。先の例では rho= –0.903
と高い値を示しており、点間距離が大きいほど実測類似度が小さいという関係が再現でき
ていることがわかる。
4.4. 次元数の決定と対象布置
36 職業間の類似性は 2 次元空間である程度は再現できるようであるが、その有効性を判
断するにあたっては、ほかの次元数を設定した場合の解析結果と比較検討を行う必要があ
- 45 -
る。図表 4-9 は、最大 7 次元までの解析結果における、それぞれの最終布置のストレス値
を示したものである15。次元数が増えるにしたがって、不適合度であるストレス値は減退
するが、その減退幅が最も大きいのは次元 1→2 の部分であり、それ以降は緩やかなものと
なる。こうした転換部分は、主成分分析や対応分析の固有値変化においても紹介したよう
に、肘(elbow)と呼ばれ、説明力の指標である固有値の場合は、肘の直前までの次元数を
採用したが、不適合度の指標であるストレスの場合は、肘の部分までの次元数を採用する
のが一般的である。この基準にしたがうと 2 次元解となるが、シェパード・ダイアグラム
で見たように、まだ改善の余地は残っているようでもある。次元 2 と次元 3 との適合度の
違いについて、ストレスのほかに順位相関係数 rho も考慮してみると(図表 4-10)
、3 次元
解の方がわずかに適合度が高い程度であった。ただ、ここでは簡略化のため 2 次元解を採
用しつつ、その解における対象布置を確認する。
図表 4-9
次元ごとのストレス(Stress II, Stress I)変化
0.9
0.8
Stress II
0.763
Stress I
0.7
Stress
0.6
0.5
0.454
0.449
0.4
0.350
0.274
0.3
0.212
0.193
0.2
0.171
0.125
0.085
0.1
0.149
0.060
0.045
0.037
5
6
7
0.0
1
2
3
4
次元数
図表 4-10 2 次元解と 3 次元解の適合度比較
―――――――――――――――――――――――――
不適合度
不適合度
適合度
Stress II
Stress I
rho
―――――――――――――――――――――――――
2 次元解
0.449
0.193
-0.903
3 次元解
0.350
0.125
-0.919
―――――――――――――――――――――――――
図表 4-11 は、対象職業の座標ポイント(布置)をプロットしたものであり、すでに説明
したように、その空間上の距離の近/遠は、元データにおける実測類似度の大/小に対応
している。まず横軸の次元 1 から見ていくと、プラス方向には教員・公務員・警察官・議
15
ソフトウェアは今泉忠・岡太彬訓による“PCKRUS”を利用し、最大反復 100 回として解析を行った。
通常は、上位の次元数によって得られた最終布置に基づいて、より下位の次元数における初期布置が設定
されるが、この分析では個々の次元数の内部で初期布置-最終布置を完結させた。
- 46 -
員といった公務系の職業が、マイナス方向にはウェイター・宅配便配達員・印刷作業者・
食料品加工作業者など、サービス職・生産工程に関わる職業が位置している。縦軸の次元
2 については、プラス方向には管理職・営業・事務といった企業組織に属する職業(とく
にホワイトカラー)が、マイナス方向にはデザイナー・建築士といった専門職や、美容師・
コック・大工などの熟練技能職が位置している。
図表 4-11 2 次元解における職業の布置
1.5
次元2+ ↑
企業の管理職
受付事務員
1.0
会社経営者
外回り営業職
経理担当職員
アパート管理人
販売店員
0.5
小売店主
ウェイター
公務員
議員
記者
宅配便配達員
タクシー運転手
0.0
印刷作業者
道路工事作業
警察官
清掃員
中学校教員
電化製品製造
衣服仕立職
-0.5
大工
農業
次元1+ →
介護職員
システムエンジニア
インストラクター
食料品加工
大学教員
保育士
看護師
医師
美容師
パイロット
コック
建築士
-1.0
デザイナー
-1.5
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
図表 4-12 次元軸の回転(例)
1.5
次元2+ ↑
1.0
0.5
0.0
次元1+ →
-0.5
-1.0
-1.5
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
こうした対象布置を吟味しつつ、それぞれの次元が何を表しているかについて解釈する
ことがよく行われる(手順④)
。その際に留意する必要があるのは、非計量的方法の MDS
- 47 -
によって導出される次元軸は、主成分分析や対応分析におけるそれとは異なり、
「次元 1」
....................
が対象間の距離や類似度を最も大きく説明する軸とは必ずしも言えないという点である。
これまでの解析プロセスからもわかるように、次元空間における対象布置は一意に定まる
わけでなく、任意の初期布置からはじまり、それを少しずつ変化(更新)させていくこと、
また更新のプロセスで重要な基準は対象間の距離・類似度の再現であり、次元軸がどこに
引かれるかは便宜的なものにすぎないことがこの解析方法の特徴である。したがって、こ
こで表れた次元 1 および 2 の軸と、それぞれの軸上の位置に拘泥して無理に次元軸を解釈
する必要はなく、場合によっては次元軸を解釈しやすいように回転させることもしばしば
行われる。たとえば図表 4-12 のように、少し右方向へ回転させることによって新たにでき
る軸の方が、そのプラス/マイナス両極に位置する対象の対比がより明確であれば、それ
に基づいた解釈を行えば良い(→4.6 を参照)
。
4.5. 他の特性値・方法を用いた追加分析
解析から得られた(あるいは、それに回転を加えた)次元軸を解釈しようとする場合、
対象の位置関係と言う情報のみでは解釈する分析者の主観に大きく依存する危険性が高い。
そうした場合に、対象に関する別の外的尺度が得られていれば、それを用いた事後的な分
析を行うことによって(手順⑤)
、より妥当な次元解釈が可能となると期待される。
図表 4-13 MDS 次元軸と特性イメージとの相関
0.8
0.6
0.4
0.2
0.0
-0.2
評価 [0.671, -0.147]
自律 [0.024, -0.246]
-0.4
技能 [0.200, -0.519]
-0.6
-0.8
-0.8
-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
0.8
職業間類似度データが得られた調査においては、4.1 で紹介したような 3 つの特性イメー
ジ比率が各職業ごとに別途得られている。それらの値と MDS によって得られた(回転し
ない)座標ポイントとの積率相関係数を計測した上で、空間上にベクトルとしてプロット
したのが図表 4-13 である16。
「評価」
イメージ比率は次元 1 とのプラス相関が高く(r=0.671)
、
16
距離・類似度データとして得られた対象について、何らかの外的な尺度値を援用しつつ、それらの関連
の方向性を、対象の布置とあわせて次元空間におけるベクトルとして表す方法は、
“PROFIT”(property
fitting)という分析プログラムとしても提供されている(Chang and Carroll 1968)
。なお、ここで示した図
表は、対象との同時布置ではなく、次元軸との相関係数の大きさをイメージするためのものである。
- 48 -
「技能」イメージ比率は次元 2 のマイナス相関が高い(r= -0.519)
。「自律」イメージ比率
はいずれの次元とも顕著な相関は見られなかった。先に見た職業の布置とあわせて考える
と、次元 1 はプラス方向に地位の高さを表すとともに、とくに公務系の職業が集中してい
ることから、雇用の安定性も加味された【安定的地位】の軸と解釈できる。次元 2 はマイ
ナス方向に技能の高さを表しており、そこに位置する専門職や熟練職などはそうした個人
技能に依拠しつつ仕事を遂行するのに対して、プラス方向に位置するホワイトカラー職は
依拠する資源が組織にあることが推察される。したがって、これは【組織本位/個人技能
本位】という、仕事遂行に際して依拠する資源の対比を表す軸と解釈できる。
また、MDS の解析用データである対象間距離・類似度を利用した別の分析方法であるク
ラスター分析を展開し、そこで得られた対象グループを MDS 次元空間に反映させること
もある。クラスター分析(cluster analysis)とは、親近性の高い・距離の近い対象同士をま
とめて、少数の「塊」
(クラスター)にすることを目的とした分析のことである(→詳しく
は 7~8 章)
。同じデータを扱いつつ、MDS は次元空間上に対象を位置づけるのに対して、
クラスター分析は対象をグループ化することから、前者は距離の遠い対象同士の対比(ま
たそれを表す次元軸)が、後者は距離の近い対象同士のまとまりを検討するのに適すると
考えられる。職業間類似度データに基づいてクラスター分析を行い17、7 クラスター解にお
ける職業グループ C1~C7 を、先の MDS 次元空間に反映したのが図表 4-14 である。
図表 4-14 MDS 次元空間に反映させたクラスター
1.5
次元2+ ↑
企業の管理職
C4
受付事務員
1.0
会社経営者
外回り営業職
経理担当職員
アパート管理人
販売店員
C7
0.5
ウェイター
0.0
印刷作業者
道路工事作業
公務員
議員
記者
C6
宅配便配達員
タクシー運転手
C1
小売店主
警察官
清掃員
中学校教員
電化製品製造
C3
システムエンジニア
食料品加工
大学教員
次元1+ →
介護職員
保育士
C2
衣服仕立職
-0.5
大工
農業
インストラクター
美容師
看護師
医師
C5
パイロット
コック
建築士
-1.0
デザイナー
-1.5
-1.5
-1.0
-0.5
0.0
0.5
17
1.0
1.5
クラスター分析にはさまざまな手法があるが、ここでは群平均法という連結方法を用いた。クラスター
分析および MDS、数量化 IV 類といった、対象間距離データを扱う解析手法については、齋藤・宿久(2006)
が参考になる。
- 49 -
C1(クラスター1)は公務系職業、C2 は医療・福祉職、C3 は(解釈が難しいが)他に含
まれない専門職、C4 は組織内ホワイトカラー、C5 は技術・技能職、C6 は独立業主、C7
は生産・販売・サービスといった現業職のようにまとめられる。MDS 次元軸との関連性に
ついて、その両極に位置するのは、次元 1(横軸)では C1-C7、次元 2(縦軸)では C4
-C5 であり、それぞれ先に解釈した次元軸の特性を再確認するための追加的な情報となる
であろう。なお、この空間上ではやや離れた位置にある(そのため点線で結ぶ必要のある)
C3 および C6 は、一見すると MDS の結果とは矛盾するように思えるかもしれない。この
ようなクラスターが検出された場合は、それ以外の次元(この例では次元 3)をあらため
て検討する必要があるかもしれないので、MDS における次元数の妥当性を確認する意味で
も、クラスター分析の併用は重要であると言える。
4.6. 補足事項
最後に、若干の補足を加えておこう。1 点目は、そのデータ収集方法についてである。
ここで例示した職業間類似度行列を得た調査においては、職業名が記された 36 枚のカード
を分類してもらう作業によってデータ化されたものである(→4.1)。調査票に回答を記入
する方式の調査と異なり、このようにカードを分類してもらうデータ収集法は、パイルソ
ート(pile-sort)と呼ばれ、また分類基準を指定しない場合はフリーソート(free-sort)と
も言う18。それに基づいて、ある職業ペアが同じグループの場合に“1”、異なるグループ
の場合は“0”として、職業ペア間の類似/非類似がデータ化される。他方、対象間の類似
度を計測する方法はこれだけではない。2 つの対象(ペア)を提示してそれらの類似の程
度を、何段階かの尺度値を用意した上で、個々に評定してもらうという方法、あるいは 3
つの対象を提示して、類似する 2 つとそれらと類似しない 1 つとを区分してもらう方法な
どが挙げられる。ただし、これらの方法の難点は、対象数が多くなるにつれ提示するセッ
トが飛躍的に増えることにある。たとえば 36 職業の場合、2 つの対象をペアとして考える
と、36* (36-1) / 2 = 630 セットを要する。これだけの数の類似度評定を、1 人の回答者ごと
に行ってもらうことは、通常の社会調査ではきわめて困難であろう19。これと比べれば、
カードの分類作業は相対的に少ない労力で類似/非類似の情報が得られるため、社会調査
において効率性が高い。しかしながら、分類に基づくデータは、個々の回答者単位で見る
と、得られる情報が少ないことがその限界となる。つまり、ある対象ペアについての類似
性判断が、2 値情報(同じ/異なるグループ)としてしか得られないことに、あらかじめ
留意しておかなければならないのである。
2 点目は、このデータ収集法とも連動するが、類似性判断の回答者間バリエーションを
どのように扱うかについてである。ここで職業間類似測度として扱った共起(co-occurence)
は、ある対象ペアについて回答者ごとの類似=1/非類似=0 という 2 値データの単純総和で
18
分類によるデータ収集については Coxon(1999)が詳しい。
その旨を承諾した少数の実験協力者によって多数の評定が行われることもあるが、回答者を何群かに分
け、各群に異なるペアセットを割り当てたり、すべてのペアの中から一部だけを系統的に取り出し、それ
らの評定によって構成される、特定のペアに関して欠損値をもつ不完全距離行列(incomplete proximity
matrix)に基づいて MDS の解析を行うことがある。
19
- 50 -
ある。他方、個々の回答者によるフリーソートにおいては、作成したグループの数やサイ
ズが大きく異なっていたり、
回答者により分類基準が異なっている可能性も考えうるので、
共起を類似測度として扱う前に、これらについての慎重な検討が必要になる。前者の場合
には、分類された各グループのサイズに基づいて、ある対象ペアが含まれるグループのサ
イズに応じたウェイトを、2 値データに付与することもある(Burton 1972、Coxon 1999)
。
後者の場合には、回答者をいくつかの集団(属性別、分類基準別20など)に分けた上で、
その集団ごとに対象間の類似度(距離)行列を作成し、MDS の解析に臨むという対処がな
される。このように、複数種類の類似度(距離)行列が解析用データとして得られた場合、
それぞれについて MDS を実行することのほか、各次元の重要性の違いに着目する個人差
多次元尺度法(individual difference scaling: INDSCAL)がしばしば利用される。そこでは、
対象について共通の布置をもちつつも、次元 1,2,...,k の持つ相対的な重要性が複数の個人や
集団ごとに異なることを前提とし、それに応じた各個人(集団)
・各次元ごとの重みが推定
される。
3 点目は、解析によって得られた次元軸の回転についてである。先の 4.4 で少し触れたよ
うに、非計量 MDS における次元軸は便宜的なものであるので、解釈がしやすいように軸
を回転させることができる。その方法にはさまざまなものがあるが、軸を回転させること
による新たな座標ポイントは、次元の座標ポイント行列に特定の変換行列をかけあわせる
ことによって得ることができる。たとえば、(1)任意の角度をつけて回転させるような変換
行列、(2)座標ポイントの大/小がそれぞれの次元ごとにメリハリがつくよう回転させる変
換行列(→バリマックス回転など)
、(3)目標とする座標ポイント行列を設定しつつそれに
最も近くなるよう回転させる変換行列(→プロクラステス回転)などが挙げられる。なお、
これらの回転方法は因子分析などにおいてもよく用いられるので、必要に応じて専門書を
参照されたい。
4.7. 分析プログラム R による実践
#1
d1 <- as.dist(read.delim("clipboard", head=FALSE))
#2
d2 <- 200-d1
#3
library(MASS)
#4
isoMDS(d2, k=2)
#1
職業類似度行列をクリップボードにコピーし、それを距離データ d1 として読み込む
#2
類似度行列 d1 を距離行列 d2 に変換(最大値 200 から減算)
#3
MDS を含むライブラリー“MASS”を読み込む(当該パッケージをあらかじめインストールして
おく)
#4
距離行列 d2 に基づき、非計量 MDS で 2 次元解を求める
.............
調査において分類基準を尋ねていなくとも、回答者を単位(対象)とした距離データを作成し、クラス
ター分析によって、似たような分類を行った回答者集団としてまとめることもできる(林 2009)
。
20
- 51 -
〔出力〕
initial value 23.288624
final value 23.282958
converged
$points
[,1]
[,2]
V1
30.4336301
-2.590189
V2
90.4107148 -19.869630
V3
-74.7281980 -15.145389
V4
89.1193664 -32.412724
V5
-9.8816684
88.227792
V6
-43.7451401 -21.397936
V7
-15.8467160 -76.381110
V8
18.7746027 -50.196602
:
:
$stress
[1] 23.28296
#5
MDS1 <- isoMDS(d2, k=2)
#6
plot(MDS1$points)
#7
text(MDS1$points[,1], MDS1$points[,2], pos=3)
#5
分析結果を MDS1 とする
#6
結果 MDS1 の布置$points を点プロットする
#7
対象のラベルを点の上部に付与する
〔出力〕
5 15
23
21
26
10
50
17
22
30
32
11
0
13
3128
19
3
1
12
25
6
14
24
36
35
16
220
4
27
8
-50
MDS1$points[,2]
9
18
33
-50
7
34
29
0
50
100
MDS1$points[,1]
- 52 -
【本章で利用した調査データ】
東京都 23 区に居住する 25~39 歳男性雇用者を対象として、
2008 年 9 月に実施された
「職
業のイメージに関する調査」
(平成 19~21 年度科学研究費補助金 基盤研究(C)課題番
号 19530441)のデータを利用した。
※ 本データは、立教大学データアーカイブ RUDA において公開されており、所定の申請手続きを経て
利用することができる。
(問 2:職業名が記載された 36 枚のカードを手渡して)
○ あなたが「似ている」と思う職業をまとめて、グループ分けを行ってください。
○ どのような基準で「似ている」と判断するかに正解はありません。また、その基準を正確に決め
なくてもかまいませんので、あなたが直感的に「似ている」と思うものをグループとしてまとめ
てください。
○ 1つのグループに含めるカードの数には、とくに制限はありません。他のどれとも似ていないと
思ったら、1つのカードを1つのグループとして扱っても結構です。
○ グループの数についても、とくに制限はありません。だいたいの目安としては 10 グループ以内
ですが、これを超えてもかまいません。
(問 4:調査票に記入してもらう形式で)
いくつかの職業に関して、具体的なイメージをおたずねします。以下の(a)~(c)に示すそれ
ぞれのイメージについて、あなたがあてはまると思う職業の番号に、いくつでも良いので○をつけ
てください。
(a)
「人々からの評価が高い」というイメージ
(b)
「自分の判断によって、仕事をすすめていくことができる」というイメージ
(c)
「個人の能力・技術が発揮される」というイメージ
- 53 -
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
記者
警察官
印刷作業者
公務員
美容師
販売店員
受付事務員
会社経営者
医師
衣服仕立て職
システムエンジニア
ウェイター
介護職員
清掃員
デザイナー
大学教員
パイロット
インストラクター
道路工事作業者
中学校教員
コック
農業
建築士
宅配便配達員
タクシー運転手
大工
アパート管理人
電化製品製造作業者
企業の管理職
看護師
食料品加工作業者
保育士
外回り営業職
経理担当職員
小売店主
議員
41
19
35
27
19
28
29
28
19
36
16
11
15
33
37
43
33
12
34
23
18
28
17
17
22
15
16
27
14
12
16
32
26
16
44
1
7
158
8
6
14
13
39
5
11
4
33
11
7
89
26
16
10
107
8
9
14
8
3
10
12
7
20
41
4
42
4
19
5
85
2
5
19
35
29
13
3
56
39
36
23
91
13
3
8
19
122
6
21
37
20
75
50
41
28
134
14
10
134
13
31
22
22
5
3
8
8
30
16
34
5
12
7
29
9
7
92
16
15
5
112
4
6
14
8
3
5
16
7
28
35
5
42
12
32
5
81
4
36
16
11
34
95
37
41
25
18
127
6
40
52
18
11
107
34
72
16
24
70
6
25
3
40
21
35
11
8
23
10
5
56
12
5
44
21
123
18
47
25
4
5
33
31
7
36
13
9
48
41
11
27
33
16
8
38
12
58
29
55
2
6
46
2
22
33
43
22
38
9
13
3
16
28
15
13
5
8
36
26
7
52
29
81
6
28
11
88
122
20
13
7
22
8
30
5
5
8
15
21
26
11
9
14
11
26
17
9
8
15
32
16
109
5
10
7
48
56
76
52
8
15
24
3
74
6
34
65
73
25
3
40
22
16
40
3
7
20
8
6
15
93
4
54
2
7
12
54
50
37
20
32
101
2
27
34
39
5
73
37
51
29
31
71
20
59
5
19
55
13
16
16
19
5
18
15
21
47
14
47
38
36
13
39
25
64
16
19
46
16
66
39
10
40
10
41
54
23
13
22
61
19
4
6
35
39
8
67
19
12
55
48
20
28
37
8
10
48
9
42
16
38
3
30
10
30
9
28
25
42
19
12
11
25
25
22
17
24
10
139
21
121
19
26
7
19
8
5
7
22
112
7
24
39
16
93
67
38
60
77
15
18
81
17
32
26
15
9
9
50
45
8
8
83
33
82
5
12
69
4
17
8
23
16
17
6
7
17
13
40
44
4
149
1
5
19
4
2
5
9
2
25
34
2
62
5
14
7
69
41
8
18
36
23
50
12
29
35
7
10
12
17
8
18
4
5
11
48
14
46
54
24
33
23
30
31
18
17
13
30
14
48
18
18
19
13
5
21
36
34
86
63
58
33
115
11
12
114
12
29
17
14
5
4
6
12
7
7
8
7
8
19
38
6
75
10
22
9
62
47
59
21
27
67
12
28
2
25
35
21
13
8
27
8
44
25
30
69
39
34
5
14
39
11
11
14
51
13
9
16
112
7
23
10
24
16
21
7
11
13
11
131
31
39
58
11
12
59
12
50
23
23
3
32
37
42
7
15
42
15
46
12
25
2
21
42
9
17
38
17
10
9
21
8
25
38
15
20
19
27
32
52
15
15
16
145
14
37
28
19
2
10
13
11
80
114
43
35
13
135
9
13
5
19
11
36 9
21 12 98
18 14 33 23
2 26 10 20 20
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
【付表】問 2 データに基づく 36 職業の共起類似度行列
- 54 -
【付表】問 4 データに基づく 36 職業×特性変数データ
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
職業名
評価 自律 技能
記者
15
28
57
警察官
43
4
28
印刷作業者
0
10
13
公務員
43
6
3
美容師
12
41
86
販売店員
0
15
32
受付事務員
0
2
2
会社経営者
78
77
68
医師
88
35
82
衣服仕立て職
1
16
49
システムエンジニア
38
28
69
ウェイター
0
5
5
介護職員
12
6
12
清掃員
1
11
3
デザイナー
52
74
90
大学教員
73
25
39
パイロット
82
20
63
インストラクター
13
36
54
道路工事作業者
1
5
13
中学校教員
25
10
25
コック
22
45
75
農業
8
60
50
建築士
56
47
77
宅配便配達員
0
4
5
タクシー運転手
0
16
18
大工
8
43
68
アパート管理人
1
24
2
電化製品製造作業者
3
4
17
管理職
48
18
37
看護師
22
7
32
食料品加工作業者
1
1
6
保育士
6
6
23
外回り営業職
2
26
47
経理担当職員
6
4
9
小売店主
6
58
47
議員
55
31
43
- 55 -
5 選好度の多次元尺度構成法 (MDPREF)
5.1. 対象布置と評定ベクトル
選好度の多次元尺度構成法(以降は“MDPREF”)では、ある対象に対する評定の値やラ
ンクのデータをもとに、対象の布置と評定主体の評定の方向性(ベクトル)を次元空間上
に表すことを目的とする。ひとつの簡易例によって、具体的に説明しよう。図表 5-1 のよ
うに、評定主体 a, b, c それぞれの、対象 A~D に対する何らかの評定ランク(選好度など)
が得られたとしよう。主体の評定ベクトルとその対象の位置を表すには、たとえば主体 a
だけに限れば、図表 5-2(a)のように 1 次元の軸で簡単に表すことができる。この場合、こ
の次元軸そのものが、主体 a の評定ベクトルを表す。ここで異なる評定を有する主体 b が
加わるとして、両主体の評定構造を同時に表すためには新たな次元軸を必要とし、図表
5-2(b)のような散布図として示すことができる。
図表 5-1
評定主体×対象の評定ランクデータ
対象
A
4
1
2
a
b
c
主体
B
3
3
1
C
2
4
3
D
1
2
4
図表 5-2(a) 主体 a の評定軸(ベクトル)
0
D
C
B
A
1
2
3
4
5
図表 5-2(b) 主体 a,b の評定軸
5
C
C''
4
B
B''
3
主
体
b
D
D''
2
A
A''
1
D'
0
0
1
C'
2
B'
3
A'
4
5
主体a
元データにある評定主体ごとの評定ランクは、散布図における各対象の位置から、評定
主体の各ベクトルへと垂線を延ばした場合に、両者が交わる点(図中×印)にあたる。主
体 a のベクトルにおいては A'~D' が、主体 b のベクトルにおいては A'' ~D'' がこれにあ
たる。これらの点は、射影(projection)と呼ばれ、MDPREF においては重要な意味を持つ。
- 56 -
この場合、射影についての順序関係(ランク)を維持するには、ベクトルが必ずしも直交
である必要はなく、たとえば主体 b について点線矢印のように方向性を少し変えても、そ
れぞれの順序は変化しないことも付言しておく。
評定主体がさらに多い場合には、それらのランクの種類の数だけ次元軸(ベクトル)を
要するが、この解析法の目的はそれらのうち主要な次元へと縮約することにあるので、た
とえばここでの 2 次元空間を維持したまま、最適な対象の布置と評定ベクトルを求めてい
くことになる。図表 5-3 は、主体 c を追加した上で、2 次元空間上で布置・ベクトルを調
整した結果である。各対象は■印で、各ベクトルへの対象の射影は○印で示した通りであ
るが、たとえば対象 A に着目すると、評定主体 a では最も高いランク、主体 b では最も低
いランク、主体 c では 2 番目に低いランクとなっている。他の対象のランクについて同様
に確認していくと、順序関係は元データ通りに再現されていることがわかるだろう。
MDPREF によって析出される次元軸は、図中の下端/左端にある直交軸であり、それらは
元データ(ランク)の分散を最も大きく説明する軸から順次析出されることになる。なお、
この簡易例では、横軸が最も説明力が大きく(次元 1)
、縦軸がその次に大きい(次元 2)
。
図表 5-3
主体 a, b, c の評定ベクトルと対象の射影
主体b
B
← 次元2 →
C
主体a
D
A
主体c
← 次元1 →
5.2. 次元抽出と説明力:特異値分解と VAF 比・再現性
解析用データは、評定主体×対象の評定ランクの非対称行列であるが、多くの場合、ラ
ンクをそのまま用いるのではなく、各主体ごとに平均を 0・分散(標準偏差)を 1 に規準
化した形に変換する(手順①)
。先の例においては、評定主体で共通して 1~4 のランクが
1 つずつなので、それぞれ平均は 2.50・分散21は 1.25 であり、それに基づいた規準化行列
は図表 5-4 の通りとなる。
こうしたデータに基づいて、対象の布置および主体のベクトルを大きく説明する次元軸
を抽出するためには(手順②)
、非対称行列の特異値分解を行うが、その分解は 2 種類の対
称行列について固有値・固有ベクトルを求めることに帰着する(→1.6)。この簡易例につ
21
ここで用いる分散は、偏差平方和を n-1 で除する不偏分散ではなく、n で除する計算を行う。前者でも
結果自体に違いはないが、後者の計算を行うことにより、固有値の合計=主体数×対象数というわかりや
すい関係が成立する。
- 57 -
いて、3×4 の非対称行列から、図表 5-5 のように 3×3 と 4×4 の対称行列を作成し、それ
ぞれについて固有値を導出する。得られる固有値・固有ベクトルは元の非対称行列の行ま
たは列のうち少ない方の数なので、この場合は 3 種類である。また、元の非対称行列は規
準化してあるので、固有値の合計=行数×列数(つまり評定主体数×対象数)であり、こ
の場合は“12”である。
表 5-4
a
b
c
表 5-5
規準化された評定ランク行列
A
1.342
-1.342
-0.447
B
0.447
0.447
-1.342
C
-0.447
1.342
0.447
固有値
固有
ベクトル
平均
0.000
0.000
0.000
分散
1.000
1.000
1.000
特異値分解
DD'
4.00
-1.60
-3.20
D
-1.342
-0.447
1.342
D'D
-1.60
4.00
0.00
↓
7.578
0.707
-0.316
-0.632
-3.20
0.00
4.00
4.000
0.000
0.894
-0.447
3.80
0.60
-2.60
-1.80
0.422
0.707
0.316
0.632
固有値
固有
ベクトル
0.60
2.20
-0.20
-2.60
↓
7.578
0.602
0.372
-0.372
-0.602
-2.60
-0.20
2.20
0.60
4.000
-0.500
0.500
0.500
-0.500
-1.80
-2.60
0.60
3.80
0.422
0.372
-0.602
0.602
-0.372
それぞれの固有値は各次元軸の分散を表すので、全固有値に占める割合が、各次元軸の
説明力を表す
(手順③)
。
この例では、
次元 1 は 7.578 / 12 = 63.2%、次元 2 は 4.000 / 12 = 33.3%
と、これらをあわせると 96.5%となる。つまり、2 次元解で大半が再現できることを示す。
このように、ある次元までの累積寄与率は VAF 比(variance accounted for)とも呼ばれる。
ただ、先の図表 5-3 で見たように、この簡易例における順序関係(ランク)は 2 次元空
間によって完全に再現できるのに対し、この VAF 比では 100%には達していない。これは、
特異値分解においてはデータを連続的尺度として扱っていることに起因し、この例におけ
る 4 段階のランクを等間隔の尺度として考える場合に、2 次元ではわずかに説明されない
誤差(100% - 96.5% = 3.5%)が残ることを意味する。一方、このランクデータを、順序関
係のみの情報として考える場合、
VAF 比は必要以上に厳しい制約を課していることになる。
そのため、元データの順序関係がどの程度再現できたかを表す適合度の指標が、別途利用
されることもある22。
5.3. 対象布置・個人布置
得られた次元軸について検討するために、対象の布置および評定主体のベクトルを次元
空間上にプロットさせる(手順④)
。まず特異値分解の手順について再度確認すると、解析
用の規準化ランクデータ行列 D は、特異ベクトル U および V と、特異値を要素とする対
22
たとえば岡太・今泉(1994)では、データにおける対象ペアごとの選好の高/低(一対比較)と、次元
空間上に射影として再現される選好度の差に基づいて計測される C1・C2 という 2 種類の適合度指標が紹
介されている。
- 58 -
角行列 Λ によって D  UΛV  のように分解された(特異値は固有値の正の平方根)
。先の
3×4 の簡易例で言えば、
図表 5-6
特異ベクトルと特異行列(簡易例)
Λ
U
0.707
-0.316
-0.632
0.000
0.894
-0.447
0.707
0.316
0.632
V’
2.753
0
0
0
2.000
0
0
0
0.650
0.602
-0.500
0.372
0.372
0.500
-0.602
-0.372
0.500
0.602
-0.602
-0.500
-0.372
となる。ある次元解までにおける再現選好度行列は、その次元までの UΛV  から導出さ
れ、たとえば簡易例における 2 次元解までなら、図中色を付けたセルの部分から求めるこ
とができる。再現選好度は各主体ベクトル上の射影として、個々の再現性を求めるための
情報となる(→5.2)
。
次元空間における対象の布置は、分解によって得られた特異ベクトル V によって表すこ
とができる。また、評定主体のベクトルについては、特異ベクトル U を用いて表すことが
できるが、この U は方向性を指し示すだけなので、必要に応じて伸縮が可能である。そこ
で、ある次元解までのベクトル長(次元空間上のユークリッド距離)が“1”になるように
調整しつつ23、その先端を表す布置(たとえば図表 5-3 における矢印先端の位置)だけを空
間上にプロットする。このような評定主体のベクトルの先端を表す布置は、
「個人布置」と
も呼ばれる。簡易例を利用すると、特異ベクトル U のままだと、各主体のベクトル長は
0.707, 0.949, 0.775 であるが、
それらの逆数をかけることによって、
ベクトル長はすべて“1”
になる
(図表 5-7 右)
。
こうした得られた値を次元空間にプロットすることにより、
原点(0,0)
を通るベクトルの先端を表すことになる。
図表 5-7
U
Dim 1
0.707
-0.316
-0.632
ベクトル長の調整(簡易例)
Dim 2
0.000
0.894
-0.447
vector
0.707
0.949
0.775
→→
Y
Dim 1
1.000
-0.333
-0.816
Dim 2
0.000
0.943
-0.577
vector
1.000
1.000
1.000
5.4. 現実データへの適用
ここで、社会調査によって得られた実際のデータを用いてみよう。女子大学生を対象と
して、図表 5-8 に示す仮想の企業 8 社(A~H)のプロフィールを提示し、それらに対する
選好順位を回答してもらった。得られた有効回答者は 124 ケースであったので、評定主体
124×対象 8 のランクデータを利用することができる。
このランクデータを規準化した上で特異値分解を行った結果、8 つの固有値が導出され、
またそれに基づく VAF 比が計測された。図表 5-9 は、固有値の大きな順にその変化を表し
たものである。固有値の変化は、3 次元まで大きく低下した後、それ以降は緩やかになっ
ており、主成分分析の場合と同様(→2.2)、こうした「肘」の直前の次元までを検討の候
23
この処置では、すべての評定主体のベクトル長が 2 次元までで“1”となるが、評定主体によって当該
次元解の再現性が異なることを考慮に入れて、最大次元解(この例では 3 次元、企業選好の例では 8 次元)
までのベクトル長を“1”に設定することもできる。
- 59 -
補と考えることができる。なお、2 次元までの VAF 比は 68.2%であり、1 次元解(39.3%)
よりは大きく上昇したものの、3 次元解まで含めれば 80.8%とさらに改善度が高まること
も視野に入れておきたい。
図表 5-8
企業特性組み合わせに基づく仮想 8 企業の設定
配属先希望の
育児休暇取得後
考慮可能性
の復職状況
大手企業
希望考慮
復職多
全員
正社員型
大手企業
――
――
全員
C
正社員型
――
――
――
管理職のみ
D
正社員型
――
希望考慮
復職多
管理職のみ
E
多様 WS 型
――
希望考慮
――
全員
F
多様 WS 型
――
――
復職多
全員
G
多様 WS 型
大手企業
――
復職多
管理職のみ
H
多様 WS 型
大手企業
希望考慮
――
管理職のみ
雇用・就業形態
企業規模
A
正社員型
B
転勤可能性
※ ―― は、当該特性に関する記載がないことを示す。
※ 多様 WS 型:多様就業対応型ワークシェアリングが導入されていることを表す。調査における説明
文では、
「パートタイムと正社員の区別がなくなり一本化されたため、出勤日と出退社時間を本人が
週 30 時間~週 45 時間の間で設定できるようになった」と提示。
図表 5-9
400
固有値と VAF 比に関する次元ごとの変化
389.4
1.0
0.808
0.956
0.980
1.000
1.000
0.906
287.5
300
固有値(左目盛)
0.682
VAF比(右目盛)
200
0.5
124.6
0.393
97.1
100
49.3
24.0
20.1
0.0
0
0.0
1
2
3
4
次元数
5
6
7
8
MDPREF においては、上記の全体的な説明力・再現性だけでなく、個々の評定主体に関
する評定の再現性も重要である。それぞれの次元空間において表される各評定主体のベク
トル、およびそのベクトル上に射影として再現される対象の位置(→5.3)が、元の評定ラ
ンクをどの程度再現したものであるかについては、主体による差があるかもしれない。と
りわけ再現度の低い評定主体の存在を確認するためにも、対象のランクに関する元データ
と再現データとの相関係数が個々の主体ごとに計測される。図表 5-10 は、その係数につい
ての分布を、いくつかの要約統計量を用いて、各次元数ごとに示したものである。まず全
体平均については、2 次元解で 0.8 を超え、3 次元解になると 0.9 程度になる。また、とく
- 60 -
に再現性が低い主体の存在に注意を払うと、係数の最小値は 2 次元解で 0.267、3 次元解で
0.444 であり、25 パーセンタイル(25-pct)は 2 次元解で 0.740、3 次元解で 0.856 であった。
以上のように、全体の再現性と個々の主体の再現性分布をあわせて検討した上で、最終的
な次元数を決定するのが良い。この例の場合、確かに 3 次元解についても余地が残るが、
説明の簡略化のため 2 次元解を採用することにして、以降の検討を行っていくことにする。
図表 5-10 評定主体別の再現性(積率相関係数)に関する分布
―――――――――――――――――――――――――――――
次元数
1
2
3
4
5
―――――――――――――――――――――――――――――
MEAN
0.596
0.813
0.894
0.950
0.977
(Fisher's Z)
(0.637)
(0.864)
(0.929)
(0.974)
(0.991)
SD
0.195
0.145
0.096
0.058
0.031
MIN
MAX
0.062
0.967
0.267
0.992
0.440
1.000
0.702
1.000
0.857
1.000
25-pct
0.473
0.740
0.856
0.936
0.967
50-pct
0.601
0.841
0.923
0.969
0.988
75-pct
0.745
0.921
0.963
0.987
0.998
―――――――――――――――――――――――――――――
※(
)内は、相関係数に Fisher の Z 変換を施した上で求められた平均値
図表 5-11 企業選好データに基づく MDPREF 2 次元解における布置
1.0
次元2
(29.0%)
B
C
A
0.5
D
次元1
(39.3%)
-1.0
0.0
-0.5
E
0.0
0.5
1.0
F
-0.5
H
G
企業(対象布置)
回答者の選好ベクトル(個人布置)
-1.0
図表 5-11 は、企業選好ランクに基づいて、MDPREF による 2 次元解における対象布置
と個人布置を示したものである。評定主体のベクトル先端を示す個人布置は、次元空間の
- 61 -
周りに円状に分布しており、2 次元解においてベクトル長を“1”にするとこうした形状に
なる。その布置は、図中の右半分に偏っており、大半の回答者が次元 1(横軸)ではプラ
ス方向のベクトルである。他方、次元 2(縦軸)にについては、回答者によってプラス/
マイナス方向に分化していることから、
全 124 回答者の選好は、点線矢印で示したような、
右上方向(次元 1+・次元 2+)/右方向(次元 1+・次元 2±0)/右下方向(次元 1+・
次元 2-)に大きく分けることができるだろう。それぞれにおける企業の選好ランクにつ
いては、各ベクトル上に射影される対象の位置(→5.1)を考えてみると良い。たとえば右
上方向のベクトルを有する場合、企業 A・D の選好度が高く、E・F が低い。右下方向の場
合は、G・H の選好度が高く、B・C が低いことがわかるであろう。
5.5. 追加分析
それでは、このような選好の方向、あるいは析出された次元軸は、回答者のどのような
就業志向を表しているのだろうか。この点については、対象のもつ特性を吟味しつつ解釈
していくことになる。この調査では、就職先選択に際して重要となると思われる 5 要因を
あらかじめ設定し、それぞれ 2 種類の特性を用意した上で、それらを組み合わせて A~H
の企業として提示した24(→図表 5-8)。したがって、これらの特性情報を利用しつつ、
MDPREF によって得られた各次元軸における対象企業のスコアとあわせて追加分析を行
うことを通して、次元軸の解釈の一助とすることができる(手順⑤)
。
図表 5-12 企業特性の次元空間上へのプロット
就業形態:
正社員型
0.4
0.3
0.2
転勤可能性:
全員
0.1
配属先:
企業規模:
希望考慮
大手企業
0.0
育児休暇後:
復職多
転勤可能性:
管理職のみ
-0.1
-0.2
-0.3
就業形態:
多様WS型
-0.4
-0.4
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
0.4
ここでは 8 企業を分析単位とし、各要因・特性ごとに 2 分割した上で(各 4 企業)、それ
ぞれの次元軸上の平均スコアを計測した。たとえば雇用・就業形態について、正社員型は
A,B,C,D/多様 WS 型は E,F,G,H であり、次元 1 における各特性グループの平均スコアはそ
れぞれ 0.057/-0.057、次元 2 におけるそれは 0.346/-0.346 であった。このようにして計
24
このような調査方法をヴィネット(vignette)と言う(織田 1992、林 2010)
。
- 62 -
測した平均値を、次元軸上に表したのが図表 5-12 である。これを見ていくと、次元 1 にお
いては育児休暇(+復職多)と転勤可能性(+管理職のみ/-全員)に関する特性間の違
いが大きい。いずれもワークライフバランスに関わる制度であり、大半の回答者がこの次
元は+方向への選好、つまりワークライフバランス制度の整備状況特性への志向性が確認
できる。次元 2 においては就業形態(+正社員型/-多様 WS 型)に関する特性間の違い
のみが顕著であり、他の要因の寄与は小さい。先に検討した回答者のベクトルに即してみ
ると、次元空間右下方向のベクトルは(とくに下方向へのウェイトが高くなるほど)多様
WS 型志向、右上方向のベクトルは(とくに上方向へのウェイトが高くなるほど)正社員
型志向、そして右方向のベクトルはいずれかの形態にとらわれるのではなく、育児休暇や
転勤などのワークライフバランス制度に重点を置く志向性であると言える。
図表 5-13 評定主体の学年による個人布置の分布比較(1 回生/2 回生以上)
1.0
1.0
0.5
B
A
C
0.5
B
A
C
D
D
0.0
0.0
E
E
F
-0.5
H
F
-0.5
G
H
企業(対象布置)
企業(対象布置)
回答者集団:1回生
回答者集団:2回生以上
-1.0
G
-1.0
-1.0
-0.5
0.0
0.5
1.0
-1.0
-0.5
0.0
0.5
1.0
評定主体に関する追加分析として、回答者ごとの企業選好ベクトルに基づき、回答者間
のベクトルの内積(同一方向 1/直交 0/逆方向-1)を類似測度としたクラスター分析を行
うことによって、似たような志向を有する回答者集団を作成することもできる(林・中原・
森 2011)
。また、回答者属性によるグループ化をあらかじめ行っておき、個人布置として
表すときに、どのような属性をもつ回答者であるかを明示することで、属性ごとの志向性
の特徴を把握することができる。図表 5-13 は、回答者の学年が 1 回生であるか 2 回生以上
であるかによって分けた上で、
それぞれの個人布置を示したものである。
これで見る限り、
学年によって明確に志向性が分かれているわけではなく、同じ学年でも個人差が大きいこ
とが確認できるだろう。
5.6. 補足事項
(1) 主成分分析との対比
先の 1.5(4)で少し触れたが、MDPREF は主成分分析と密接な関係を持っている。社会調
査データに基づいて主成分分析を行うとき、多くの場合、個体×変数というデータ行列か
- 63 -
ら変数間の共分散行列または相関行列を作成して分析にかける。新たな次元軸(主成分)
...........
として、元の変数における値の方向性(ベクトル)を集約したものが順次析出される。ま
.........
た、次元空間上に個体が位置づけられ、その空間を構成する次元軸における位置が、個体
の各次元スコア(主成分得点)となる。一方、MDPREF は個体(評定主体)×変数(対象)
データ行列から、これとちょうど逆のことを行うことになる。すなわち、MDPREF におけ
...............
る次元軸としては、評定主体(個体)の選好の方向性を集約したものが析出され、空間上
..........
には対象が位置づけられるのである。したがって、元のデータ行列から個体間の共分散行
列を作成して主成分分析にかければ、同様の結果を得ることができる。特異値分解の過程
で行われる、一方の行列(DD')から固有値・固有ベクトルを求めることが、個体間の関
連に基づく主成分分析にほかならない。
このような行/列を逆にした分析を行うのは、対象のランクデータ(相対順位)を扱う
という理由による。主成分分析を行う際に重要な前提は、複数の変数が独立に計測されて
......
いることであり、ある変数の値に関して個体間の比較が意味をもつということにある。こ
れに対して、MDPREF が扱う複数の対象のランクデータの値は相互に独立ではなく(ある
......
対象のランクが高ければ他の対象は低くなる)
、ある個体内において対象間の比較が意味を
もつため、主成分分析とは逆の考え方で分析が展開されるのである。
こうした特徴を念頭に置くと、MDPREF に適するデータは対象のランクデータにとどま
らない。複数の項目・対象について、個々の回答者ごとに何らかの相対的な評定値が得ら
れれば、その評定構造を分析するのに MDPREF が有効性を発揮する。また、その評定はラ
ンク(順序)情報でなくとも、数量情報でも良い。次元抽出の際に行われる特異値分解は、
そもそも連続的な尺度を有する行列データを扱うためである。以上のように、MDPREF の
応用は、ここで示した例にとどまらない広範囲に及ぶと考えられよう。
(2) 多次元展開法
MDPREF は、主体の選好の方向性(ベクトル)を明示する目的で行われる分析であるが、
それはある主体の究極的な選好がベクトルの指し示す方向の彼方にあること、言い換える
と、理想点(ideal point)が次元空間の極にあるという前提に立っている。ただし、このよ
うな強い前提条件のもとでは、しばしば実測の選好データとの適合性が十分でないケース
も生じうる25。この前提をゆるめて、各主体の理想点が次元空間内のどこかに位置するこ
とのみを条件とし、その理想点からの「距離」の大/小が、選好の低/高を表すような布
置を求めるモデルがある。主体×対象の選好度行列データに基づいて、次元空間上に両要
素の同時布置を求める分析モデルは、多次元展開法(multidimensional unfolding)と総称さ
れるが(Carroll 1972、高根 1980)
、主体による対象への選好を「距離」として表すモデル
は、その中でも「単純展開モデル(simple unfolding model)」と呼ばれる。また、MDPREF
は「ベクトルモデル(vector model)
」の代表的手法で、先述のように、そのモデルは単純
展開モデルに「理想点が次元空間の極にある」という制約条件を加えたものである。
単純展開モデルでは、
主体を位置づける次元空間はすべての主体について共通であるが、
25
図表 5-8 を見ると、たとえば 2 次元解において全体の相関平均は 0.8 を超えるものの、最小値が 0.267
など、回答者によっては再現性の低いケースもあった。
- 64 -
その制約をゆるめ、複数の次元の重み(重要性)が主体によって異なるのを許容すること
もできる。そのモデルは、
「重みつき展開モデル(weighted unfolding model)」と呼ばれる。
さらに制約をゆるめると、次元の重みだけでなく次元軸が主体によって異なること、具体
的には、主体ごとに軸を回転させるのを許容する「一般展開モデル(general unfolding model)
」
に至る。このように、多次元展開法にはその制約条件の強/弱によって、ベクトルモデル
/単純展開モデル/重みつき展開モデル/一般展開モデルがあり、MDPREF はその中でも
最も強い制約を課す分析手法である。
5.7. 分析プログラム R による実践
#1
p1 <- read.delim("clipboard", header=FALSE)
#2
p1 <- 8-p1
#3
p2 <- sweep(p1, MARGIN=1, apply(p1,MARGIN=1, mean), FUN="-")
#4
p3 <- sweep(p2, MARGIN=1, apply(p1,MARGIN=1, sd), FUN="/")
#1
企業選好順序データをクリップボードにコピーし、それをデータ p1 として読み込む
#2
順序データ p1 を選好度データへ変換する(最大値 8 から引く)
#3
評定主体(行)ごとの規準化:選好度データ p1 の行ごとに平均を求め、平均からデータ p1 の各
値を引く
#4
評定主体(行)ごとの規準化:選好度データ p1 の行ごとに標準偏差を求め、データ p2 の値をそ
れで割る
〔出力〕 ※行列 p3 の 3 ケース分のみ
1
2
3
V1
-1.021
1.558
-0.204
:
V2
-1.429
-1.451
-1.429
V3
0.204
-1.021
0.204
V4
0.612
0.699
1.429
#5
svd.p3 <- svd(p3)
#6
m1 <- data.frame(svd.p3$u)
#7
m2 <- m1[c(1,2)]
#8
m2$V1 <- sqrt(m2$X1^2+m2$X2^2)
#9
m2$D1 <- m2$X1*1/m2$V1
V5
-0.612
-0.161
-1.021
V6
-0.204
0.269
-0.612
V7
1.429
0.699
1.021
#10 m2$D2 <- m2$X2*1/m2$V1
#5
規準化選好度データ p3 の特異値分解を行い、その結果を svd.p3 とする
#6
結果 svd.p3 の特異ベクトル U(評定主体)をデータ行列 m1 とする
#7
データ行列 m1 から最初の 2 変数(2 次元)を抽出し、データ m2 とする
#8
データ行列 m2 各行のベクトル長を求め、新変数 V1 として追加する
#9
ベクトル長 V1 の逆数を、特異ベクトル X1 にかけ、新変数 D1 とする
#10 ベクトル長 V1 の逆数を、特異ベクトル X2 にかけ、新変数 D2 とする
- 65 -
V8
1.021
-0.591
0.612
〔出力〕 ※行列 m2 の 3 ケース分のみ
X1
0.086
0.093
0.126
:
1
2
3
X2
0.100
0.012
0.030
V1
0.132
0.094
0.130
D1
0.651
0.991
0.972
D2
0.759
0.131
0.234
#11 m3 <- data.frame(svd.p3$v)
#12 plot(m3$X1, m3$X2, xlim=c(-1, 1), ylim=c(-1, 1), pch=2)
#13 points(m2$D1, m2$D2, pch="+")
#11 結果 svd.p3 の特異ベクトル V(対象)をデータ行列 m3 とする
#12 対象布置:データ m3 の 2 次元(X1,X2)の散布図、-1~+1 の範囲、△で表記
#13 個人布置:上図に、評定主体のベクトル m2 の終点を追加、"+"で表記
1.0
〔出力〕
++++
+
++
+++
++
++
+++
+++
++
+
++
+
0.0
+
++
++
++
+
+
+++
+
+
+
-0.5
+
+
+
+
+
-1.0
m3$X2
0.5
+++ + +
-1.0
-0.5
+
+
+
0.0
++
+++
+
+
+
+
+
++++
+ ++++
0.5
m3$X1
- 66 -
+
+++
1.0
【本章で利用した調査データ】
2009 年 10 月~11 月にかけて、奈良女子大学におけるいくつかの授業時間を利用した集
合調査を中心として実施し(一部は個々人に依頼)
、合計で有効 124 票が得られた。属性
内訳について、学部構成は文学部 80/理学部 26/生活環境学部 18、学年構成は1回生
79/2回生 15/3回生 18/4回生 12 であった。
分析に用いた 8 企業への選好を問う設問は、次の通りである。
問2
学校を卒業したあとに就く最初の仕事について考えてください。以下のような特徴をもつ、A
社から H 社までの合計8つの会社があるとします。この中で、あなたが就職したいと思う会社
はどの会社ですか。A 社~H 社それぞれについて、就職したいと思う順番を考え、その順番に
相当する番号に○をつけてください。(複数の会社が同順位の場合は、同じ番号でも結構です)
A社
規模が大きく、業界で有力な位置にある大手企業である。
正社員として勤務し、9時出勤、17 時退社の週 40 時間(1 日 8 時間)で、忙しい時期には残業がある。
職位や勤続年数にかかわらず全員に転勤の可能性がある。
社員の配属先(職種)は本人の希望がなるべくかなえられるよう、話し合いの上で決定される。
育児休暇を取得して、その後職場に復帰する人が多い。
最も入社したい
1
最も入社したくない
2
3
4
5
6
7
8
B社
規模が大きく、業界で有力な位置にある大手企業である。
正社員として勤務し、9時出勤、17 時退社の週 40 時間(1 日 8 時間)で、忙しい時期には残業がある。
職位や勤続年数にかかわらず全員に転勤の可能性がある。
最も入社したい
1
最も入社したくない
2
3
4
5
6
7
8
C社
正社員として勤務し、9時出勤、17 時退社の週 40 時間(1 日 8 時間)で、忙しい時期には残業がある。
管理職(部長と課長)のみ転勤の可能性がある。
最も入社したい
1
最も入社したくない
2
3
4
5
6
7
8
D社
正社員として勤務し、9時出勤、17 時退社の週 40 時間(1 日 8 時間)で、忙しい時期には残業がある。
管理職(部長と課長)のみ転勤の可能性がある。
社員の配属先(職種)は本人の希望がなるべくかなえられるよう、話し合いの上で決定される。
育児休暇を取得して、その後職場に復帰する人が多い。
最も入社したい
1
最も入社したくない
2
3
4
5
- 67 -
6
7
8
E社
パートタイムと正社員の区別がなくなり一本化されたため、
出勤日と出退社時間を本人が週 30 時間~週 45 時間の間で設定できるようになった。
職位や勤続年数にかかわらず全員に転勤の可能性がある。
社員の配属先(職種)は本人の希望がなるべくかなえられるよう、話し合いの上で決定される。
最も入社したい
1
最も入社したくない
2
3
4
5
6
7
8
F社
パートタイムと正社員の区別がなくなり一本化されたため、
出勤日と出退社時間を本人が週 30 時間~週 45 時間の間で設定できるようになった。
職位や勤続年数にかかわらず全員に転勤の可能性がある。
育児休暇を取得して、その後職場に復帰する人が多い。
最も入社したい
1
最も入社したくない
2
3
4
5
6
7
8
G社
規模が大きく、業界で有力な位置にある大手企業である。
パートタイムと正社員の区別がなくなり一本化されたため、
出勤日と出退社時間を本人が週 30 時間~週 45 時間の間で設定できるようになった。
管理職(部長と課長)のみ転勤の可能性がある。
育児休暇を取得して、その後職場に復帰する人が多い。
最も入社したい
1
最も入社したくない
2
3
4
5
6
7
8
H社
規模が大きく、業界で有力な位置にある大手企業である。
パートタイムと正社員の区別がなくなり一本化されたため、
出勤日と出退社時間を本人が週 30 時間~週 45 時間の間で設定できるようになった。
管理職(部長と課長)のみ転勤の可能性がある。
社員の配属先(職種)は本人の希望がなるべくかなえられるよう、話し合いの上で決定される。
最も入社したい
1
最も入社したくない
2
3
4
5
- 68 -
6
7
8
Fly UP