...

「データ」を数値化し、客観的な 観察をする。

by user

on
Category: Documents
15

views

Report

Comments

Transcript

「データ」を数値化し、客観的な 観察をする。
5 データの観察
【 目 標 】「 デ ー タ 」を 数 値 化 し 、客 観 的 な 観 察 を す る 。統 計 的 な 数 値 の 意 味
を理解する。
現象を見て単なる印象を述べる場合と、その具体的な頻度を提示する場合
とでは、その説得力に大きな違いがあります。また、頻度だけではわかり
にくいデータも、頻度数をさまざまな変換をすることによって特徴が明示
化されます。この章では、はじめに実測値の和、平均、中央値、中間値、
標準偏差を確認し、次にそれらを使って得点分布を変換し分布の特徴を明
示化する方法を説明します。
5. 1 データの代表値
次 の 表 は 4 つ の ス ペ イ ン 語 の 単 語 ( 場 所 を 示 す 副 詞 : acá, allá, allí, aquí)と
地域ごとのテキストの頻度を示しています。
「 鍵 語 」は テ キ ス ト を 検 索 し た と き の キ ー ワ ー ド を 示 し ま す 。そ れ ぞ れ の 語
の分布の特徴をつかむには、和、平均、中央値、中間値、標準偏差などを
知 っ て お く と 参 考 に な り ま す 。 こ れ を デ ー タ の 「 代 表 値 」 (representative
value) を 呼 ぶ こ と に し ま す 。 こ れ ら の 値 を 示 し た も の が 次 の 図 で す 。 そ れ
ぞ れ を 具 体 的 に 見 て い き ま し ょ う 。 以 下 で は 、 そ れ ぞ れ の 鍵 語 を w1, w2,
w3, w4 と し 、 そ れ ぞ れ の 地 点 を L1, L2, …, L5 と し ま す 。
◇1 実測値
こ こ で 用 い る デ ー タ は 、 Madrid, Sevilla, México, Lima, Buenos Aires (B. A.)
に お け る w1 ~ w4( 場 所 を 示 す 副 詞 : acá, allá, allí, aquí)の 使 用 に つ い て 集
計 し た デ ー タ で す 。何 も 加 工 し て い な い 生 の デ ー タ な の で「 実 測 値 」(実 測
得 点 : observed score: o.s.) と 呼 ぶ こ と が で き る で し ょ う 。 こ れ が 出 発 点 で
す。
1
こ れ は 頻 度 数 (frequency)を 示 す の で ゼ ロ を 含 む 自 然 数 (0, 1, 2, …)で す 。 数
値 だ け で は 分 布 の 様 子 が わ か り に く い の で Excel シ ー ト の 「 デ ー タ バ ー 」
を 使 っ て 視 覚 化 し ま し ょ う 。◆ 該 当 す る セ ル を 選 択 →「 ホ ー ム (H)」→「 ス
タイル」グループ→「条件付き書式」→「データバー」
標準のデータバーは色が濃くて、数値が見えにくいことがあります。色を
薄 く す る に は 、◆ 該 当 す る セ ル を 選 択 し 、「 ホ ー ム (H)」→「 ス タ イ ル 」グ
ループ→「条件付き書式」→「データバー」→「その他のルール」で調整
してください。
◇2 和
「 和 」 (Sum: Sm)に は 横 行 の 値 を 全 部 足 し た 「 横 和 」 (Sum in row.Sm.r)と 、
縦 列 の 値 を 全 部 足 し た「 縦 和 」(Sum in column: Sm.c)と 、全 部 の 値 を 全 部 足
し た「 総 和 」(Sum in all: Sm.a)が あ り ま す 。w1 の 横 和 Sm.r は 0 + 0 + 0 + 11
+ 1 = 12 で す 。 Madrid の 縦 和 Sm.c は 0 + 0 + 11 + 10 = 21 で す 。 そ し て 、 全
部 の 総 和 Sm.a は 0 + 0 + … + 7 + 12 = 112 に な り ま す 。 Excel 関 数 SUM を
使ってこれらを算出します。
◇3 平均
「 平 均 」は 、デ ー タ の 数 値 を 合 計 し( 和 )、デ ー タ の 個 数 (Count: Cn)で 割 っ
た 値 で す 。こ れ は 一 般 に「 算 術 平 均 」 (Arithmetric Average)と 呼 ば れ て い ま
す。以下では、特別の場合を除いて「平均」で「算術平均」を示すことに
します。
行 の 個 数 を Cn.r と し 、縦 列 の 個 数 を Cn.c、全 体 の 個 数 を Cn.a と す る と 、
横 行 の 平 均 (Average in row: Av.r)は Sm.r / Cn.r, 縦 列 の 平 均 (Av.c)は Sm.c /
Cn.c、総 平 均 Av.a は Sm.a / Cn.a に な り ま す 。Excel 関 数 AVERAGE を 使 い
ます。
速度、濃度、平均、比率など、割り算を使って算出された値の平均は、
そのまま合計して個数で割るとうまくいきません。このようなとき、一般
に 統 計 学 で は 「 調 和 平 均 」 (Harmonic Average)が 使 わ れ て い ま す 1 。 た と え
ば 、 ハ イ キ ン グ で 一 定 の 行 程 を 往 復 し 、 往 路 は 時 速 6 km/h、 復 路 は 時 速 4
km/h だ っ た と し ま す 。こ の と き 往 復 の 平 均 時 速 を 算 術 平 均 で 出 す と (6 + 4)
/ 2 = 5 に な る か ら と い っ て 、平 均 時 速 を 5(km/h)と し た の で は 、不 都 合 な こ
1
た と え ば 池 田 (1976: 40-41)
2
とが起こります。往復の距離を平均時速で割っても、時間が正しく出てこ
な い の で す 。 た と え ば 片 道 12km だ と す る と 、 24 (km) / 5 (km/h) = 4.8(h) に
な っ て し ま い ま す が 、 実 際 の 往 路 は 12 (km) / 6 (km/h) = 2(h) で あ り 、 復 路
は 12 (km) / 4 (km/h) = 3(h) で 、 往 路 と 復 路 を 併 せ て 5 (h)に な り ま す 。
そ こ で 、 次 の よ う な 調 和 平 均 (H.Av.)が 使 わ れ ま す 。 片 道 の 距 離 を a(km)
と す る と 、 a(km) / 6(km/h)が 往 路 の 時 間 に な り ま す 。 同 様 に 、 復 路 の 時 間
は a(km) / 4(km/h)で す 。 往 路 と 復 路 の 平 均 時 間 (Av.h)は
Av.h. = (a / 6 + a / 4) / 2
= [(1 / 6 + 1 / 4) / 2 ] a
= [(2 / 12 + 3 / 12) / 2] a
= [5 / (12 * 2) ] a
= (5 / 24) a
= (1 / 4.8) a
この第 2 式と最後の式を取り出すと、
[(1 / 6 + 1 / 4) / 2 ] a = (1 / 4.8) a
(1 / 6 + 1 / 4) / 2 = 1 / 4.8
1 / [(1 / 6 + 1 / 4) / 2] = 4.8
調 和 平 均 H.av.を 一 般 式 で 書 く と 次 の よ う に な り ま す 2 。
H.Av.(x, y) = 1 / [(1 / x + 1 / y) / 2]
こ の 調 和 平 均 は 次 の「 分 数 平 均 」(F.Av.: Fractional Average)の 特 殊 な ケ ー ス
で す( 分 母 が 同 数:→ コ ラ ム )。分 母 が 異 な る と き は 、次 の 分 数 平 均 (F.Av)
を使うことを提案します。
F. Av. (a, b, c, d) = (a + c) / (b + d)
こ こ で 、 a, b, c, d は 2 つ の 分 数 x, y の 分 子 (a, c)と 分 母 (b, d)を 示 し ま す 。
x = a / b, y = c /d
ここでは、
2
こ こ で は 2 つ の 値 の 調 和 平 均 を 説 明 し ま し た が 、2 個 以 上 で も 同 様 で す 。
H.av. = 1 / {[Σ (1 / x i )] / n}, こ こ で x i は そ れ ぞ れ の 値 を 示 し 、n は x i の 個 数
を示します。
3
x = 12 / 2, y = 12 / 3
と な り 、 そ れ ぞ れ 往 路 と 復 路 の 時 速 (km/h)を 示 し ま す 。 両 方 の 時 速 の 平 均
を 分 数 平 均 (F.Av.)を 使 っ て 示 す と 、
F.Av. (12, 2, 12, 3) = (12 + 12) / (2 + 3) = 24 / 5 = 4.8
調和平均の算出は複雑で、一見では解釈が難しいのですが、分数平均なら
ばとても簡単です。直感的に理解できるので説明もしやすいと思います。
比の平均としての「分数平均」
た と え ば 1/4 と 2/5 と い う よ う な 2 つ の 比 率 r 1 と r 2 の 平 均 を と る と き は 、
「 算 術 平 均 」 (A.Av.: Arithmetric Average) 、 幾 何 平 均 (G.Av.: Geometric
Average)、 調 和 平 均 (H.av: Harmonic Average)を 使 う こ と が 考 え ら れ ま す 。
A.Av. = (r 1 + r 2 ) / 2
G.Av. = √ (r 1 r 2 )
H.Av. = 1 / [(1 / r 1 + 1 / r 2 ) / 2]
一 方 、比 率 r 1 と r 2 の そ れ ぞ れ の 分 子 (a 1 , b 1 )と 分 母 (a 2 , b 2 )が わ か っ て い る と
き は (r 1 = a 1 / b 1 , r 2 = a 2 / b 2 )、 r 1 と r 2 の 分 子 の 和 (a 1 + b 2 )を 分 子 と し 、 r 1 と r 2
の 分 母 (b 1 + b 2 )の 和 を 分 母 と し た 分 数 を 使 う こ と も 考 え ら れ ま す 。 こ れ を
「 分 数 平 均 」 (F.Av: Fractional Average) と 呼 ぶ こ と に し ま す 。
F.Av. = (a 1 + b 2 ) / (b 1 + b 2 )
それぞれの平均の結果は類似することがありますが、分数(比率)を扱う
とき、分数平均は 2 つの分数の元の数に遡って計算するので、他の平均よ
り正確です。また、結果の解釈もわかりやすいと思います。ちょうど濃度
と量の異なる食塩水を混ぜ合わせて出来上がった食塩水の濃度のようなも
の だ か ら で す 。 た と え ば 1/4 と 2/5 と い う 比 率 の 平 均 は 簡 単 な 算 術 平 均
(A.Av.)な ら ば 、
A.Av. = (1/4 + 2/5) / 2 = 0.325,
幾 何 平 均 (G.Av.)な ら ば
G.Av. = √ ( 1 x 2 / 4 x 5) ≒ 0.316
4
調 和 平 均 (H.av.)な ら ば 、
H.Av. = 1 / [(4 / 1 + 5 / 2) / 2] ≒ 0.308
になります。どちらも分子と分母の大きさに関わりなく一義的に計算され
ま す 。こ こ で 提 案 し た 分 数 平 均 (F.M.)を 使 う と 、次 の よ う に 計 算 さ れ ま す 。
F.Av. = (1 + 2) / (4 + 5) ≒ 0.333
10/40 と 4/10 の そ れ ぞ れ の 平 均 を 比 べ て み ま し ょ う 。
平均
1/4, 2/5
10/40, 4/10
A.Av.
0.325
0.325
G.Av.
0.316
0.316
H.Av.
0.308
0.308
F.Av.
0.333
0.280
このように、他の平均と比べて、分数平均では第一項の分子と分母を大き
くすると、全体的に薄まって数値が下降していることがわかります。
次の図は、調和平均の説明によく使われる往復(ハイキングなど)の平
均速度の計算を示すものです。この図が示すように、距離と時間のそれぞ
れの和から速度を計算すると、調和平均と分数平均は正しい平均値を出し
ます。
同距離
昨日
距離(km)
時間(h)
速度(km/h)
今日
12
2
6
和
12
3
4
算術平均 調和平均 分数平均
24
5
4.80
5.00
4.80
4.80
しかし、往復ではなく、今日は昨日の道を引き返すのではなく、さらに先
に進むような場合、次のように両日の距離が異なるのがふつうです。
異距離
昨日
距離(km)
時間(h)
速度(km/h)
今日
12
2
6
和
15
3
5
算術平均 調和平均 分数平均
27
5
5.40
5.50
5.45
5.40
このとき、調和平均は距離と時間の和から算定される速度を正しく示して
はいません。分数平均は、そのまま距離と時間の和から算定されるので、
直感的に理解できると思います。
「分数平均」は、分子の値の和を分母の値の和で割る、という簡単な操
作です。2 つの値だけでなく、次のように n 個のデータでも、同じ計算方
5
法を使うことができます。
F.Av. = Σ x i / Σ y i
こ こ で xi は そ れ ぞ れ の 分 子 の 値 、 yi は そ れ ぞ れ の 分 母 の 値 を 示 し ま す 。 そ
う す る と 、 yi が す べ て 1 で あ る と き が 算 術 平 均 に な る こ と が わ か り ま す 。
F.Av. = Σ x i / Σ 1 = (Σ x i ) / n
ここで、n はデータの個数を示します。このように算術平均は分数平均の
特殊なケースだと考えてもよいでしょう。
たとえば、保険会社が自動車事故保険の掛け金を設定するときに、さま
ざまな運転手の事故率のデータを勘案することでしょう。そのとき、運転
手の集団の事故率を単純に算術平均や調和平均で計算するよりも、運転手
の月平均運転時間も考慮に入れないと、正しい全体の事故率の平均が出な
いはずです。
(溶液の)濃度、(歩行)速度、(自動車事故)率など、一般に割り算
を使って得られた値については、元のデータがあるならば、それに戻って
計算すべきだと思います。元のデータがないときは、算出された平均値を
慎重に扱わなければなりません。
(1st vers. 2013/3/21; last vers. 2013/5/15)
◇4 中央値
データを大→小になるように並び替えて、その中央にある値が「中央値」
(Median: Md)で す 。中 央 が 偶 数 に な る と き は 両 者 の 平 均 を と り ま す 。横 軸 、
縦 軸 、 全 体 の 中 央 値 を そ れ ぞ れ Md.r, Md.c, Md.a と し ま す 。 Excel 関 数
MEDIAN を 使 い ま す 。
◇5 中間値
こ こ で は デ ー タ の 最 大 値 と 最 小 値 の 平 均 を「 中 間 値 」(Central: Ct)と 呼 ぶ こ
と に し ま す 3 。Excel 関 数 MAX( 最 大 値 )と MIN( 最 小 値 )を 組 み 合 わ せ て 、
3
「中間値」という用語はあまり使われていません。 東京大学教養学部統
計 学 教 室 『 統 計 学 入 門 』 ( 東 京 大 学 出 版 会 ) (1991:p.34) で は 「 ミ ッ ド ・ レ
ン ジ 」(mid-range)と い う 用 語 で 説 明 さ れ て い ま す 。平 均 値 が mean、中 央 値
が median、 中 間 値 が mid-range に 対 応 し ま す 。 こ こ で は 、 イ ニ シ ャ ル で 区
別 で き る よ う に 、 そ れ ぞ れ を Average, Median, Central と い う 用 語 を 使 う こ
6
= (MAX(*) + MIN(*)) / 2 と い う 式 に し ま す 。
◇6 標準偏差
デ ー タ の 平 均 が 同 じ で も 、ば ら つ き が 大 き い 場 合 と 小 さ い 場 合 が あ り ま す 。
た と え ば 、 {1, 4, 7}と い う デ ー タ 群 と 、 {3, 4, 5}と い う デ ー タ 群 で は 平 均 は
どちらも 4 ですが、それぞれの中身を見るとデータのばらつきが異なりま
す。とくにばらつきが大きいときには、データの扱い方や平均の解釈が代
わりますから注意が必要です。
標 準 偏 差 の 求 め 方 を 見 ま し ょ う 。は じ め に そ れ ぞ れ の 値 (x)か ら 全 体 の 平
均 (m)を 引 き 、 そ れ を 2 乗 し た も の を 全 部 足 し て 、 全 体 の 個 数 (n)で 割 り ま
す 。こ れ を「 分 散 」(variance: V)と 呼 び ま す 。分 散 を 求 め る 式 は 次 の よ う に
な り ま す 4。
分 散 (V) =
こ こ で 、x 1 , x 2 , ... x n は 個 々 の デ ー タ の 値 、m は デ ー タ の 平 均 、n は デ ー タ の
個数を示します。分散は、総体としてデータがどれだけ平均から離れて分
散 し て い る か を 示 し ま す 5。
たとえば次のようなグラフで考えてみましょう。青い縦棒がデータの値
( 頻 度 )、赤 い 横 線 が 平 均 、オ レ ン ジ の 線 が 平 均 か ら の 距 離 を 示 し ま す 。こ
の距離を全部集めていくわけですが、そのまま足してしまうと、その和は
ど の よ う な デ ー タ で も ゼ ロ に な っ て し ま う の で 、2 乗 し て 足 し て い き ま す 。
分 散 を 求 め る と き は Excel 関 数 VARP を 使 い ま す 。
とにします。
4
分 散 の 式 を 展 開 す る と 、次 の よ う に ま と め ら れ ま す 。分 散 = (x1 2 – 2mx1 +
m 2 + x2 2 – 2mx2 + m 2 + …+ xn 2 – 2mxn + m 2 ) / n = (x1 2 + x2 2 + … + xn 2 ) –
2m(x1 + x2 + … + xn) + nm 2 ) / n = (x1 2 + x2 2 + … + xn 2 ) – 2nm 2 + nm 2 ) / n =
(x1 2 + x2 2 + … + xn 2 ) – nm 2 ) / n = (x1 2 + x2 2 + … + xn 2 ) / n – m 2 . よ っ て 、
分散=2 乗の平均―平均の 2 乗、ということになります。
5
データの「ばらつき」を見るために平均からの差だけを足していくと、
どのようなデータでも和はゼロになってしまいます。それでは、平均から
の差の絶対値を足していけばよいのかも知れません。しかし、絶対値は数
学的に扱いがやっかいです。計算過程において絶対値は元の数の正負によ
って場合分けをしなくてはならないからです。それにくらべて、平方和は
扱いやすく応用範囲が広くなります。これから見ていく「標準偏差」「標
準得点」「相関係数」などの計算で「分散」を使います
7
さて、分 散 に は 「 2 乗 す る 」 と い う 操 作 が 入 っ て い る た め 平 均 か ら の 距 離 が
誇張されています。つまり、距離という線分ではなく、むしろ正方形の面
積になっているのです。そこで、2 乗和をもとのデータのスケールに戻す
た め に 分 散 の 根 を 求 め ま す 。 こ れ が 「 標 準 偏 差 」 (standard deviation: Sd)で
す。
標 準 偏 差 (Sd) =
分散
横 軸 、 縦 軸 、 全 体 の 標 準 偏 差 を そ れ ぞ れ Sd.r, Sd.c, Sd.a と し ま す 。 標 準 偏
差 を 求 め る と き は Excel 関 数 STDEVP を 使 い ま す 。
◇7 変動係数
標準偏差は個々のデータの規模(平均)が大きくなると、それに応じて大
きくなる性質があります。そこで、こうした規模の違いを超えて比較でき
る よ う に 標 準 偏 差 を 平 均 で 割 っ た 値 が「 変 動 係 数 」(coefficient of variation:
Cv)で す 6 。 標 準 偏 差 も 平 均 も デ ー タ の 規 模 を 反 映 し て い ま す か ら 、 標 準 偏
差を平均で割った変動係数はデータの規模に左右されることなく、だいた
い の ば ら つ き 具 合 が わ か り ま す 。 変 動 係 数 を 示 す に は Excel 関 数 を 組 み 合
わ せ て =STDEVP(*)/AVERAGE(*) と い う 式 を 使 い ま す 。
◇8 正規標準偏差
標 準 偏 差 を [0.0 ~ 1.0] の 範 囲 を も つ 値 に し た も の を 「 正 規 標 準 偏 差 」
6
芝祐順他『統計用語辞典』(新曜社)
8
(Normalized Standard Deviation: N.S.D.)と 呼 ぶ こ と に し ま す 。 正 規 標 準 偏 差
は 標 準 偏 差 (S.D.)を そ の 最 大 値 S.D. (max)で 割 る こ と で 求 め ら れ ま す 7 。
N.S.D. = S.D. / S.D. (max)
先 に 見 た よ う に 標 準 偏 差 S.D.は 次 の よ う に 定 義 さ れ ま す 。
S.D.= √ {[(x 1 –m) 2 + (x 2 – m) 2 + … + (x n – m) 2 ] / n}
こ こ で 、た と え ば {10, 0, 0, 0, 0}と い う よ う な 1 つ だ け に 数 値 が あ る デ ー タ
を考えましょう。このようなときが変動係数が最大値になるときです。こ
こ で 一 般 化 し て {a, 0, 0, …, 0}と い う n 個 の デ ー タ を 考 え ま す 。そ う す る と 、
上 の 式 の 分 子 の 第 1 項 だ け が (a – m) 2 に な り 、残 り n - 1 個 は ど れ も (0 – m) 2
= m2 に な り ま す 。 よ っ て 変 動 係 数 の 最 大 値 は 、
S.D. (max) = √ {[(a –m) 2 + m 2 (n – 1)] / n}
こ の と き a 以 外 に デ ー タ が な い の で a が 総 和 に な り ま す 。よ っ て 、a = 和 =
nm と い う 関 係 が わ か り ま す 。
= √ {[(nm –m) 2 + m 2 (n – 1)] / n}
= √ {[(m(n – 1)) 2 + m 2 (n – 1)] / n}
= √ {[m 2 (n – 1) 2 + m 2 (n – 1)] / n}
= √ {m 2 [(n – 1) 2 + (n – 1)] / n}
= √ {m 2 [(n 2 – 2n + 1) + (n – 1)] / n}
= √ {m 2 [(n 2 – n)] / n} = √ [m 2 n(n – 1) / n] = √ [m 2 (n – 1)]
= m√ (n – 1)
よ っ て 、 正 規 標 準 偏 差 (N.S.D.)は
N.S.D. = S.D. / S.D.(max) = S.D. / [m√ (n – 1)]
正 規 標 準 偏 差 (N.S.D.)と 変 動 係 数 (C.V.)の 違 い は 、正 規 標 準 偏 差 の 分 母 に √
(n – 1)が 加 え ら れ て い る こ と で す 。 デ ー タ 行 列 は 一 般 に n の 数 値 が 大 き い
ので、正規標準偏差は小さくなります。そのような場合は正規標準偏差は
むしろ変数(比較的少数)の変動を見るときに使うべきです。
これまで扱ってきたさまざまな値(代表値)を先のデータで計算しまし
7
この正規化の方法は以下でもしばしば使います。
9
ょう。
1 Madrid 2 Sevilla
3 México 4 Lima
5 B. A.
和 Sm.r. 個数Cn.r. 平均 Av.r. 標準偏差 Sd.r. 変動係数 C.V.r.
実測値
w1
0
0
0
11
1
12
5
2.40
4.32
1.80
w2
0
1
2
3
3
9
5
1.80
1.17
0.65
w3
11
7
10
0
1
29
5
5.80
4.53
0.78
w4
10
19
14
7
12
62
5
12.40
4.03
0.32
和 Sm.c.
21
27
26
21
17
112
個数Cn.c.
4
4
4
4
4
Sm.a
20
平均 Av.c
5.25
6.75
6.50
5.25
4.25
Cn.a
5.60
標準偏差 Sd.c.
5.26
7.56
5.72
4.15
4.55
Av.a
5.65
変動係数 C.V.c.
1.00
1.12
0.88
0.79
1.07
Sd.a
1.01
正規標準偏差 N.S.D.c.
0.58
0.65
0.51
0.46
0.62
C.V.a
N.S.D.r.
0.90
0.32
0.39
0.16
0.23
N.S.D.a
語の使用度
5 つの分野(演劇、小説、随筆、科学技術文、報道文)の言語資料で使わ
れ る ス ペ イ ン 語 単 語 の 頻 度 辞 典 を 作 成 し た A. Juilland and E. Chang Rodríguez (Frequency dictionary of Spanish words, The Hague: Mouton, 1964)
は 単 語 の 使 用 度 (Usage)を 示 す 数 値 と し て 、
U = F×D
と い う 式 を 提 案 し ま し た 。 こ こ で F は 単 語 の 頻 度 (frequency)を 示 し 、 D は
分 野 間 の 拡 散 度 (dispersion)を 示 し ま す 。 つ ま り 、 単 語 の 使 用 度 を 見 る た め
に は 、 頻 度 (F)だ け で な く 、 各 分 野 に 均 等 に 使 用 さ れ て い る 度 合 (D)も 勘 案
すべきだという主張です。
提示されている拡散度の式、
D=1– σ / 2m
こ の σ は 標 準 偏 差 を 示 し ま す 。 分 母 に あ る 2 は 、 √ (分 野 数 5 – 1)の こ と だ
と思います。よって D = 1 – 正規変動係数という関係になります。
5. 2 データの得点
前節ではデータ全体の特徴を要約する統計量を見ました。ここでは、デー
タ を 構 成 す る 個 々 の デ ー タ の 「 得 点 」 (score)に 着 目 し 、 デ ー タ そ れ ぞ れ の
特徴を様々な数値を使って全体と比べながら観察します。以下で扱う「得
点」の中には「度数」という用語を使って「相対度数」「期待度数」のよ
う に 一 般 に よ く 使 わ れ る も の も あ り ま す が 、「 加 重 得 点 」「 限 定 得 点 」「 代
表得点」「卓立得点」は一般に使われていません。「標準得点」は「標準
スコア」「標準測度」などと呼ばれていますが、ここではデータの個々の
数値をすべて「得点」という用語で統一しました。
10
◇1 相対得点
先に見た実測値の問題点は、横軸と縦軸ごとにスケールが異なるため、比
較 が 難 し い と い う こ と で す 。た と え ば 、w1 の 11 と w4 の 10 を そ の ま ま 比
較することができません。それぞれの和と平均が異なるからです。そこで
有 効 に な る の が 「 相 対 得 点 」 (Relative Score: R.S.)( 割 合 ) で す 。 そ れ ぞ れ
の 得 点 x を 和 Sm で 割 る こ と で 算 出 で き ま す x = 0 の と き R.S.の 最 小 値 は 0
で 、 x = Sm の と き 最 大 値 1 に な り ま す 8 。
R.S. = x / Sm
R.S. [0.0 (x = 0) ≦ 0.5 (x = Sm/2)≦ 1.0 (x = Sm)]
こ の よ う に デ ー タ の 範 囲 を [0 ~ 1.0]、 ま た は [–1.0 ~ +1.0]に 変 換 す る こ と を
「 正 規 化 」 (normalization)と 呼 ぶ こ と に し ま す 。 デ ー タ を 正 規 化 す る こ と に
よって、さまざまな性格をもつデータを一定の範囲で比較することが可能
になります。
[1] 横 軸 と 縦 軸 の 相 対 得 点
相 対 得 点 は 横 軸( 横 行 )に つ い て も (Relative Score in row: R.S.r.)、縦 軸( 縦
列 ) に つ い て も (Relative Score in column: R.S.c.)、 そ れ ぞ れ 計 算 す る こ と が
できます。
相 対 得 点 ( 横 軸 : R.S.r.) = x / Sm.r
相 対 得 点 ( 縦 軸 : R.S.c.) = x / Sm.c
こ こ で 、 x は そ れ ぞ れ の セ ル の 値 で す 。 Sm.r が 横 軸 row の 和 ( 横 和 ) を 示
し 、 Sm.c は 列 column の 和 ( 縦 和 ) を 示 し ま す 。 た と え ば 、 相 対 得 点 ( 横
軸 ) の w3 で は x = 11 な の で 、 そ れ を Sm.r (= 29)で 割 る と 11
/
29
=
0.38 に な り ま す 。 ◆ Excel で は す べ て 参 照 を 使 い ま す 。 相 対 得 点 ( 横 軸 )
で は 、 = B18 / $G18 の よ う に 分 母 の 列 文 字 ( こ こ で は G) を 絶 対 参 照 し ま
す。分子は列も行も相対参照します。それを全範囲にコピーします。次が
その結果です。
8
こ の 数 値 に 100 を 掛 け た 値 が 「 百 分 率 」 (percent)で す 。
11
実測値
w1
w2
w3
w4
和
相対得点:横軸
w1
w2
w3
w4
L1
L2
0
0
11
10
21
L1
.00
.00
.38
.16
L3
0
1
7
19
27
L2
.00
.11
.24
.31
L4
0
2
10
14
26
L3
.00
.22
.34
.23
L5
11
3
0
7
21
L4
.92
.33
.00
.11
和
1
3
1
12
17
L5
.08
.33
.03
.19
12
9
29
62
112
◆ 同 様 に し て 相 対 得 点 ( 縦 列 ) を 作 成 し ま す 。 こ の と き 、 分 母 Sm.c.は 最
下 行 の 和 の セ ル を 参 照 し ま す 。 相 対 得 点 ( 縦 軸 ) で は 、 = B18 / B$22 の よ
うに、分母の行番号を絶対参照します。
相対得点:縦軸
w1
w2
w3
w4
L1
.00
.00
.52
.48
L2
.00
.04
.26
.70
L3
.00
.08
.38
.54
L4
.52
.14
.00
.33
L5
.06
.18
.06
.71
[2] 両 軸 の 相 対 得 点
横 軸 と 縦 軸 を 総 合 し た「 相 対 得 点( 両 軸 )」(Relative Score in matrix: R.S.m.)
を次のように定義します。
R.S.m. = 2x / [(Sm.r.) + (Sm.c.)]
これは横軸の相対得点と縦軸の相対得点の「分数平均」(→コラム)を使
い ま す 。 つ ま り 、 横 軸 の 相 対 得 点 x / Sm.r.と 縦 軸 の 相 対 得 点 x / Sm.c.の そ
れぞれの分子を足したものを分子とし(ここでは分子は同じなので、それ
ぞれもセルの値を 2 倍します)、それぞれの分母を足したものを分母とし
た も の で す 。 た と え ば w3, Madrid の 分 数 平 均 は ,横 軸 の 平 均 は 11/29、 縦 軸
の 平 均 は 11/21 な の で 、 (11 + 11) / (29 + 21) = 0.44 に な り ま す 。 ◆ Excel で
は =2*B4/($G4+B$8) の よ う に 、 そ れ ぞ れ の 行 和 、 列 和 を 複 合 参 照 し 、 分 子
を相対参照します。
12
相対得点:両軸
w1
w2
w3
w4
L1
.00
.00
.44
.24
L2
.00
.06
.25
.43
L3
.00
.11
.36
.32
L4
.67
.20
.00
.17
L5
.07
.23
.04
.30
[3] 全 体 の 相 対 得 点
全 体 の 相 対 得 点 ( 全 体 : Relative Score in all: R.S.a.) は 、 そ れ ぞ れ の セ ル の
値 を 全 範 囲 ( pn 個 ) の 和 Sm.a で 割 っ た も の で す 。 次 の よ う に 数 値 が 非 常
に 小 さ く な る 傾 向 が あ り ま す 。◆ Excel で は = B18 / $G$22 の よ う に 、分 母
を絶対参照して動かしません。
R.S.a. = x / Sm.a.
割 合 や 百 分 率 な ど の 相 対 得 点 (R.S.)の 問 題 点 は 、デ ー タ の 規 模 が 大 き く な る
と 分 母 が 大 き く な る の で 、 R.S.が 小 さ な 数 値 に な り や す い こ と で す 。 と く
に 全 体 の 相 対 得 点 (R.S.a.)が 小 さ な 数 値 に な る 傾 向 が あ り ま す 。
「相対」と「対照」
数 値 X と 数 値 Y を 比 較 す る に は 、 「 差 」 (X – Y)と 「 比 」 (X / Y)が 使 え ま
す 。 さ ら に 、 X / (X + Y)と い う 式 も 考 え ら れ ま す 。 こ れ は 、 分 子 の X や Y
を 全 体 (X + Y)の 中 で 相 対 化 し て い ま す 。 こ れ を 「 相 対 型 」 (Relative Type:
R.T.)と 呼 ぶ こ と に し ま す 。
相 対 型 (R.T.) = X / (X + Y)
相 対 型 は [0.0 ~ 1.0]の 範 囲 を 持 ち ま す 。 最 小 値 (0.0)は X = 0 の と き 、 最 大
値 (1.0)は Y = 0 の と き に 発 生 し ま す 。中 間 値 は X = Y の と き に 発 生 し ま す 。
ま た 、 (X – Y) / (X + Y)と い う 計 算 も よ く 使 わ れ ま す 。 こ れ を 「 対 照 型 」
(Contrastive Type: C.T.) と 名 づ け た い と 思 い ま す 。
対 照 型 (C.T.) = (X – Y) / (X + Y)
次 が 先 に 扱 っ た デ ー タ の 横 軸 の 相 対 得 点 (r.c.R.) を 対 照 型 に 変 換 し た 結 果
13
です。
対 照 型 の 範 囲 は [-1.0 ~ 1.0]に な り ま す 。0.0 を 中 心 に し て 、正 負 が 対 照 的 に
な り ま す 。 最 小 値 (-1.0)は X = 0 の と き 、 そ し て 最 大 値 (1.0)は Y = 0 の と き
に 発 生 し ま す 。 中 間 値 は 0.0 で す が 、 や は り X = Y の と き に 発 生 し ま す 。
このように、対照型の最大値と最小値はそれぞれ「割合」と同じ条件で発
生しますが、その範囲が異なります。
なお、相対型と対照型は次の関係があります。
相 対 型 ×2 – 1 =
対照型
2 [X / (X + Y)] – 1
= 2X / (X + Y) – 1
= [2X – (X + Y)] / (X + Y)
= (X – Y) / (X + Y)
この 2 つの型は便利なモデルなので、あえて「相対型」と「対照型」と
い う 名 前 を つ け て お く こ と を 提 案 し ま し た 。相 対 型 は 一 般 に「 割 合 」(ratio)
とも呼ばれていますが、これは「X / 全体」という式で示されます。ここ
で「 相 対 型 」と 呼 ぶ 概 念 は 本 質 的 に は 割 合 と 同 じ で す が 、分 母 の 中 を X と
Y, つ ま り 、 比 較 す る も の と 比 較 さ れ る も の を 分 け て 考 え ま す 。 そ の よ う
に 見 る と 、以 下 で 扱 う よ う に 、い ろ い ろ な こ と が わ か る か ら で す 。「 割 合 」
では隠れて見えなかったことが、相対型にすると、自己を含めた全体と比
べる、ということからわかることがあるからです。
一方、対照型は「自己と他者の差」と「自己と他者の和」を比べるわけ
ですから、それにどのような意味があるのか、一見しただけではよくわか
りません。そこで、相対型が数値をポジティブに評価するためのもの、対
照型が数値をポジティブにもネガティブにも評価するためのもの、と考え
ま す 。 こ れ は 相 対 型 の ス ケ ー ル [0.0 ~ 1.0]を 2 倍 し て [0.0 ~ 2.0]と し 、 そ れ
か ら 1 を 引 い て [-1.0 ~ 1.0]に し た 操 作 を 見 る と わ か り ま す 。 対 照 型 を 直 感
的に納得するには、次のように式を変形するとよいでしょう。
(X – Y) / (X + Y) = X / (X + Y) - Y / (X + Y)
14
つ ま り 、対 照 型 は X の 相 対 得 点 と Y の 相 対 得 点 の 差 を 求 め た こ と に な り ま
す。
中 世 ・ 近 代 ス ペ イ ン 語 の 前 置 詞 pora / para
次 は 、 中 世 ・ 近 代 ス ペ イ ン 語 で 起 き た 前 置 詞 の 形 態 変 化 pora > para「 ~ の
ために」を示す相対頻度と対照頻度の比較です。相対頻度を使うと、それ
ぞれの形に注目して変化を観察することができ、対照頻度を使うと、両者
を同時に対照させて変化を観察することができます。
相 対 頻 度 : Pora
相 対 頻 度 : Para
対 照 頻 度 : Pora - Para
15
◇2 加重得点
[1] 横 軸 と 縦 軸 の 加 重 得 点
た と え ば 、 w1L2 の 19 は 横 和 が 62 で す か ら 、 こ の 相 対 得 点 は 19/62 = .31
に な り ま す 。一 方 、w4L4 の 3 の 当 体 得 点 は は 3/9 = .33 に な り 、w1L2 よ り
も 大 き な 値 に な り ま す 。し か し 、私 た ち の 直 感 で は 、前 者 の 19 の ほ う が 後
者の 3 よりも「重い」値だと感じられます(→コラム)。
実測値
w1
w2
w3
w4
和
L1
10
11
0
0
21
L2
L3
19
14
7
10
0
1
1
2
27
27
L4
L5
7
12
0
1
12
1
3
3
22
17
和
62
29
14
9
114
このように実測値の得点を比較するとき、その実測値と相対得点の積にす
ると、実態を表す数値として直感的に納得がいくことがあります。そこで
「 加 重 得 点 」 (W.S.: Weighted Score)と し て 次 の 式 を 提 案 し ま す 。 x=0 の と き
に W.S.の 最 小 値 ゼ ロ に な り 、 x = 和 (Sm)の と き 、つ ま り デ ー タ の 中 に x 以
外の数値がないときに最大値が x になります。
W.S. = O.S.×R.S. = x x / Sm = x 2 / Sm
W.S.: 0.0 (x=0) ≦ 0.5 (x 2 = Sm / 2) ≦ x (x = Sm)
次が行、列、行列、全体の加重得点を示します。
W.S.row L1 L2 L3 L4
L5
w1
1.61 5.82 3.16
.79 2.32
w2
4.17 1.69 3.45
.03
w3
.07 10.29 .07
w4
.11 .44 1.00 1.00
W.S.col. L1 L2
L3 L4 L5
w1
4.76 13.37 7.26 2.23 8.47
w2
5.76 1.81 3.70
.06
w3
.04 6.55 .06
w4
.04 .15 .41 .53
W.S.both L1 L2 L3 L4
L5
w1
2.41 8.11 4.40 1.17 3.65
w2
4.84 1.75 3.57
.04
w3
.05 8.00 .06
w4
.06 .22
.58 .69
W.S.all
w1
w2
w3
w4
L1 L2
L3 L4 L5
.88 3.17 1.72 .43 1.26
1.06
.43 .88
.01
.01 1.26 .01
.01 .04 .08 .08
こ の 加 重 得 点 を さ ら に そ れ ぞ れ の 範 囲 の 最 大 値 で 割 っ て 、正 規 化 し ま す( 正
規 加 重 得 点 : W.S.+n.:Weighted Score, +normalized ) 。
16
W.S.+n. = W. S. / Max(range)
加重得点:横軸
w1
w2
w3
w4
L1
0.00
0.00
4.17
1.61
L2
0.00
0.11
1.69
5.82
L3
L4
L5
0.00 10.08 0.08
0.44 1.00 1.00
3.45 0.00 0.03
3.16 0.79 2.32
同 様 に 、 縦 軸 に つ い て も 加 重 得 点 (x 2 / Sm.c.)を 求 め ま す 。
加重得点:縦軸
w1
w2
w3
w4
L1
L2
0.00 0.00
0.00 0.04
5.76 1.81
4.76 13.37
L3
0.00
0.15
3.85
7.54
L4
5.76
0.43
0.00
2.33
L5
0.06
0.53
0.06
8.47
打率と打数
た と え ば 、 シ ー ズ ン を 通 し て 10 打 数 3 安 打 と い う 成 績 の 野 球 選 手 と 100
打 数 25 安 打 の 選 手 の 成 績 を 比 べ る と き 、 打 率 だ け を 見 る と 0.3 と 0.25 に
なり、前者のほうが優秀ということになります。しかし、安打数で比べる
な ら ば 後 者 の ほ う が 優 秀 で す 。こ れ を 加 重 得 点 で 比 べ る な ら ば 、0.9 と 6.25
と い う 数 値 に な り 、 後 者 の ほ う が 前 者 の 7 倍 (6.944)近 い 成 績 に な り ま す 。
このように加重得点のほうが直感に合う数値のように思われます。
[2] 両 軸 の 加 重 得 点
加 重 得 点 ( 両 軸 : Weighted Score in matrix: W.S.m.) の 式 は 横 軸 の 加
重得点と縦軸の加重得点の分数平均です。
W.S.m. = (x 2 + x 2 ) / (Sm.r + Sm.c.) = 2x 2 / (Sm.r + Sm.c.)
加重得点:両軸
w1
w2
w3
w4
L1
0.00
0.00
4.84
2.41
L2
0.00
0.06
1.75
8.11
L3
0.00
0.23
3.64
4.45
L4
7.33
0.60
0.00
1.18
L5
0.07
0.69
0.04
3.65
[3] 全 体 の 加 重 得 点
表 全 体 の 加 重 得 点( Weighted Score in all: W.S.a)を 求 め る に は 、分 母
に 全 体 の 得 点 (Sm.a.)を 使 い ま す 。 表 全 体 の 総 和 (N)で 相 対 化 さ れ る た
めに全体的に数値低くなる傾向があります。
17
W.S.m. = x 2 / Sm.a.
加重得点:全体
w1
w2
w3
w4
L1
0.00
0.00
1.08
0.89
L2
0.00
0.01
0.44
3.22
L3
0.00
0.04
0.89
1.75
L4
1.08
0.08
0.00
0.44
L5
0.01
0.08
0.01
1.29
◇3 限定得点
実 測 値 の 最 小 値 を 0 と し 、最 大 値 を 1 と し て 、範 囲 を [0.0 ~ 1.0]に 限 定 し て
計 算 し な お し た 値 を「 限 定 得 点 」(Limited Score: L.S.)と 呼 ぶ こ と に し ま す 。
次のように行、列、全体の、最小値と最大値を使います。
実測値
w1
w2
w3
w4
最小値
最大値
L1
0
0
11
10
0
11
L2
0
1
7
19
0
19
L3
0
2
10
14
0
14
L4
11
3
0
7
0
11
L5 最小値 最大値
1
0
11
3
0
3
1
0
11
12
7
19
1
0
12
19
L.S. = (x – Mn) / (Mx - Mn)
L.S.: 0.0 (x = Mn) ≦ 0.5 (x = (Mx - Mn) / 2) ≦ 1.0 (x = Mx)
こ こ で Mn が x を 含 む デ ー タ の 最 小 値 、Mx が そ の 最 大 値 を 示 し ま す 。x = Mn
の と き 、L.S.は 最 小 値 0.0 に な り 、x = Mx の と き 、L.S.は 最 大 値 1.0 に な り
ま す 。 中 点 (0.5)は x が Mx と Mn の 中 間 に あ る と き で す 。
[1] 横 軸 と 縦 軸 の 限 定 得 点
横 軸 の 限 定 得 点 (L.S.r)は 次 の よ う に な り ま す 。
L.S.r. = (x – Mn.r.) / (Mx.r. – Mn.r.)
ここで
Mn.r.は 横 軸 の 最 小 値 を 示 し 、 Mx.r.は 横 軸 の 最 大 値 を 示 し ま す 。
限定得点:横軸
w1
w2
w3
w4
L1
L2
.00 .00
.00 .33
1.00 .64
.25 1.00
L3
L4
L5
.00 1.00 .09
.67 1.00 1.00
.91 .00 .09
.58 .00 .42
18
同 様 に し て 、 次 は 縦 軸 の 限 定 得 点 (L.S.c.)で す 。
L.S.c. = (x – Mn.c.) / (Mx.c. – Mn.c.)
限定得点:縦軸
w1
w2
w3
w4
L1
L2
L3
L4
L5
.00 .00 .00 1.00 .00
.00 .05 .14 .27 .18
1.00 .37 .71 .00 .00
.91 1.00 1.00 .64 1.00
[2] 両 軸 の 限 定 得 点
横 軸 の 限 定 得 点 と 縦 軸 の 限 定 得 点 の 分 数 平 均 が 両 軸 の 限 定 得 点 (Limited
Score in matrix: L.S.m.)で す 。
L.S.m. = [(x – Mn.r.) + (x – Mn.c.)] / [(Mx.r. – Mn.r.) + (Mx.c. – Mn.c.)]
= (2x – Mn.r. – Mn.c.) / (Mx.r.+ Mx.c – Mn.r. – Mn.c.)
限定得点:両軸
w1
w2
w3
w4
L1
L2
.00 .00
.00 .09
1.00 .47
.57 1.00
L3
L4
.00 1.00
.24 .43
.80 .00
.81 .30
L5
.05
.36
.05
.70
[3] 全 体 の 限 定 得 点
全 体 の 限 定 得 点 (Limited Score in all: L.S.a.)は 行 列 全 体 の 最 小 値 Mn.a.と 最
大 値 Mx.a.を 使 い ま す 。
L.S.a. = (x – Mn.a.) / (Mx.a. – Mn.a.)
限定得点:全体
w1
w2
w3
w4
L1
L2
.00 .00
.00 .05
.58 .37
.53 1.00
L3
.00
.11
.53
.74
L4
.58
.16
.00
.37
L5
.05
.16
.05
.63
限定得点と最大値比得点
限 定 得 点 は デ ー タ の 最 小 値 を 0, 最 大 値 を 1 と し て い ま す が 、 最 大 値 を 1
に し た だ け の ス ケ ー ル も 考 え ら れ ま す 。こ れ は 、こ の 後 で 扱 う「 比 較 得 点 」
の 1 つである「最大値比得点」です。
19
L1
.00
.00
1.00
.53
最大値比得点:横軸
w1
w2
w3
w4
L2
.00
.33
.64
1.00
L3
.00
.67
.91
.74
L4
1.00
1.00
.00
.37
L5
.09
1.00
.09
.63
◇4 比較得点
個々のセルの値を平均値、中央値、中間値、最小値、最大値というデータ
の「 代 表 値 」(Representative Value) と 比 較 し た も の を「 比 較 得 点 」(Comparative
Score: C.S.)と 呼 ぶ こ と に し ま す 。比 較 の 仕 方 と し て「 差 」(difference)、「 比 」
(ratio)、 「 差 比 」 (difference ratio)を 考 え ま す 。
[1] 比 較 平 均 値 差 得 点
「 平 均 値 差 得 点 」(Difference to Average Score: D.A.S.)は 、そ れ ぞ れ の セ ル の
値 (x)の 、平 均 値 (Average: Av)か ら の 差 を 示 し ま す 9 。こ れ は x が ゼ ロ の と き
最 小 値 の -Av と な り 、 x が 和 (Sm)と 同 じ と き 、 つ ま り 、 デ ー タ の 中 で x 以
外 は す べ て ゼ ロ の と き 、 最 大 値 が Sm - Av = AvCn – Av = (Cn – 1) Av に な
り ま す ( Cn は デ ー タ 数 ) 。 0.0 は 中 点 で は あ り ま せ ん が 、 中 点 と 同 様 に 重
要 な 「 参 照 値 」 ( = 平 均 Av) で す 。 参 照 値 と い う の は 、 こ れ を 境 に 数 値
の意味(方向)が異なる、ということです。
実測値
w1
w2
w3
w4
平均値
L1
0
0
11
10
5.25
L2
0
1
7
19
6.75
L3
0
2
10
14
6.50
L4
11
3
0
7
5.25
L5
1
3
1
12
4.25
D.A.S. = x – Av
D.A.S.: – Av (x = 0) ≦ 0.0 (x = Av) ≦ Sm – Av (x = Sm)
平均値差得点:横軸
w1
w2
w3
w4
9
L1
-2.40
-1.80
5.20
-2.40
L2
-2.40
-.80
1.20
6.60
L3
-2.40
.20
4.20
1.60
こ れ は 「 偏 差 」 (deviation)と 呼 ば れ て い ま す 。
20
L4
8.60
1.20
-5.80
-5.40
L5
-1.40
1.20
-4.80
-.40
平均値
2.40
1.80
5.80
12.40
5.60
平均値差得点:縦軸
w1
w2
w3
w4
L1
-5.25
-5.25
5.75
4.75
L2
-6.75
-5.75
.25
12.25
L3
-6.50
-4.50
3.50
7.50
L4
5.75
-2.25
-5.25
1.75
L5
-3.25
-1.25
-3.25
7.75
平 均 値 差 (両 軸 : D.A.S. in matrix: D.A.S.m.)は 横 軸 と 縦 軸 の 2 つ の 平 均 値 差
得点の算術平均とします。
D.A.S.m. = [(D.A.S.r.) + (D.A.S.c.)] / 2
平均値差得点:両軸
w1
w2
w3
w4
L1
-3.83
-3.53
5.48
1.18
L2
-4.58
-3.28
.73
9.43
L3
-4.45
-2.15
3.85
4.55
L4
7.18
-.53
-5.53
-1.83
L5
-2.33
-.03
-4.03
3.68
平 均 値 差 (全 体 : D.A.S. in all: D.A.S.a.) で は 行 列 全 体 の 平 均 (Av.a.)を 使 い ま
す。
平均値差得点:全体
w1
w2
w3
w4
L1
-5.60
-5.60
5.40
4.40
L2
-5.60
-4.60
1.40
13.40
L3
-5.60
-3.60
4.40
8.40
L4
5.40
-2.60
-5.60
1.40
L5
-4.60
-2.60
-4.60
6.40
差の平均と算術平均
2 つ の 値 (x, y)が そ れ ぞ れ 2 つ の 数 値 の 差 (x = a – b; y = c - d)を 示 し て い る と
き 、x と y の 平 均 は 、次 の よ う な 単 純 な「 算 術 平 均 」(arithmetic average: A.A.)
で求めることができます。
A.A.(x, y) = [(a – b) + (c – d)] / 2 = (x + y) / 2
[2] 比 較 平 均 値 比 得 点
「 比 較 平 均 値 比 得 点 」 (Ratio to Average Score: R.A.S.) は 実 測 値 を 平 均 値 で 割
った値(比)です。それぞれ横軸、縦軸、全体の平均値比を見ます。x = 0
の と き に 最 小 値 0.0 に な り 、 x = 和 (Sm) の と き 、 和 (Sm) / 平 均 (Av) = 個
数 (Cn)に な り ま す 10 。 中 点 の 1.0 は x = Av の と き で す 。
10
そ こ で 、(R.A.S.) / Cn と い う 数 値 で 標 準 化 さ せ れ ば [0.0 ~ 1.0]の ス ケ ー ル
21
R.A.S. = x / Av
R.A.S.: 0.0 (x = 0) ≦ 1.0 (x = Av) ≦ Cn (x = Sm)
実測値
w1
w2
w3
w4
平均値
L1
L2
L3
L4
L5
0
0
11
10
5.25
0
1
7
19
6.75
0
2
10
14
6.50
11
3
0
7
5.25
1
3
1
12
4.25
平均値比得点:横軸
w1
w2
w3
w4
L1
.00
.00
1.90
.81
L2
.00
.56
1.21
1.53
L3
.00
1.11
1.72
1.13
L4
4.58
1.67
.00
.56
L5
.42
1.67
.17
.97
平均値比得点:縦軸
w1
w2
w3
w4
L1
.00
.00
2.10
1.90
L2
.00
.15
1.04
2.81
L3
.00
.31
1.54
2.15
L4
2.10
.57
.00
1.33
L5
.24
.71
.24
2.82
平均値
2.40
1.80
5.80
12.40
5.60
両 軸 の 「 比 較 平 均 値 比 得 点 」 (Ratio to Average Score in matrix: R.A.S.m) は 、
「 比 較 平 均 値 比 得 点( 横 軸 )」と「 比 較 平 均 値 比 得 点( 縦 軸 )」の 分 数 平 均
とします。
R.A.S.m. = 2 x / (Av.r. + Av.c.)
平均値比得点:両軸
w1
w2
w3
w4
L1
.00
.00
1.99
1.13
L2
.00
.23
1.12
1.98
L3
.00
.48
1.63
1.48
L4
2.88
.85
.00
.79
L5
.30
.99
.20
1.44
全 体 の 平 均 値 比 得 点 (R.A.S.A.)は 全 体 の 平 均 値 (Av.a.)を 使 い ま す 。
R.A.S.a. = x / Av.a.
に な り ま す が 、 こ れ は (R.A.S.) / Cn = x / (Av Cn) = x / Sm に な る の で 、 相 対
得 点 (r.s)、 つ ま り 「 割 合 」 [0.0 ~ 1.0]に な り ま す 。
22
L1
.00
.00
1.96
1.79
平均値比得点:全体
w1
w2
w3
w4
L2
.00
.18
1.25
3.39
L3
.00
.36
1.79
2.50
L4
1.96
.54
.00
1.25
L5
.18
.54
.18
2.14
[3] 比 較 平 均 値 差 比 得 点 .
平 均 値 差 得 点 は デ ー タ の ス ケ ー ル に よ っ て 左 右 さ れ る で 、平 均 差 得 点 を 平
均値で割ってデータのスケールに合わせます(完全な正規化ではありませ
ん )。こ れ を「 平 均 値 差 比 得 点 」(Difference Ratio to Average Score: D.R.A.S.)
と 名 づ け ま す 。 0.0 は 参 照 値 (x = Av)で す 。
D.R.A.S. = (d.a.s) / Av = (x. - Av) / Av
D.R.A.S.: -1 (x=0) ≦ 0.0 (x = Av) ≦ (Sm – Av) / Av (x=Sm)
平均値差比得点:横軸
w1
w2
w3
w4
L1
-1.00
-1.00
.90
-.19
L2
-1.00
-.44
.21
.53
L3
-1.00
.11
.72
.13
L4
3.58
.67
-1.00
-.44
L5
-.58
.67
-.83
-.03
平均値差比得点:縦軸
w1
w2
w3
w4
L1
-1.00
-1.00
1.10
.90
L2
-1.00
-.85
.04
1.81
L3
-1.00
-.69
.54
1.15
L4
1.10
-.43
-1.00
.33
L5
-.76
-.29
-.76
1.82
平均値差比得点:両軸
w1
w2
w3
w4
L1
-1.00
-1.00
.99
.13
L2
-1.00
-.77
.12
.98
L3
-1.00
-.52
.63
.48
L4
1.88
-.15
-1.00
-.21
L5
-.70
-.01
-.80
.44
平均値差比得点:全体
w1
w2
w3
w4
L1
-1.00
-1.00
.96
.79
L2
-1.00
-.82
.25
2.39
L3
-1.00
-.64
.79
1.50
L4
.96
-.46
-1.00
.25
L5
-.82
-.46
-.82
1.14
差比の平均と「複合平均」
23
分子に比較項との差をとり、この差と比較項の比を求める「差比」の両軸
の 計 算 を す る た め に 、 は じ め に 、 先 に 見 た 「 差 の 平 均 」 ( 算 術 平 均 : A.A.)
を求めます。
A.A.= [(x –Av.r.) + (x – Av.c.)] / 2
次 に こ れ を 分 子 と し て 、 Av.r.と の 比 の 平 均 ( 分 数 平 均 : F.A.) を 求 め ま す 。
(A.A + A.A.) / (Av.r. + Av.c.)
= 2 A.A / (Av.r. + Av.c.)
= [(x –Av.r.) + (x – Av.c.)]
= (2 x – Av.r. – Av.c.) / (Av.r. + Av.c.)
この式は横軸と縦軸のそれぞれの比較項を導入しているので、次の「複合
平 均 」 (Complex Average: C.A.) と 呼 ぶ こ と に し ま す 。
C.A. = (2 x – Av.r. – Av.c.) / (Av.r. + Av.c.)
[4] 比 較 中 央 値 得 点
比較する相手を、平均値ではなく中央値にして、差、比、差比を計算した
も の が 「 中 央 値 得 点 」 (Median Score: M.S.)で す 。
実測値
w1
w2
w3
w4
中央値
L1
L2
L3
L4
L5
0
0
11
10
5.00
0
1
7
19
4.00
0
2
10
14
6.00
11
3
0
7
5.00
1
3
1
12
2.00
L1
.00
-2.00
4.00
-2.00
L1
-5.00
-5.00
6.00
5.00
L2
.00
-1.00
.00
7.00
L2
-4.00
-3.00
3.00
15.00
L3
.00
.00
3.00
2.00
L3
-6.00
-4.00
4.00
8.00
L4
11.00
1.00
-7.00
-5.00
L4
6.00
-2.00
-5.00
2.00
L5
1.00
1.00
-6.00
.00
L5
-1.00
1.00
-1.00
10.00
(a) 差 得 点
中央値差得点:横軸
w1
w2
w3
w4
中央値差得点:縦軸
w1
w2
w3
w4
24
中央値
.00
2.00
7.00
12.00
3.00
中央値差得点:両軸
w1
w2
w3
w4
L1
-2.50
-3.50
5.00
1.50
L2
-2.00
-2.00
1.50
11.00
L3
-3.00
-2.00
3.50
5.00
L4
8.50
-.50
-6.00
-1.50
L5
.00
1.00
-3.50
5.00
中央値差得点:全体
w1
w2
w3
w4
L1
-3.00
-3.00
8.00
7.00
L2
-3.00
-2.00
4.00
16.00
L3
-3.00
-1.00
7.00
11.00
L4
8.00
.00
-3.00
4.00
L5
-2.00
.00
-2.00
9.00
(b) 比 得 点
比 得 点 で は 、 w1 の 横 軸 の 中 央 値 (MdR)が 0.0 な の で 分 母 に 0.0 を 使 う こ と
に な り 、エ ラ ー (#DIV/0!)に な り ま す 。比 得 点 で あ る た め 、両 軸 は 横 軸 と 縦
軸の分数平均とします。
L1
L2
L3
L4
L5
中央値比得点:横軸
w1
#DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0!
w2
.00
.50
1.00
1.50
1.50
w3
1.57
1.00
1.43
.00
.14
w4
.83
1.58
1.17
.58
1.00
中央値比得点:縦軸
w1
w2
w3
w4
L1
.00
.00
2.20
2.00
L2
.00
.25
1.75
4.75
L3
.00
.33
1.67
2.33
L4
2.20
.60
.00
1.40
L5
.50
1.50
.50
6.00
中央値比得点:両軸
w1
w2
w3
w4
L1
.00
.00
4.40
4.00
L2
.00
.50
3.50
9.50
L3
.00
.67
3.33
4.67
L4
4.40
1.20
.00
2.80
L5
1.00
3.00
1.00
12.00
中央値比得点:全体
w1
w2
w3
w4
L1
.00
.00
3.67
3.33
L2
.00
.33
2.33
6.33
L3
.00
.67
3.33
4.67
L4
3.67
1.00
.00
2.33
L5
.33
1.00
.33
4.00
(c) 差 比 得 点
中 央 値 比 得 点 ( 横 軸 ) と 同 様 に 、 w1 の 横 軸 の 中 央 値 (MdR)が 0.0 な の で 分
25
母 に 0.0 を 使 う こ と に な り 、 エ ラ ー (#DIV/0!)に な り ま す 。
中央値差得点:横軸
w1
w2
w3
w4
L1
L2
L3
L4
L5
#DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0!
-1.00
-.50
.00
.50
.50
.57
.00
.43
-1.00
-.86
-.17
.58
.17
-.42
.00
中央値差比得点:縦軸
w1
w2
w3
w4
L1
-1.00
-1.00
1.20
1.00
L2
-1.00
-.75
.75
3.75
L3
-1.00
-.67
.67
1.33
L4
1.20
-.40
-1.00
.40
L5
-.50
.50
-.50
5.00
中央値差比得点:両軸
w1
w2
w3
w4
L1
-1.00
-1.00
.83
.18
L2
-1.00
-.67
.27
1.38
L3
-1.00
-.50
.54
.56
L4
3.40
-.14
-1.00
-.18
L5
.00
.50
-.78
.71
中央値差比得点:全体
w1
w2
w3
w4
L1
-1.00
-1.00
2.67
2.33
L2
-1.00
-.67
1.33
5.33
L3
-1.00
-.33
2.33
3.67
L4
2.67
.00
-1.00
1.33
L5
-.67
.00
-.67
3.00
[5] 比 較 中 間 値 得 点
比 較 す る 相 手 を 中 間 値( Center: C: 最 大 値 と 最 小 値 の 中 間 値 )に し て 、差 、
比 、 差 比 を 計 算 し た も の が 「 中 間 値 得 点 」 (Center Score: C.S.)で す 。
実測値
w1
w2
w3
w4
中間値
L1
0
0
11
10
5.50
L2
0
1
7
19
9.50
(a) 差 得 点
26
L3
0
2
10
14
7.00
L4
11
3
0
7
5.50
L5
1
3
1
12
6.50
中間値
5.50
1.50
5.50
13.00
9.50
中間値差得点:横軸
w1
w2
w3
w4
L1
-5.50
-1.50
5.50
-3.00
L2
-5.50
-.50
1.50
6.00
L3
-5.50
.50
4.50
1.00
L4
5.50
1.50
-5.50
-6.00
L5
-4.50
1.50
-4.50
-1.00
中間値差得点:縦軸
w1
w2
w3
w4
L1
-5.50
-5.50
5.50
4.50
L2
-9.50
-8.50
-2.50
9.50
L3
-7.00
-5.00
3.00
7.00
L4
5.50
-2.50
-5.50
1.50
L5
-5.50
-3.50
-5.50
5.50
中間値差得点:両軸
w1
w2
w3
w4
L1
-5.50
-3.50
5.50
.75
L2
-7.50
-4.50
-.50
7.75
L3
-6.25
-2.25
3.75
4.00
L4
5.50
-.50
-5.50
-2.25
L5
-5.00
-1.00
-5.00
2.25
中間値差得点:全体
w1
w2
w3
w4
L1
-9.50
-9.50
1.50
.50
L2
-9.50
-8.50
-2.50
9.50
L3
-9.50
-7.50
.50
4.50
L4
1.50
-6.50
-9.50
-2.50
L5
-8.50
-6.50
-8.50
2.50
中間値比得点:横軸
w1
w2
w3
w4
L1
.00
.00
2.00
.77
L2
.00
.67
1.27
1.46
L3
.00
1.33
1.82
1.08
L4
2.00
2.00
.00
.54
L5
.18
2.00
.18
.92
中間値比得点:縦軸
w1
w2
w3
w4
L1
.00
.00
2.00
1.82
L2
.00
.11
.74
2.00
L3
.00
.29
1.43
2.00
L4
2.00
.55
.00
1.27
L5
.15
.46
.15
1.85
中間値比得点:両軸
w1
w2
w3
w4
L1
.00
.00
2.00
1.08
L2
.00
.18
.93
1.69
L3
.00
.47
1.60
1.40
L4
2.00
.86
.00
.76
L5
.17
.75
.17
1.23
(b) 比 得 点
27
L1
.00
.00
1.16
1.05
L2
.00
.11
.74
2.00
L3
.00
.21
1.05
1.47
L4
1.16
.32
.00
.74
L5
.11
.32
.11
1.26
中間値差比得点:横軸
w1
w2
w3
w4
L1
-1.00
-1.00
1.00
-.23
L2
-1.00
-.33
.27
.46
L3
-1.00
.33
.82
.08
L4
1.00
1.00
-1.00
-.46
L5
-.82
1.00
-.82
-.08
中間値差比得点:縦軸
w1
w2
w3
w4
L1
-1.00
-1.00
1.00
.82
L2
-1.00
-.89
-.26
1.00
L3
-1.00
-.71
.43
1.00
L4
1.00
-.45
-1.00
.27
L5
-.85
-.54
-.85
.85
中間値差比得点:両軸
w1
w2
w3
w4
L1
-1.00
-1.00
1.00
.08
L2
-1.00
-.82
-.07
.69
L3
-1.00
-.53
.60
.40
L4
1.00
-.14
-1.00
-.24
L5
-.83
-.25
-.83
.23
中間値差比得点:全体
w1
w2
w3
w4
L1
-1.00
-1.00
.16
.05
L2
-1.00
-.89
-.26
1.00
L3
-1.00
-.79
.05
.47
L4
.16
-.68
-1.00
-.26
L5
-.89
-.68
-.89
.26
中間値比得点:全体
w1
w2
w3
w4
(c) 差 比 得 点
[6] 比 較 最 小 値 得 点
比 較 す る 相 手 を 最 小 値( Minimumr: Mn.)に し て 、差 、比 、差 比 を 計 算 し た
も の が 「 最 小 値 」 (Minimumr Score: Mn.S.)で す 。
実測値
w1
w2
w3
w4
最小値
L1
0
0
11
10
.00
L2
0
1
7
19
.00
(a) 差 得 点
28
L3
0
2
10
14
.00
L4
11
3
0
7
.00
L5
1
3
1
12
1.00
最小値
.00
.00
.00
7.00
.00
最小値差得点:横軸
w1
w2
w3
w4
L1
.00
.00
11.00
3.00
L2
.00
1.00
7.00
12.00
L3
.00
2.00
10.00
7.00
L4
11.00
3.00
.00
.00
L5
1.00
3.00
1.00
5.00
最小値差得点:縦軸
w1
w2
w3
w4
L1
.00
.00
11.00
10.00
L2
.00
1.00
7.00
19.00
L3
.00
2.00
10.00
14.00
L4
11.00
3.00
.00
7.00
L5
.00
2.00
.00
11.00
最小値差得点:両軸
w1
w2
w3
w4
L1
.00
.00
11.00
6.50
L2
.00
1.00
7.00
15.50
L3
.00
2.00
10.00
10.50
L4
11.00
3.00
.00
3.50
L5
.50
2.50
.50
8.00
最小値差得点:全体
w1
w2
w3
w4
L1
.00
.00
11.00
10.00
L2
.00
1.00
7.00
19.00
L3
.00
2.00
10.00
14.00
L4
11.00
3.00
.00
7.00
L5
1.00
3.00
1.00
12.00
(b) 比 得 点
最小値比得点:横軸
w1
w2
w3
w4
L1
L2
L3
L4
L5
#DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0!
#DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0!
#DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0!
1.43
2.71
2.00
1.00
1.71
最小値比得点:縦軸
w1
w2
w3
w4
L1
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L4
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L5
1.00
3.00
1.00
12.00
最小値比得点:両軸
w1
w2
w3
w4
L1
L2
L3
L4
#DIV/0! #DIV/0! #DIV/0! #DIV/0!
#DIV/0! #DIV/0! #DIV/0! #DIV/0!
#DIV/0! #DIV/0! #DIV/0! #DIV/0!
2.86
5.43
4.00
2.00
L5
2.00
6.00
2.00
3.00
L2
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
29
L3
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
最小値比得点:全体
w1
w2
w3
w4
L1
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L2
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L3
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L4
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L5
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
(c) 差 比 得 点
最小値差比得点:横軸
w1
w2
w3
w4
L1
L2
L3
L4
L5
#DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0!
#DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0!
#DIV/0! #DIV/0! #DIV/0! #DIV/0! #DIV/0!
.43
1.71
1.00
.00
.71
最小値差比得点:縦軸
w1
w2
w3
w4
L1
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L4
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L5
.00
2.00
.00
11.00
最小値差比得点:両軸
w1
w2
w3
w4
L1
L2
L3
L4
#DIV/0! #DIV/0! #DIV/0! #DIV/0!
#DIV/0! #DIV/0! #DIV/0! #DIV/0!
#DIV/0! #DIV/0! #DIV/0! #DIV/0!
1.86
4.43
3.00
1.00
L5
1.00
5.00
1.00
2.00
最小値差比得点:全体
w1
w2
w3
w4
L1
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L2
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L2
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L3
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L3
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L4
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
L5
#DIV/0!
#DIV/0!
#DIV/0!
#DIV/0!
[7] 比 較 最 大 値 得 点
比 較 す る 相 手 を 最 大 値( Maximum: Mx.)に し て 、差 、比 、差 比 を 計 算 し た
も の が 「 最 大 値 得 点 」 (Maximum Score: Mx.S.)で す 。
実測値
w1
w2
w3
w4
最大値
L1
0
0
11
10
11
L2
0
1
7
19
19
(a) 差 得 点
30
L3
0
2
10
14
14
L4
11
3
0
7
11
L5
1
3
1
12
12
最大値
11
3
11
19
19
最大値差得点:横軸
w1
w2
w3
w4
L1
-11.00
-3.00
.00
-9.00
L2
-11.00
-2.00
-4.00
.00
L3
-11.00
-1.00
-1.00
-5.00
L4
.00
.00
-11.00
-12.00
L5
-10.00
.00
-10.00
-7.00
最大値差得点:縦軸
w1
w2
w3
w4
L1
-11.00
-11.00
.00
-1.00
L2
-19.00
-18.00
-12.00
.00
L3
-14.00
-12.00
-4.00
.00
L4
.00
-8.00
-11.00
-4.00
L5
-11.00
-9.00
-11.00
.00
最大値差得点:両軸
w1
w2
w3
w4
L1
-11.00
-7.00
.00
-5.00
L2
-15.00
-10.00
-8.00
.00
L3
-12.50
-6.50
-2.50
-2.50
L4
.00
-4.00
-11.00
-8.00
L5
-10.50
-4.50
-10.50
-3.50
最大値差得点:全体
w1
w2
w3
w4
L1
-19.00
-19.00
-8.00
-9.00
L2
-19.00
-18.00
-12.00
.00
L3
-19.00
-17.00
-9.00
-5.00
L4
-8.00
-16.00
-19.00
-12.00
L5
-18.00
-16.00
-18.00
-7.00
最大値比得点:横軸
w1
w2
w3
w4
L1
.00
.00
1.00
.53
L2
.00
.33
.64
1.00
L3
.00
.67
.91
.74
L4
1.00
1.00
.00
.37
L5
.09
1.00
.09
.63
最大値比得点:縦軸
w1
w2
w3
w4
L1
.00
.00
1.00
.91
L2
.00
.05
.37
1.00
L3
.00
.14
.71
1.00
L4
1.00
.27
.00
.64
L5
.08
.25
.08
1.00
最大値比得点:両軸
w1
w2
w3
w4
L1
.00
.00
1.00
.67
L2
.00
.09
.47
1.00
L3
.00
.24
.80
.85
L4
1.00
.43
.00
.47
L5
.09
.40
.09
.77
(b) 比 得 点
31
L1
.00
.00
.58
.53
L2
.00
.05
.37
1.00
L3
.00
.11
.53
.74
L4
.58
.16
.00
.37
L5
.05
.16
.05
.63
最大値差比得点:横軸
w1
w2
w3
w4
L1
-1.00
-1.00
.00
-.47
L2
-1.00
-.67
-.36
.00
L3
-1.00
-.33
-.09
-.26
L4
.00
.00
-1.00
-.63
L5
-.91
.00
-.91
-.37
最大値差比得点:縦軸
w1
w2
w3
w4
L1
-1.00
-1.00
.00
-.09
L2
-1.00
-.95
-.63
.00
L3
-1.00
-.86
-.29
.00
L4
.00
-.73
-1.00
-.36
L5
-.92
-.75
-.92
.00
最大値差比得点:両軸
w1
w2
w3
w4
L1
-1.00
-1.00
.00
-.33
L2
-1.00
-.91
-.53
.00
L3
-1.00
-.76
-.20
-.15
L4
.00
-.57
-1.00
-.53
L5
-.91
-.60
-.91
-.23
最大値差比得点:全体
w1
w2
w3
w4
L1
-1.00
-1.00
-.42
-.47
L2
-1.00
-.95
-.63
.00
L3
-1.00
-.89
-.47
-.26
L4
-.42
-.84
-1.00
-.63
L5
-.95
-.84
-.95
-.37
最大値比得点:全体
w1
w2
w3
w4
(c) 差 比 得 点
◇5 卓立得点
[1] 横 軸 と 縦 軸 の 卓 立 得 点
「 自 分( セ ル )が 他 の メ ン バ ー( セ ル )た ち と 違 う 」こ と を 示 す「 卓 立 得 点 」
(Prominent Score: P.S.)と い う 数 値 を 提 案 し ま す 。 こ こ で は 1 つ の セ ル の 値
(x)、 た と え ば w3:L3=10 を 取 り 出 し て 説 明 し ま し ょ う 11 。
11
こ こ で 扱 う 式 は 少 し 複 雑 な の で 、 こ れ ま で の よ う に Sm.r., Sm.c., Sm.a.,
Cn.r., Cn.c., Cn.a.で は な く 、 そ れ ぞ れ s, t, N, p, n, pn を 使 い ま す 。
32
L1 L2 L3 L4 L5 和 個数
0
0
0 11
1 12
5
0
1
2
3
3
9
5
11
7 10
0
1 29
5
10 19 14
7 12 62
5
21 27 26 21 17 112
4
4
4
4
4
20
実測値
w1
w2
w3
w4
和
個数
こ こ で 、x の 実 測 値 (=10)を 、横 行 の 他 の 値 全 体 の 和 (Sm.r. – x = 29 - 10 = 19)
と 比 較 し ま す 。こ の と き 、そ の ま ま 比 較 す る の で は な く 、x に p - 1 = 5 - 1 =
4 を 掛 け た 値 (Cn.r. – 1) x と Sm.r. – x を 比 較 し ま す 。 こ れ は x (1 個 )の 大 き
さ を 、 他 の セ ル 全 部 (p - 1 個 )と 比 べ る と 不 利 に な る か ら で す 。 そ こ で 、 セ
ル の 数 を 同 じ と 見 な し た と き の x の 値 (Cn.r. - 1) x を 考 え ま す 。 (Cn.r. - 1) x
を (Sm.r. – x)と 相 対 化 し た 値 は (Cn.r – 1) x / [(Cn.r. – 1) x + (Sm.r. – x)]で す 。
こ れ を 横 軸 の 卓 立 得 点 (P.S.r.)と し ま す 。 卓 立 係 数 は 相 対 型 X / (X + Y)な の
で 、 [0.0 ~ 1.0]の ス ケ ー ル ( 範 囲 ) に な り ま す 。
P.S.
= (Cn – 1) x / [(Cn – 1) x + (Sm – x)]
= (Cn – 1) x / [(Cn – 2) x + Sm]
こ こ で 、 P.S.は x と x 以 外 の メ ン バ ー の 平 均 (s – x) / (p – 1)を 要 素 と す る 相
対 型 X / (X + Y)に な っ て い る こ と が わ か り ま す 。そ こ で 、最 小 値 (0.0)は X
= 0 の と き な の で x = 0 の と き に な り ま す 。 最 大 値 (1.0)は Y = 0 の と き な の
で s- x = 0 の と き で す 。そ し て 、中 間 値 (0.5)は X = Y の と き で す か ら 、(p –
1)x = (p – 1) (s – x) / (p – 1)、 よ っ て x = (s – x) / (p – 1)の と き で す 。 こ れ は 、
x が ほ か の メ ン バ ー (s – x)の 平 均 (s – x) / (p – 1)の と き で す 。 つ ま り 、 P.S.
は 自 身 と ほ か の メ ン バ ー の 平 均 を 比 べ た 値 で す 。そ れ よ り も 小 さ け れ ば 0.5
以 下 に な り 、 大 き け れ ば 0.5 以 上 に な り ま す 。
P.S.: 0.0 (x = 0) ≦ 0.5 [(Cn – 1) x = (Sm – x)] ≦ 1.0 (x = Sm)
卓立得点:横軸
w1
w2
w3
w4
L1
.00
.00
.71
.43
L2
.00
.33
.56
.64
L3
.00
.53
.68
.54
L4
.98
.67
.00
.34
L5
.27
.67
.13
.49
セ ル の 数 が 多 く な る と 、相 対 得 点 (R.S.)は 小 さ く な り が ち で す が 、卓 立 得 点
(P.S.)で は セ ル の 数 (Cn)の 大 小 に あ ま り 左 右 さ れ な い 数 値 が 得 ら れ ま す 。こ
れ は P.S.の 式 の 分 子 に も 分 母 に も Cn x が あ る た め で す 。
33
同 様 に 、 横 軸 と 縦 軸 の そ れ ぞ れ の 卓 立 得 点 ( P.S.r.; P.S.c.) は
P.S.r.
= (Cn.r. – 1) x / [(Cn.r. – 2) x + Sm.r.]
P.S.c.
= (Cn.c. – 1) x / [(Cn.c. – 2) x + Sm.c.]
卓立得点:縦軸
w1
w2
w3
w4
L1
.00
.00
.77
.73
L2
.00
.10
.51
.88
L3
.00
.20
.65
.78
L4
.77
.33
.00
.60
L5
.16
.39
.16
.88
[2] 両 軸 の 卓 立 得 点
横軸と縦軸の卓立得点の分数平均を求め、これを「卓立得点」(両軸:
prominent score in Matrix: P.S.M. ) と 定 義 し ま す 。
P.S.m. = [(Cn.r. – 1) x + (Cn.c. – 1) x]
/ {[(Cn.r. – 2) x + Sm.r.] + [(Cn.c. – 2) x + Sm.c.]}
= (Cn.r. + Cn.c. – 2) x / [(Cn.r. + Cn.c. – 4) x + Sm.r + Sm.c]
卓立得点:両軸
w1
w2
w3
w4
L1
.00
.00
.73
.53
L2
.00
.17
.54
.72
L3
.00
.31
.67
.62
L4
.88
.47
.00
.42
L5
.21
.51
.14
.60
[3] 全 体 の 卓 立 得 点
全 体 の 卓 立 得 点 (Prominent Score in all: P.S.a)は x を 行 列 全 体 の そ の ほ か の
メ ン バ ー と 比 較 し ま す 。 そ の と き 、 x に は 行 列 全 体 の 個 数 Cn.a. – 1 を 加 重
して不利にならないようにします。
P.S.a. = [Cn.a – 1) x / [(Cn.a. – 2) x + Sm.a.]
卓立得点:全体
w1
w2
w3
w4
L1
.00
.00
.67
.65
L2
.00
.15
.56
.80
L3
.00
.26
.65
.73
L4
.67
.34
.00
.56
L5
.15
.34
.15
.70
正規得点のスケールの拡大
相 対 得 点 、限 定 得 点 、卓 立 得 点 は [0.0 ~ 1.0]の ス ケ ー ル( 範 囲 )で 正 規 化
34
さ れ て い ま す 。そ の 中 間 点 は 0.5 で す 。こ の よ う に [0.0 ~ 1.0]の ス ケ ー ル( 範
囲 )で 正 規 化 さ れ た 得 点 を [-1.0 ~ 1.0]の ス ケ ー ル に す る に は 、そ の 得 点 を 2
倍 し て 1 を 引 き ま す 。[0.0 ~ 1.0]を 2 倍 す る と [0.0 ~ 2.0]に な り 、こ れ か ら 1
を 引 く と [-1.0 ~ 1.0]に な る か ら で す 。
一 般 に 、 相 対 型 X / (X + Y)を 2 倍 し て 1 を 引 い て 、 [-1.0 ~ 1.0]の ス ケ ー
ル に す る と 、 次 の よ う に (X – Y) / (X + Y)と い う 「 対 照 型 」 に な り ま す 。 こ
れをモデルに使いましょう。
そ こ で 、 相 対 得 点 R.S.を 次 の よ う に 対 照 型 に す る た め に 、 は じ め に 相 対
型 X / (X + Y)に し ま す 。
R.S. =
0.0 (x=0) ≦ R.S. ≦ 1.0 (x=Sm)
こ れ を 対 照 型 に し た 相 対 得 点 を「 対 照 相 対 得 点 」(Relative Score in Contrast:
R.S.(c))と 呼 ぶ こ と に し ま す 。R.S.(c)は R.S.の x と Sm – x を 、そ れ ぞ れ X, Y
と し て 、 先 の 対 照 型 (X – Y) / (X + Y)に し た も の で す 。
R.S.C. =
-1 (x=0)≦ R.S.(c) ≦ 1 (x=Sm)
R.S.(c)の 左 式 の ほ う が わ か り や す い で す が 、Excel で 計 算 す る と き は 右 式
の ほ う が 簡 単 で す 。 ま た は R.S.を 計 算 し て あ れ ば 、 そ れ を 参 照 し 2 を 掛 け
て 1 を引きます。次がその結果です。
1 Madrid
2 Sevilla
3 México
4 Lima
対照相対得点(行)
w1
-1.00
-1.00
-1.00
w2
-1.00
-0.78
-0.56
w3
-0.24
-0.52
-0.31
w4
-0.68
-0.39
-0.55
Relative Score in row (contrast): R.S.r.(c) = (R.S.r.) * 2 - 1
5 B. A.
0.83
-0.33
-1.00
-0.77
-0.83
-0.33
-0.93
-0.61
相 対 頻 度 は デ ー タ の 規 模 が 大 き く な る と 一 般 に 全 体 の 数 値 が 下 が り 、0.5
を超えることが少なくなります。その対照相対頻度は、上の図のように、
ほとんどが負になります。
次 に 限 定 得 点 L.S.を 対 照 化 し ま す 。 は じ め に 、 L.S.を 次 の よ う に 相 対 型
35
(X – Y) / (X + Y)に し ま す 。Mn が x を 含 む デ ー タ の 最 小 値 、Mx が そ の 最 大
値を示します。
L.S. =
0.0 (x=Mn) ≦ L.S. ≦ 1.0 (x=Mx)
上 の 右 式 は 相 対 型 X / (X + Y)な の で 、 そ れ を 対 照 型 (X – Y) / (X + Y)に し
た も の が 「 対 照 限 定 得 点 」 (Limited Score (contrast): L.S.C.)で す 。
L.S.C. =
- 1.0 (x=Mn)
≦ L.S.c. ≦ 1.0 (x=Mx)
こ の L.S.C.を 最 初 か ら 計 算 す る に は 上 の 右 式 を 使 い ま す 。L.S.が す で に 計
算 さ れ て い る な ら ば 、 そ れ を 参 照 し て L.S.C. = (L.S.) × 2 – 1 の 計 算 を し
ます。次がその結果です。
対照限定得点(行)l 1 Madrid
2 Sevilla
3 México
4 Lima
w1
-1.00
-1.00
-1.00
w2
-1.00
-0.33
0.33
w3
1.00
0.27
0.82
w4
-0.50
1.00
0.17
Limited Score in row (contrast): L.S.r.(c) = (L.S.r.)*2 - 1
5 B. A.
1.00
1.00
-1.00
-1.00
-0.82
1.00
-0.82
-0.17
卓 立 得 点 P.S.は 次 の よ う に 相 対 型 X / (X + Y)で 示 さ れ ま す 。
P.S. =
–
–
–
0.0 (x=0) ≦ P.S. ≦ 1.0 (x = s)
よ っ て 、「 対 照 卓 立 得 点 」 (Prominent Score (contrast): P.S.(c)) は 次 の よ う
になります。
P.S.C. =
( – )
–
–
–
次がその結果です。
1 Madrid
2 Sevilla
3 México
4 Lima
対照卓立得点(行)
w1
-1.00
-1.00
-1.00
w2
-1.00
-0.33
0.07
w3
0.42
0.12
0.36
w4
-0.13
0.28
0.08
Prominent Score in row (contrast): P.S.r.c. = (P.S.r.)*2 - 1
36
5 B. A.
0.96
0.33
-1.00
-0.33
-0.47
0.33
-0.75
-0.02
逆 に 、 [-1.0 ~ 1.0]の ス ケ ー ル を [0.00 ~ 1.00]の ス ケ ー ル に す る に は 、 1 を
足 し て [0.0 ~ 2.0]の ス ケ ー ル に し て 、 次 に 2 で 割 っ て [0.0 ~ 1.0]の ス ケ ー ル
にします。
◇6 標準得点
[1] 標 準 得 点
それぞれの横軸、縦軸または行列全体を同じスケールとばらつきで評価す
るには、和と平均を 0 にすることに加えて、標準偏差が 1 になるようにす
る必要があります。この操作は平均値差(偏差)を標準偏差で割ることで
可 能 に な り ま す 。 こ の 値 を 「 標 準 得 点 」 (Standard Score: S.S.と 呼 び ま す 12 。
実測値
w1
w2
w3
w4
平均
標準偏差
個数
L1
L2
L3
0
0
11
10
5.25
5.26
4
0
1
7
19
6.75
7.56
4
0
2
10
14
6.50
5.72
4
L4
11
3
0
7
5.25
4.15
4
L5
1
3
1
12
4.25
4.55
4
平均 標準偏差 個数
2.40
4.32
5
1.80
1.17
5
5.80
4.53
5
12.40
4.03
5
5.60
5.65
20
標 準 得 点 (S.S.)の 式 は 次 の と お り で す 。
S.S. = (x – Av) / Sd
こ こ で 、 x は 実 測 値 、 Av は 平 均 値 、 Sd は 標 準 偏 差 を 示 し ま す 。 こ の よ う
に標準得点はそれぞれ元の値から全体の平均値を引いて、さらにその値を
全体の標準偏差で割って得られた数値です。次は、このデータを標準得点
に置き換えた結果です。
標準得点:横軸
w1
w2
w3
w4
12
L1
-.56
-1.54
1.15
-.60
L2
-.56
-.69
.26
1.64
L3
-.56
.17
.93
.40
L4
1.99
1.03
-1.28
-1.34
L5
-.32
1.03
-1.06
-.10
「 標 準 得 点 」は Standarized Measure, Z-Score と も 呼 ば れ て い ま す 。池 田 央
(1975)『 統 計 的 方 法 I 基 礎 』 ( 新 曜 社 ) 。
37
標準得点:縦軸
w1
w2
w3
w4
L1
-1.00
-1.00
1.09
.90
L2
-.89
-.76
.03
1.62
L3
-1.14
-.79
.61
1.31
L4
1.39
-.54
-1.27
.42
L5
-.71
-.27
-.71
1.70
標準得点:両軸
w1
w2
w3
w4
L1
-.80
-1.10
1.12
.25
L2
-.77
-.75
.12
1.63
L3
-.89
-.62
.75
.93
L4
1.70
-.20
-1.27
-.45
L5
-.52
-.01
-.89
.86
標準得点:全体
w1
w2
w3
w4
L1
-.99
-.99
.96
.78
L2
-.99
-.81
.25
2.37
L3
-.99
-.64
.78
1.49
L4
.96
-.46
-.99
.25
L5
-.81
-.46
-.81
1.13
標準得点の平均と標準偏差
標準得点の和と平均は 0 になり、標準偏差が 1 になります。これは標準偏
差の重要な性質です。
は じ め に 、標 準 得 点 (S.S)の 標 準 偏 差 が す べ て 1 に な る 理 由 を 確 か め て お き
ま し ょ う 。は じ め に 、標 準 得 点 の 平 均 (m s s )が ゼ ロ に な る こ と を 確 か め ま す 。
m s s = (S.S. 1 + S.S. 2 + .... + S.S. n ) / n
S.S.の 定 義 に し た が っ て 、
= [(x 1 - m)/Sd + (x 2 - m)/Sd + ... + (x n - m)/Sd] / n
= [(x 1 - m) + (x 2 - m) + ... + (x n - m)] / (n Sd)
= [(x 1 + x 2 + ... + x n ) – n m] / (n Sd)
こ こ で 、 分 子 の (x 1 + x 2 + ... + x n )は 総 和 を 示 し ま す 。 n m は 平 均 の n 倍 だ か
ら、これも総和となるので、分子はゼロになります。よって標準得点の平
均 (m s s )も ゼ ロ で す 。
次 に 標 準 得 点 の 分 散 (Sd s s 2 )は 、 次 の よ う に な り ま す 。
Sd s s 2 = [(SM 1 - m s s ) 2 + (SM 2 - m s s ) 2 + ... + (SM n - m s s ) 2 ] / n
先 に 標 準 得 点 の 平 均 (m s s ) が ゼ ロ で あ る こ と を 確 か め た の で 、
38
= {(SM 1 - 0) 2 + (SM 2 - 0) 2 + ... + (SM n - 0) 2 } / n
それぞれの標準得点を定義の式に置き換えると、
= {[(x 1 - m)/Sd] 2 + [(x 2 - m)/Sd] 2 + ... + [(x n - m) / Sd] 2 ]} / n
全 体 の Sd 2 を く く っ て 外 側 の 分 母 に 移 し ま す 。
= [(x 1 - m) 2
+ (x 2 - m) 2
+ ... + (x n - m) 2 ]
/ (n Sd 2 )
ここで、
[(x 1 - m) 2
+ (x 2 - m) 2
+ ... + (x n - m) 2 ] / n
は 、 x 1 , x 2 , ...x n の 分 散 (Sd 2 )で す か ら 、 先 の 式 は 次 の よ う に な り ま す 。
= Sd 2 / Sd 2 = 1
標 準 偏 差 Sd は 分 散 の 根 ( ル ー ト ) で す か ら 、 標 準 得 点 の 標 準 偏 差 も 1
となります。
こ の よ う に し て 尺 度 を 、 平 均 が 0、 標 準 偏 差 が 1 に な る よ う に 標 準 化 さ
せた値が標準得点です。標準化前の数値をそのまま比較すると絶対的な尺
度になり、全データの中での相対的な価値が勘案されていないことになり
ます。一方、標準得点は平均がゼロ、標準偏差が 1 になるように標準化さ
れているので、点数とか温度とか価格とか(キロ)メートルのような単位
がなくなります。これにより、異なる概念(単位)の数値の間の関係も標
準得点によって数値化できるようになります。
偏差値
テ ス ト で よ く 使 わ れ る 「 偏 差 値 」 は 標 準 得 点 を 10 倍 し 50 を 足 し て 計 算 し
ます。
偏 差 値 = 標 準 得 点 ×10 + 50
そ う す る と 偏 差 値 の 平 均 は 50 に な り 、標 準 偏 差 は 10 に な り ま す 。標 準 得
点 に よ っ て 、 せ っ か く 平 均 0, 標 準 偏 差 1 に し て 標 準 化 し た の に 、 偏 差 値
で は も う 一 度 そ れ を 10 倍 し て 、 さ ら に 50 を 足 し て い る の で す 。 こ れ は 、
私 た ち が 100 点 満 点 の テ ス ト に 慣 れ て い る た め で 、 そ の ほ う が わ か り や す
いからでしょう。
39
[2] 正 規 標 準 得 点
標 準 得 点 を よ く 観 察 す る と 絶 対 値 が 1.00 を 超 え る 数 値 が し ば し ば 現 れ る
ことがわかります。これは平均との差が標準偏差を超えたことを示してい
ま す 。 偏 差 値 で 言 え ば 40 点 以 下 の ケ ー ス や 60 以 上 の ケ ー ス な の で 、 よ く
生 じ る 現 象 で す 。 そ こ で 、 標 準 得 点 の 範 囲 を [-1.00 ~ 1.00]と い う ス ケ ー ル
で正規化した数値を求めれば、他の正規得点と同様に数値を正規化した尺
度 で 比 較 す る こ と が で き ま す 。こ れ を「 正 規 標 準 得 点 」(Normalized Standard
Score: N.S.S.)と 名 付 け る こ と に し ま し ょ う 。
正 規 標 準 得 点 (N.S.S.) は 標 準 得 点 (S.S.) を 標 準 得 点 の 理 論 的 な 最 大 値
(S.S.max)で 割 っ た 値 と し ま す 。 先 の 「 正 規 標 準 偏 差 」 で 見 た よ う に 、 標 準
偏差の最大値は
S.D.max = m√ (n-1)
そ し て 、 標 準 得 点 (S.S.)の 最 大 値 (S.S.max)は
S.S.max = (x – m) / S.D.max
= (x – m) / (m√ (n -1))
= (x – x/n) / x/n√ (n -1)
= (nx – x)/n / x/n√ (n -1)
= (n – 1)x/n / x/n√ (n -1)
= (n – 1) / √ (n - 1)
= √ (n -1)
よ っ て 、 正 規 標 準 得 点 (N.S.S.)は
N.S.S. = S.S. / S.S.max = S.S. / √ (n-1)
正規標準得点:横軸
w1
w2
w3
w4
L1
L2
L3
L4
L5
-.28 -.28 -.28 1.00 -.16
-.77 -.34 .09 .51 .51
.57 .13 .46 -.64 -.53
-.30 .82 .20 -.67 -.05
正規標準得点:縦軸
w1
w2
w3
w4
L1
L2
L3
-.58 -.52 -.66
-.58 -.44 -.45
.63 .02 .35
.52 .94 .76
40
L4
L5
.80 -.41
-.31 -.16
-.73 -.41
.24 .98
正規標準得点:両軸
w1
w2
w3
w4
L1
L2
L3
-.43 -.42 -.48
-.62 -.42 -.35
.60 .07 .41
.14 .89 .51
L4
L5
.91 -.28
-.11 -.00
-.68 -.48
-.24 .46
正規標準得点:全体
w1
w2
w3
w4
L1
L2
L3
-.23 -.23 -.23
-.23 -.19 -.15
.22 .06 .18
.18 .54 .34
L4
L5
.22 -.19
-.11 -.11
-.23 -.19
.06 .26
◇7 期待得点
こ こ で 提 案 す る「 期 待 得 点 」(Expectation Score: E.S.)は 、次 に 示 す「 期 待 値 」
(Expected Frequency: E.F.)を 使 い ま す 13 。 期 待 値 は そ れ ぞ れ の セ ル の 値 が 横
の和と縦の和から見て、平均に分布しているとすればどのような値として
期 待 さ れ る か を 示 す も の で す 。「 期 待 さ れ る 」と い う よ り も「 予 想 さ れ る 」
(expected)と 考 え た ほ う が わ か り や す い か も 知 れ ま せ ん 。
実測値
w1
w2
w3
w4
和
L1
0
0
11
10
21
L2
0
1
7
19
27
L3
0
2
10
14
26
L4
11
3
0
7
21
L5
1
3
1
12
17
和
12
9
29
62
112
期 待 値 は 縦 と 横 の 和 の 割 合 か ら 計 算 さ れ ま す 。w1 の 和( 横 和 : 0 + 0 + 0 + 11
+ 1) が 12 と な っ て い ま す 。 一 方 、 一 番 下 の 和 SmC の 横 軸 に 注 目 す る と 、
1 Madrid の 和( 縦 和 : 0+0+11+10)は 21 で す 。総 和 は 112 で す か ら 、Madrid
の w1 は 、横 和 の 12 回 の う ち 、21 / 112 の 割 合 で 出 て く る と 予 想 さ れ ま す 。
つ ま り 、 12×(21 / 112) ≒ 2.25 と な り ま す 。 Excel シ ー ト で は 横 和 Sm.r.を
列 固 定 で 参 照 し 、縦 和 Sm.c.を 行 固 定 で 参 照 し ま す 。分 母 の 総 和 Sm.a.は 列
も行も固定します。それぞれのセルについての計算結果が次の表です。
13
「 期 待 値 」 (E.F.)は 一 般 に 「 期 待 度 数 」 と 呼 ば れ る こ と が 多 い の で す が 、
ここでは「実測値」と「期待値」を対等に比較する、という意図から両者
に「値」という訳語を使います。この訳語「期待値」も使われています。
「 期 待 値 得 点 」 と 、 以 下 で 扱 う 得 点 (score)は 使 わ れ て い ま せ ん 。
41
E.F. = (Sm.r. Sm.c.) / Sm.a.
期待値
w1
w2
w3
w4
L1
L2
L3
L4
2.25 2.89 2.79 2.25
1.69 2.17 2.09 1.69
5.44 6.99 6.73 5.44
11.63 14.95 14.39 11.63
L5
1.82
1.37
4.40
9.41
[1] 期 待 値 差
「 期 待 値 差 」 (Difference to Expected Frequency Score: D.E.F.S.)で は 期 待 値 と
実測値の差を計算します。
D.E.F.S. = x – E.F.
期待値差得点
w1
w2
w3
w4
L1
-2.25
-1.69
5.56
-1.63
L2
-2.89
-1.17
.01
4.05
L3
-2.79
-.09
3.27
-.39
L4
8.75
1.31
-5.44
-4.63
L5
-.82
1.63
-3.40
2.59
この表で実測値と期待値の乖離がどの程度がわかります。しかし、スケー
ルが正規化されていないためデータ間で期待値差を比較することはできま
せん。
[2] 期 待 値 比
「 期 待 値 比 」 (Ratio to Expected Frequency Score: R.E.F.S.)を 計 算 す る に は 、
実測値/期待値を計算します。
R.E.F.S. = x / E.F.
期待値比得点
w1
w2
w3
w4
L1
.00
.00
2.02
.86
L2
.00
.46
1.00
1.27
L3
.00
.96
1.49
.97
L4
4.89
1.78
.00
.60
L5
.55
2.20
.23
1.28
差ではプラスとマイナスの値で実測値と期待値が比較されますが、比で
は、実測値も期待値もプラスなので、すべてプラスの数値になり、実測値
からの(プラスとマイナスの)差がわかりません。
42
[3] 期 待 値 差 比
差の欠点は、単に実測値と期待値を比較しただけなので、それが絶対化さ
れ て い る こ と で す 。そ れ ぞ れ の ケ ー ス の 数 値 の ス ケ ー ル( 相 対 的 な 大 き さ )
に合わせれば、全体を見回した比較ができるようになります。そこで、求
めた偏差(のスケール)を期待値(のスケール)で割れば、絶対的な数値
ではなく、その数値のスケールに合った相対的な数値が得られます。それ
が 「 期 待 値 差 比 」 (Difference Ratio to Expected Frequency Score: D.R.E.F.S.)
で す 14 。 こ れ は 差 と 比 を 総 合 し た 値 で す 。
D.R.E.F.S. = (x – E.F.) / E.F.
期待値差比得点
w1
w2
w3
w4
L1
-1.00
-1.00
1.02
-.14
L2
-1.00
-.54
.00
.27
L3
-1.00
-.04
.49
-.03
L4
3.89
.78
-1.00
-.40
L5
-.45
1.20
-.77
.28
プ ラ ス と マ イ ナ ス の 符 号 は 期 待 値 差 の 場 合 と 同 じ で す 。相 対 誤 差 は 実 測 値
と期待値が同じになったときはゼロになります。これは実測値が予想され
た 値 そ の も の で あ っ た こ と を 意 味 し ま す 。 た と え ば 、 w3: 2. Sevilla が ゼ ロ
に な っ て い ま す 。こ れ は 実 測 値 が 予 想 通 り な の で 情 報 を も ち ま せ ん 。一 方 、
w1: 4. Lima は 3.89 と い う 値 に な り 、期 待 値 よ り も 実 測 値 が か な り 大 き い こ
とがわかります。
[4] 期 待 得 点
以 上 の 期 待 値 差 、期 待 値 比 、期 待 値 差 比 は ど れ も [0.0 ~ 1.0]に 正 規 化 さ れ た
数値ではないので扱いがすこし困難です。ここでは、実測値と、期待値の
理論的な最大値を比較して正規化した値を求めたいと思います。はじめに
期待値の範囲を確認します。期待値が最大になるのは、次のように当該セ
ルの行と列以外のセルがすべてゼロの場合です。
14
実測値
1 Madrid
2 Sevilla
3 México
和 SmR
w1
10
20
20
50
w2
30
0
0
30
和 SmC
40
20
20
80
東京大学教養学部統計学教室『統計学入門』(東京大学出版会)
(1991:p.247)は こ れ を 「 相 対 誤 差 」 と 呼 ん で い ま す 。
43
そこで、2 個以上の列と行がある行列を次のように 2 行 x 2 列の行列まと
めて表示します。
実測値
当該列
ほかの列
行和
当該行
x
b
x + b
ほかの行
c
d
c + d
列和
x + c
b + d
x + b + c + d
こ こ で は 当 該 の セ ル の 値 (x)は 10 で 、そ の ほ か の セ ル は b = 20 + 20 = 40, c =
30, d = 0 に な り ま す 。 期 待 値 x の セ ル の 期 待 値 は
E.F.(x) = (x + b)(x + c) / (x + b + c + d)
そして、d = 0 のときの x の期待値は
E.F.(x: d = 0) = (x + b)(x + c) / (x + b + c)
こ れ が 「 最 大 期 待 値 」 (E.F.max)に な り ま す 。
E.F.max = E.F.(x: d=0) = (x + b)(x + c) / (x + b + c)
さ ら に c=0 と い う 状 況 を 考 え る と 、
E.F.(x: c=d=0) = (x + b)x / (x + b) = x
と な る の で 実 測 値 (x)と 期 待 値 (x)が 一 致 し ま す 。こ れ は 、た と え ば 次 の よ う
に 、当 該 セ ル の あ る 行 以 外 の 行 が 全 部 ゼ ロ の 場 合 で す (c=d=0: 50 x 10 / 50 =
10)。
実測値
1 Madrid
2 Sevilla
3 México
和 SmR
w1
10
20
20
50
w2
0
0
0
00
和 SmC
10
20
20
50
こ れ は b=0 の と き で も 同 じ で す 。 こ れ は 、 た と え ば 次 の よ う に 、 当 該 セ ル
の あ る 列 以 外 の 列 が 全 部 ゼ ロ の 場 合 で す (b=d=0: 10 x 40 / 40 = 10) 。
実測値
1 Madrid
2 Sevilla
3 México
和 SmR
w1
10
0
0
10
w2
30
0
0
30
44
和 SmC
40
0
0
40
そ し て 、 期 待 値 の 最 小 値 E.F.min. (=0)が 出 現 す る の は x = 0 の と き で す 。
E.F.min. = 0 (x=0)
以 上 を ま と め る と 、 期 待 値 E.F.の 範 囲 は 次 の よ う に な り ま す 。
E.F.: 0.0 [x=b=d=0]≦ m. [b=d=0] ≦ (x + b)(x + c) / (x + b + c) [d=0]
E.F.: 0.0 [x=c=d=0]≦ m. [c=d=0] ≦ (x + b)(x + c) / (x + b + c) [d=0]
こ の と き の 中 点 m.は 必 ず し も 最 大 値 と 最 小 値 の 中 間 値 で は な い の で す が 、
実測値と同じになるので重要な参照値になります。そして、次のように、
こ の 中 点 (m.)は 最 大 値 (x + b)(c + c) / (x + b + c) を 超 え る こ と は あ り ま せ ん 。
x ≦ (x + b)(x + c) / (x + b + c)
x (x + b + c) ≦ (x + b)(x + c)
x 2 + bx + cx ≦ x 2 + cx + bx + bc
bc ≧ 0
こ こ で 、b も c も ゼ ロ を 含 む 自 然 数 な の で 、bc ≧ 0 に な る こ と は 明 ら か で
す 。 そ こ で 、 こ の 導 出 過 程 を 逆 に 遡 れ ば x ≦ (x + b)(x + c) / (x + b + c) に
た ど り 着 き ま す 。 つ ま り 中 点 (x)は 最 大 値 (x + b)(x + c) / (x + b + c) を 超 え な
い、ということです。
「 最 大 期 待 値 」 (E.F.max)を 計 算 す る た め に 次 の 式 を 使 い ま す 。
E.F.max = (x + b)(x + c) / (x + b + c)
= (x + b)(x + c) / [(x + b) + (x + c) - x)]
= (SmR SmC) / (SmR + SmC – x)
次の図がそれぞれのセルの最大期待値を示しています。
最大期待値
w1
w2
w3
w4
L1
L2
L3
L4
L5
7.64 8.31 8.21 11.45 7.29
6.30 6.94 7.09 7.00 6.65
15.62 15.98 16.76 12.18 10.96
17.84 23.91 21.78 17.13 15.73
「 正 規 期 待 値 得 点 」(Normalized Expected Frequency Score : N.E.F.S.)は 、実 測
値 (x)を こ の 最 大 期 待 値 (E.F.max.)で 割 っ た も の で す 。
45
N.E.F.S.= x / E.F.max
先 に 見 た よ う に 、 x ≦ E.F.max の 関 係 が あ り ま す か ら 、 N.E.F.S.R.は [0.0 ~
1.0]に 正 規 化 さ れ た 数 値 で す 。
N.E.F.S.: 0.0 (x = 0) … 0.5 (x = E.F.max / 2) … 1.0 (x = E.F.max)
期待得点
w1
w2
w3
w4
L1
L2
.00
.00
.70
.56
.00
.14
.44
.79
L3
L4
.00
.28
.60
.64
.96
.43
.00
.41
L5
.14
.45
.09
.76
期 待 得 点 (E.S.)は 、期 待 値 の 理 論 的 な 最 大 値( 際 立 っ た 分 布 に お い て 期 待 さ
れる頻度)と比較して実測値を正規化した尺度で評価するものです。これ
が 1 に近ければ、際立った分布において期待される頻度に近いことを示し
ます。
期 待 得 点 (E.S.) を 次 の 式 に よ っ て 対 照 化 す れ ば 、 「 対 照 期 待 得 点 」
(Expectation Score (contrastive): E.S.(c))が 得 ら れ ま す 。
E.S.(c) = E.S. * 2 - 1
対照期待得点
w1
w2
w3
w4
L1
-1.00
-1.00
.41
.12
L2
-1.00
-.71
-.12
.59
L3
-1.00
-.44
.19
.29
L4
.92
-.14
-1.00
-.18
L5
-.73
-.10
-.82
.53
◇8 逸脱得点
確 率 的 に 見 て 異 常 な 度 数 を 検 知 す る 「 逸 脱 得 点 」 (Divergent Score: D.S.)
を提案します。
ある事象が起こる確率にはさまざまなものがあります。たとえば、サイ
コ ロ に は {1, 2, 3, 4, 5, 6}と い う 目 が あ る の で 、 1 回 サ イ コ ロ を 投 げ る と き
(「 試 行 」と 言 い ま す )、そ れ ぞ れ の 目 が 出 る 確 率 は そ れ ぞ れ 1/6 ず つ で す 。
こ れ ら の 目 の 中 の 1 つ 、た と え ば「 1」が 出 る 確 率 は 1/6 な の で 、逆 に「 1」
が 出 な い 確 率 は 1 - 1/6 = 5/6 で す 。 次 の 表 の F (False)は 「 1 」 が 出 な い こ
と を 示 し 、 T (True) は 「 1 」 が 出 る こ と を 示 し て い ま す 。 確 率 の 総 和 が 1
に な る こ と を 確 認 し て く だ さ い (5/6 + 1/6 = 1)。
46
「1」
T の数
F
0
5/6≒ 0.833
T
1
1/6≒ 0.167
確率
次 に サ イ コ ロ を 2 回 投 げ る 場 合 (試 行 回 数 =2)を 考 え ま し ょ う 。 た と え ば 1
回 目 が F で 2 回 目 が T と す る と 、こ れ を F, T と 書 き ま す 。こ の 場 合 も 確 率
の 総 和 は 1 に な り ま す (25/36 + 5/36 + 5/36 + 1/36 = 1)。
T の数
確率
F, F
0
(5/6) (5/6) = 25/36≒ 0.694
F, T
1
(5/6) (1/6) = 5/36≒ 0.139
T, F
1
(1/6) (5/6) = 5/36≒ 0.139
T, T
2
(1/6) (1/6) = 1/36≒ 0.028
「1」
さ ら に 、 サ イ コ ロ を 3 回 投 げ る 場 合 (試 行 回 数 =3)を 考 え ま す 。 こ の 場 合 も
確率の総和は 1 になることを確かめてください。
「1」
T の数
確率
F, F, F
0
(5/6) (5/6) (5/6) = 125/216 ≒ 0.579
F, F, T
1
(5/6) (5/6) (1/6) = 25/216 ≒ 0.116
F, T, F
1
(5/6) (1/6) (5/6) = 25/216 ≒ 0.116
T, F, F
1
(1/6) (5/6) (5/6) = 25/216 ≒ 0.116
T, T, F
2
(1/6) (1/6) (5/6) = 5/216≒ 0.023
T, F, T
2
(1/6) (5/6) (1/6) = 5/216≒ 0.023
F, T, T
2
(5/6) (1/6) (1/6) = 5/216≒ 0.023
T, T, T
3
(1/6) (1/6) (1/6) = 1/216 ≒ 0.005
ここで、たとえばサイコロを 3 回投げて順番を問題にせずに、全部で 2 回
「 1 」 が 出 る 場 合 (T の 数 =2)の 確 率 を 求 め る と 、 上 の 表 か ら 、
「1」
T の数
確率
T, T, F
2
(1/6) (1/6) (5/6) = 5/216≒ 0.023
T, F, T
2
(1/6) (5/6) (1/6) = 5/216≒ 0.023
F, T, T
2
(5/6) (1/6) (1/6) = 5/216≒ 0.023
を 合 わ せ た 確 率 、 つ ま り 、 5/216 + 5/216 + 5/216 = 15/216 ≒ 0.069 に な る こ
47
と が わ か り ま す 。 こ れ は 「 1 」 が 2 回 出 る 場 合 の 確 率 (5/216)を 3 倍 し た 数
で す 。そ れ ぞ れ の 場 合 の 確 率 5/216 は (1/6) 2 (5/6)、つ ま り T の 確 率 1/6 の 2
回 分 と F の 確 率 5/6 の 1 回 分 の 積 に な り ま す 。
次 に 、T, T, F だ け で な く 、他 に も T,F,T と F,T,T が あ る の で 、こ の 積 5/216
を 3 倍 し ま す 。 こ の 倍 数 の 3 を 求 め る の は 、 こ の よ う に 少 な い 試 行 回 数 (3
回 )な ら ば す ぐ 計 算 で き ま す が 、そ れ が 多 く な る と 一 般 式 を 使 わ な け れ ば な
り ま せ ん 。 n 回 の 試 行 で T が r 回 選 ば れ る 場 合 の 数 は nCr と い う 「 組 み 合
わ せ 」 (Combination: nCr)の 値 に な り ま す 15 。 こ こ で は 、 T が 2 個 で F が 1
個 の 組 み 合 わ せ に な る の で 3C2 で 計 算 し ま す 。 そ こ で 、 3 回 の 試 行 で T が
順番を問わずに 2 回出る確率は
3C2
(1/6) 2 (5/6) = (3 x 2) / (2 x 1) (1/6) 2 (5/6) = 15/216≒ 0.069
この確率を一般化した式で示すと、
nCr
(p) r (1 - p) n -r
になります。ここで n はサイコロを投げた総回数(試行数)、r は選ばれ
る 回 数 ( 成 功 数 ) 、 p は T の 確 率 (成 功 確 率 :1/6)、 1 - p は F の 確 率 (失 敗 確
率:5/6)を 示 し ま す 。こ の 確 率 の 分 布 は「 二 項 分 布 」(Binomial Distribution)
と呼ばれています。
◆二項分布の確率の計算は階乗を多く使うので、n や r が大きくなると計
算 が 複 雑 に な り ま す 。そ こ で 、Excel 関 数 の BINOMDIST(r, n, p, 0) を 使 用 し
ます。
次 は 、 試 行 回 数 = 4 を 固 定 し 、 成 功 率 を 1/2, 1/3, …, 1/6 と 変 化 さ せ 、 成 功
回 数 = 0, 1, 2, 3, 4 の そ れ ぞ れ の 確 率 を 計 算 し た 結 果 で す 。
15
こ れ は 互 い に 区 別 の つ く 3 個 の 物 {a, b, c}の 中 か ら 任 意 の 2 個 (= T)を 取
り 出 す 場 合 の 数 と 同 じ で す 。も し 、取 り 出 す 順 番 を 考 え る な ら ば 、ab, ac, ba,
bc, ca, cb と い う 6 個 の 場 合 が あ り ま す 。 こ れ が 「 順 列 」 (Permutation: nPr)
で 、n P r = n (n – 1)(n – 2) … (n – r + 1). こ こ で 、順 番 を 考 慮 し な け れ ば(「 組
み 合 わ せ 」 3 C 2 )、ab と ba, ac と ca、bc と cb は そ れ ぞ れ 同 じ な の で 場 合 の
数 を 2 で 割 ら な け れ ば な り ま せ ん 。 こ の 2 は 2P2 の 順 列 (2! = 2 x 1)で す 。
よ っ て 3 C 2 = (3 x 2) / (2 x 1). 一 般 式 は
nCr
= n P r / r! = n (n – 1)(n – 2) … (n – r + 1) / r! = n! / [r!(n - r)!]
48
成功回数:y
0
1
2
3
4
成功率
1/2
0.0625
0.2500
0.3750
0.2500
0.0625
x
1/3
0.1975
0.3951
0.2963
0.0988
0.0123
1/4
0.3164
0.4219
0.2109
0.0469
0.0039
試行回数
1/5
0.4096
0.4096
0.1536
0.0256
0.0016
4
1/6
0.4823
0.3858
0.1157
0.0154
0.0008
た と え ば 、 BINOMDIST(0, 4, 1/2, 0) は 0.0625 を 示 し て い ま す 。 こ れ は コ イ
ン を 投 げ て 表 を 出 す 確 率 な ど で 4 回 投 げ て 一 度 も 表 に な ら な い 確 率 (1/2)4
= 1/16 = 0.0625 を 示 し て い ま す 。 こ の よ う に 確 率 が 1/2 の と き は 、 確 率 の
分布が 2 を最大値として、上下対称になります。サイコロの目(たとえば
「 1」)が 出 る 確 率 は 1/6 で す が 、そ の と き の 成 功 回 数 =0 の 確 率 は 、(5/6) 4 =
0.4823, 成 功 回 数 =4 の 確 率 は 、(1/6) 4 = 0.0008 と な っ て 、上 下 対 称 で は あ り
ません。
と こ ろ が 次 の よ う に 試 行 回 数 を 4, 5, 6, …, 20 の よ う に 増 加 さ せ る と 、次
第 に 分 布 が 上 下 対 称 に 近 づ き ま す 。そ の 確 率 の 最 大 値 は 、成 功 率 =1/2 の と
きのように試行回数の中央値ではなく、試行回数と確率の積に近似した成
功 回 数 の と き の 確 率 に な り ま す 。た と え ば 確 率 が 1/6 で 20 回 の 試 行 す れ ば 、
成 功 回 数 が (1/6) x 20 ≒ 3 と な り ま す か ら 、 成 功 数 =3 の 確 率 が 一 番 高 い 、
ということは直感的にも納得できます。
成功率
成功回数:y
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
4
0.4823
0.3858
0.1157
0.0154
0.0008
1/6
5
0.4019
0.4019
0.1608
0.0322
0.0032
0.0001
49
6
0.3349
0.4019
0.2009
0.0536
0.0080
0.0006
0.0000
試行回数
10
0.1615
0.3230
0.2907
0.1550
0.0543
0.0130
0.0022
0.0002
0.0000
0.0000
0.0000
x
15
0.0649
0.1947
0.2726
0.2363
0.1418
0.0624
0.0208
0.0053
0.0011
0.0002
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
20
0.0261
0.1043
0.1982
0.2379
0.2022
0.1294
0.0647
0.0259
0.0084
0.0022
0.0005
0.0001
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
0.0000
こ こ で 提 案 す る「 逸 脱 確 率 得 点 」(D.P.S.: Divergent Probability Score)は 二 項
分 布 の 確 率 を 利 用 し て 求 め ま す 。こ の と き 、r = 実 測 値 、n = 母 数 、p = 全
体の中での割合、を使います。
実測値
w1
w2
w3
w4
和
L1
0
0
11
10
21
L2
L3
0
1
7
19
27
L4
0
2
10
14
26
L5
11
3
0
7
21
1
3
1
12
17
和
12
9
29
62
112
上の実測値を使って、たとえば「行」の二項分布得点は、該当するセルの
行 和 (Sm.r.)を n と し 、 列 和 / 総 和 を p と し ま す 。 w1-1.Madrid(=0)を 例 に す
る と 、12 回 の 試 行 で 0 回 起 こ る 確 率( 成 功 回 数 )を 、21/112 と い う 全 体 の
確 率 の 二 項 分 布 の 中 で の 確 率 を 求 め (Binomial Score: B.S)、 12 x 21 / 112 と
い う 成 功 回 数 ( 期 待 値 ) で の 確 率 ( 二 項 分 布 の の 最 大 値 : B.S.max)で 割 り
ます。これで得られた商は、最大確率と比較したときの当該確率を正規化
し た 大 き さ を 示 す の で 、「 ふ つ う に 起 こ り う る 確 率 」(0.00 ~ 1.00)を 示 し ま
す 。 こ こ で は 逆 に 「 ふ つ う に は 起 こ り え な い 逸 脱 し た 確 率 」 (0.00 ~ 1.00)
を求めたいので、1 からこの数値を引いた数値にします。さらに、実測値
が期待値より小さいときは、それをマイナス値にして、評価しやすい形に
し ま す (sgn = -1)。
B.D.S. = sgn * [1- B.S. / B.S. (max)]
二 項 分 布 逸 脱 得 点 ( 行 ) B.D.S.r.
二項分布得点:横軸
w1
w2
w3
w4
L1
.08
.15
.01
.12
L2
.04
.24
.17
.06
L3
.04
.31
.06
.12
L4
.00
.16
.00
.04
L5
.30
.11
.04
.09
.29
.32
.19
.13
L5
.30
.37
.21
.14
[B46]=BINOMDIST(B38,$G38,B$42/$G$42,0)
同最大値
w1
w2
w3
w4
L1
.29
.32
.19
.13
L2
.24
.30
.16
.12
L3
.25
.31
.17
.12
L4
[I46]=BINOMDIST($G38*B$42/$G$42,$G38,B$42/$G$42,0)
50
逸脱得点:横軸
w1
w2
w3
w4
L1
-.72
-.52
.96
-.08
L2
-.85
-.21
-.04
.52
L3
-.83
.00
.65
.00
L4
1.00
.50
-.99
-.66
L5
.00
.70
-.79
.39
[P46]=SIGN(B38-$G38*B$42/$G$42)*(1-B46/I46)
次 は D.P.S.を 行 で 求 め た 場 合 (D.P.S.c.)で す 。 考 え 方 は 同 じ で す 。
二項分布得点:縦軸
w1
w2
w3
w4
L1
.09
.17
.01
.13
L2
.05
.25
.17
.05
L3
.05
.28
.06
.15
L4
.00
.15
.00
.02
L5
.30
.11
.04
.09
.28
.32
.20
.17
L5
.30
.36
.22
.19
[B53]=BINOMDIST(B38,B$42,$G38/$G$42,0)
同最大値
w1
w2
w3
w4
L1
.28
.32
.20
.17
L2
.24
.28
.16
.14
L3
.25
.28
.17
.15
L4
[I53]=BINOMDIST($G38*B$42/$G$42,B$42,$G38/$G$42,0)
逸脱確率得点:縦軸
w1
w2
w3
w4
L1
-.67
-.46
.97
-.19
L2
-.80
-.12
-.05
.68
L3
-.79
.00
.66
.00
L4
1.00
.52
-.99
-.86
L5
.00
.69
-.83
.51
[P56]=SIGN(B38-$G38*B$42/$G$42)*(1-B53/I53)
B.D.S.を 両 軸 で 求 め る と き は 、 B.D.S.R.と B.D.S.C.の 分 数 平 均 と し ま す 。
逸脱確率得点:両軸
w1
w2
w3
w4
L1
-.69
-.49
.96
-.15
L2
-.83
-.17
-.05
.61
L3
-.81
.00
.65
.00
L4
1.00
.51
-.99
-.77
L5
.00
.70
-.81
.46
[P67]=SIGN(B38-$G38*B$42/$G$42)*(1-(B46+B53)/(I46+I53)) D.P.S. を 全 体
で 求 め る と き は 、分 子 の B.S.は 全 体 で 求 め 、分 母 B.S.(max)は 完 全 に 平 均 化
した分布でもとめます。
51
二項分布得点:全体
w1
w2
w3
w4
L1
.00
.00
.01
.03
L2
.00
.02
.13
.00
L3
.00
.06
.03
.00
L4
.01
.11
.00
.13
L5
.02
.11
.02
.01
L3
.17
.17
.17
.17
L4
.17
.17
.17
.17
L5
.17
.17
.17
.17
.92
.39
-.98
-.25
L5
-.89
.39
-.89
.96
[B60]=BINOMDIST(B38,$G$42,1/20,0)
L1
.17
.17
.17
.17
同最大値
w1
w2
w3
w4
L2
.17
.17
.17
.17
[I60]=BINOMDIST($G$42/20,$G$42,1/20,0)
逸脱確率得点:全体
w1
w2
w3
w4
L1
-.98
-.98
.92
-.83
L2
-.98
-.89
.25
1.00
L3
-.98
-.68
.83
-.99
L4
[P60]=SIGN(B38-$G38*B$42/$G$42)*(1-B60/I60)
◇9 順位得点
[1] 正 順 位 得 点
「正順位得点」によって横、縦、全体の範囲で降順の順位をつけます。◆
Excel 関 数 の RANK(c,R)を 使 い ま す 。c は 対 象 の セ ル を 示 し 、R は そ の 範 囲
を示します。
実測値
w1
w2
w3
w4
L1
0
0
11
10
L2
0
1
7
19
L3
L4
11
3
0
7
0
2
10
14
=RANK(B4,$B4:$F4)
52
L5
1
3
1
12
正順位得点:横軸
w1
w2
w3
w4
L1
正順位得点:縦軸
w1
w2
w3
w4
L1
L2
3
5
1
4
L3
3
4
3
1
L2
3
3
1
2
L4
3
3
2
2
1
1
5
5
L3
4
3
2
1
L5
L4
4
3
2
1
2
1
4
3
L5
1
3
4
2
3
2
3
1
両軸の順位得点は横軸の順位得点と縦軸の順位得点の単純な平均(算術平
均)とします。
正順位得点:両軸
w1
w2
w3
w4
L1
3.0
4.0
1.0
3.0
L2
3.5
3.5
2.5
1.0
L3
3.5
3.0
2.0
1.5
L4
1.0
2.0
4.5
3.5
L5
2.5
1.5
3.5
2.0
正順位得点:全体
w1
w2
w3
w4
L1
16
16
4
6
L2
16
13
8
1
L3
16
12
6
2
L4
L5
13
10
13
3
4
10
16
8
[2] 逆 順 位 得 点
逆 順 位 得 点 は 最 小 値 を 1 と し た 昇 順 の 順 位 を 示 し ま す 。 ◆ Excel 関 数 の
RANK(c,R, 1)を 使 い ま す 。c は 対 象 の セ ル を 示 し 、R は そ の 範 囲 を 示 し ま す 。
3 番目の引数として 1 を使います。
逆順位得点:横軸
w1
w2
w3
w4
L1
L2
1
1
5
2
L3
1
2
3
5
L4
1
3
4
4
L5
5
4
1
1
53
4
4
2
3
逆順位得点:縦軸
w1
w2
w3
w4
L1
L2
L3
L4
L5
1
1
4
3
1
2
3
4
1
2
3
4
4
2
1
3
1
3
1
4
逆順位得点:両軸
w1
w2
w3
w4
L1
1.0
1.0
4.5
2.5
L2
1.0
2.0
3.0
4.5
L3
1.0
2.5
3.5
4.0
L4
4.5
3.0
1.0
2.0
L5
2.5
3.5
1.5
3.5
逆順位得点:全体
w1
w2
w3
w4
L1
L2
L3
L4
16
10
1
12
L5
1
1
16
14
1
6
12
20
1
9
14
19
6
10
6
18
データの抽象化
言 語 デ ー タ は 言 語 の 現 実 そ の も の で は な く 、分 析 者 が 一 定 の 目 的 を 持 っ て
複 雑 な 言 語 の 1 側 面 を 取 り 出 し た も の で す 。し た が っ て 、言 語 デ ー タ が そ の
ま ま 言 語 の 現 実 で あ る 、と い う よ う な 過 剰 な 一 般 化 は で き ま せ ん 。言 語 デ ー
タ が 示 す 範 囲 の 中 で 一 定 の こ と が わ か っ た 、と い う こ と が で き る ぐ ら い で し
ょう。
デ ー タ に は 多 く の 数 字 や 記 号 が 並 ん で い ま す 。観 察 に よ っ て 得 ら れ た 実 測
値 の ま ま で は そ の 評 価 が で き な い と き 、平 均 と 標 準 偏 差 と い う 統 計 量 を 使 っ
て 標 準 得 点 を 求 め ま し た 。こ こ で 注 意 し た い の は 、変 換 さ れ た デ ー タ は 実 測
値 そ の も の で は な い 、と い う こ と で す 。そ し て 、実 測 値 か ら は 標 準 得 点 な ど
を 求 め る こ と が で き ま す が 、逆 に 、変 換 さ れ た デ ー タ か ら 実 測 値 を 求 め る こ
とができません。実測値を保存しておかなければ元に戻れないのです。
実 測 値 で あ れ 、変 換 さ れ た デ ー タ で あ れ 、そ の デ ー タ の 傾 向 が よ く わ か ら
な い と き 、私 た ち は 集 計 表 を 作 成 し ま す 。し か し 、確 か に 集 計 表 は 傾 向 を 見
る の に は 便 利 な の で す が 、こ れ は 具 体 的 な デ ー タ そ の も の で は な く 1 つ の 抽
象 化 が 施 さ れ て い る 、と い う こ と で す 。デ ー タ か ら 集 計 表 を 作 る こ と は で き
ますが、逆に集計表からデータの実態に戻ることはできません。
集 計 表 を 見 て い て も 傾 向 が よ く わ か ら な い と き 、私 た ち は グ ラ フ を 作 成 し
ま す 。こ れ も 同 じ こ と で す が 、グ ラ フ か ら 逆 に 集 計 表 や デ ー タ を 作 成 す る こ
54
と は で き ま せ ん 。グ ラ フ は 視 覚 的 な の で 具 体 化 さ れ た よ う に 見 え ま す が 、デ
ータの現実から見ると実は1つの抽象化をしていることになります。
そ し て 、私 た ち は 数 学 的 な 手 続 き を 経 て 各 種 の 係 数 を 扱 い ま す 。縦 の 列 と
横の行にデータのいろいろな数値が展開されていても係数は 1 つだけの値
を 返 し て き ま す 。こ れ は 非 常 に 抽 象 的 で す 。も ち ろ ん 係 数 か ら デ ー タ の 現 実
は 復 元 で き ま せ ん 。と て も 個 性 が あ り 、輝 い て い る よ う な 1 つ の デ ー タ が あ
っても、それは抽象化された係数の中に埋没しています。
そ れ ぞ れ の 手 法 の 特 徴 を よ く 理 解 し て 、可 能 な 限 り 適 切 な 方 法 を 選 択 す る
方 法 を 学 び ま し ょ う 。そ し て 、方 法 を 限 定 せ ず 、さ ま ざ ま な 方 法 を 組 み 合 わ
せ て 、多 角 的 な 見 方 を す る こ と も 必 要 で す 。柔 軟 な 考 え 方 を 身 に 着 け た い と
思います。
55
6 データの相関
【 目 標 】相 関 係 数 や Phi 係 数 な ど の 概 念 を 理 解 し 、 2 つ の デ ー タ 間 の 関 係 を
数値的に示すことができるようにする。また、カイ二乗検定を使ってクロ
ス集計表の独立性の検定ができるようにする。
前章までの内容は、1 つのデータを代表する値や個々のデータを置き換え
る数値を扱いました。本章では 2 つの種類のデータを扱い、それらの関係
性について統計的に扱います。2 つのデータが関わってきますので、数字
の裏にある数式はすこし複雑になりますが、一度理解してしまえば、数値
の本質がわかり、その使い方や応用の方法がわかるようになります。はじ
めには簡単な例や図を使って、統計的な数値を直感的に納得できるように
します。納得できた後でその数学的な根拠を探ります。数学的な根拠がわ
かったら、自分で手を動かしてそれを実験して確かめましょう。ここまで
すれば確実にその統計手法が身につきます。
数値の意味がわかったならば、それをたくさん使ってみましょう。そう
すれば感覚がだんだんと養われていき、理論的な知識が経験的なスキルに
よ っ て 裏 づ け ら れ る よ う に な り ま す 。知 識 は 使 う こ と で 生 か さ れ て き ま す 。
Excel の よ う な ア プ リ ケ ー シ ョ ン は 、 こ う し た 実 験 を す る の に と て も 便 利
です。
6. 1 量的なデータの相関
◇1 データ
まず頻度やアンケートの結果など、数えたりスケールを測ったりできる量
的な数値について扱います。次のデータを見てください。これは西語(ス
ペ イ ン 語 ) の 文 1 (Madrid)と 文 2(Sevilla)に 関 し て 主 要 な 前 置 詞 の 頻 度 を 集
計したものです。
鍵語
1 Madrid
2 Sevilla
151
163
con
38
45
de
202
195
en
105
81
a
56
54
por
45
こ こ に は「 文 1」と「 文 2」と い う 2 つ の デ ー タ が あ り ま す 。こ の 2 つ の 文
は前置詞の観点からみると、どの程度類似しているのでしょうか。本節で
はこのような 2 つのデータの関連の強度を計算する方法を見ていきます。
◇2 データ間の関係
はじめに 2 つのデータの関係性を捉えるために散布図にして視覚化してみ
ま し ょ う 。 ◆ Excel で は 、 英 文 1 英 文 2 の 2 列 を 選 択 し 、 「 挿 入 」 → 「 グ
ラフ」→「散布図」とします。軸ラベルがあるレイアウトに変更し、それ
ぞれ軸ラベルを編集しておきます。
一見したところ、文 1 と文 2 は比例関係があるようです。この事実を確か
めるために横軸の原点(ゼロの位置)を英文 1 の平均までずらし、縦軸の
原点を英文 2 の平均までずらして散布図を描き直してみましょう。そのた
めには、前章で見た標準得点が使われます。これは次のように定義されま
す。
標 準 得 点 (SM) =
x- X の 平 均 値
Xの標準偏差
こ の よ う に 標 準 得 点( SM i )は そ れ ぞ れ 元 の 値( x i )か ら 全 体 の 平 均 値( m )
を 引 い て 、 さ ら に そ の 値 を 全 体 の 標 準 偏 差 ( σ) で 割 っ て 得 ら れ た 数 値 で
す。
次は、このデータを標準得点に置き換えた結果です。つまり全体の平均が
57
0、 標 準 偏 差 が 1 に な る よ う に し た も の で す 。
v-1(sm)
v-2(sm)
v-1(sm)
0.674
0.922
0.674
-1.184
-0.980
-1.184
1.513
1.438
1.513
-0.082
-0.400
-0.082
-0.921
-0.980
-0.921
この標準得点に変換したデータで、もう一度散布図を作成すると次のよう
になります。
こ の 図 を 見 れ ば 、文 1 と 文 2 の デ ー タ が す べ て A と C の 領 域 に 入 っ て い る
ことがはっきりと分かります。A と C の領域は、x 軸の値と y 軸の値の標
準 得 点 を 掛 け 合 わ せ る と 、そ の 2 つ と も 正( + )、ま た は 2 つ と も 負( - )
で あ る の で 、その積 は 正になります。一 方、B と D の領域 は 2 つ の 正 負 が
異なるため積は負となることがわかります。
◇3 相関係数
Xの標準得点とYの標準得点を掛けた値の総和を求めればXとYの関連
する度合いが数値化できます。共に正(+)、または共に負(-)であれ
ば、それらの積は正になりますから、この積の数が多ければ多いほど相関
が強くなります。そしてすべてのデータが図の斜めの線に近づけば相関の
程度はますます高くなり、全部が斜めの線に完全に一致すれば相関は最大
58
になります。
逆 に 、B と D の 領 域 に あ る デ ー タ は 正 の 相 関 を 減 少 さ せ ま す 。そ れ が 多
く な れ ば な る ほ ど 相 関 の 程 度 は 弱 ま り ま す 。そ れ ら の デ ー タ は X と Y の 値
の積が負になるからです。もし、負ばかりのデータであれば、逆の相関が
強 く な り ま す 16 。 ま た 、 A, B, C, D に 平 均 し て 分 布 し て い る と X と Y の 間
には相関関係がない、と考えられるでしょう。
このような積の合計(積和)はデータの量に左右されます。つまり、デ
ータ量が多くなればなるほど値はどんどん大きくなり、スケールが一定に
なりません。そこで、積和を全体の個数で割って積和の平均を出したもの
が 「 相 関 係 数 」 (coefficient of correlation) で す 。 相 関 係 数 の 求 め 方 を 一 般 化
した公式に変えましょう。
X と Y の 相 関 係 数 ( r)
= { [(x 1 - m x ) / σ x ] [(y 1 - m y ) / σ y ]
+ [(x 2 - m x ) / σ x ] [(y 2 - m y ) / σ y ]
(...)
+ [(x n - m x ) / σ x ] [(y n - m y ) / σ y ] } / n
と い う 計 算 を し ま す 。 σx と σy を 分 母 に 移 す と 、
r = [ (x 1 - m x )(y 1 - m y )
+ (x 2 - m x ) (y 2 - m y )
+ (...)
+ (x n - m x ) (y n - m y ) ] / (nσ x σ y )
ここで、
[ (x 1 - m x )(y 1 - m y )
+ (x 2 - m x ) (y 2 - m y )
+ (...)
+ (x n - m x ) (y n - m y ) ] / n
を 「 共 分 散 」 (covariance)と 呼 び 、 S x y と 書 き ま す 。 す る と 先 の 式 は 、
X と Y の 相 関 係 数 ( r) =
16
Sxy
σ x *σ y
中 心 の 点 (0, 0)に 近 い 位 置 の デ ー タ は 、相 関 に あ ま り 影 響 し ま せ ん 。逆 に
中心から離れた位置のデータは相関に強く影響します。
59
と な り ま す 。 X と Y の 相 関 係 数 (r) は 最 終 的 に
相 関 係 数 (r) =
Xと Yの 共 分 散
Xの 標 準 偏 差 * Yの 標 準 偏 差
となります。
相 関 係 数 ( r )が -1 ≦ r ≦ 1 に な る 理 由
相 関 係 数 は -1 ≦ r ≦ 1 と い う 範 囲 に 入 る 標 準 的 な 値 で す 。こ の こ と を 高
校数学までに習った判別式を使って確かめてみましょう。
原理的に、相関係数はすべてのデータが一直線に並ぶときに最大になり
ますから、そのような直線の式を
(y - m y ) = a (x - m x )
で 表 し ま す 。 こ こ で 、 mx と my は そ れ ぞ れ x と y の 平 均 値 を 示 し ま す 。 こ
の 直 線 は X と Y の 平 均 値 の 座 標 (m x , m y )を 通 り 、 傾 き は a と な り ま す 。 直
線ならば、上の式から、
a (x - m x ) - (y - m y ) = 0
と な り ま す が 、実 際 の デ ー タ で は 、(x, y)の そ れ ぞ れ の 値 、つ ま り 、(x 1 , y 1 ),
(x 2 , y 2 ), ... (x n , y n )が 直 線 上 に 並 ぶ こ と は ふ つ う あ り ま せ ん 。そ の 値 を (x i , y i )
と し て 、上 の 式 に 当 て は め る と 、a (x i - m x ) - (y i - m y ) は ゼ ロ (0)で は な く て 、
プラスになったり、マイナスになったり、さまざまな値をとります。その
全体の変動を見るために、その自乗和を計算しましょう。
f(a) = Σ [a (x i - m x ) - (y i - m y )] 2
これは平方和なので負(マイナス)になることはありません。つまり、
f(a) ≧ 0 で す 。 f(a)を 展 開 し ま し ょ う 。
f(a) = Σ [a 2 (x i - m x ) 2 - 2a(x i - m x )(y i - m y ) + (y i - m y ) 2 ]
= Σ a 2 (x i - m x ) 2 - Σ 2a(x i - m x )(y i - m y ) + Σ (y i - m y ) 2
= a 2 Σ (x i - m x ) 2 - 2aΣ (x i - m x )(y i - m y ) + Σ (y i - m y ) 2
こ の よ う に f(a)は a の 2 次 式 に な り ま す が 、先 に 見 た よ う に f(a)≧ 0 な の
で、2 次式の放物線の頂点が横軸に接するか、またはその上方にあること
60
に な り ま す 17 。 a を 横 軸 に 、 f(a)を 縦 軸 に し た グ ラ フ を 描 い て み ま し ょ う 。
【 図 6.1e】
【 図 6.1f】
f(a)の 放 物 線 の 頂 点 が ち ょ う ど を 横 軸 上 に あ る と き は ( 【 図 6.1e】 ) 、
次の判別式がゼロとなって、解が 1 つになります。放物線の頂点が横軸よ
り も 上 に あ る と き は ( 【 図 6.1f】 ) 解 が な い の で ( 横 軸 と ぶ つ か ら な い の
で ) 判 別 式 は マ イ ナ ス に な り ま す 18 。
判 別 式 (D) ≦ 0
こ れ を f(a)の 式 に 当 て は め ま す 。
[2Σ (x i - m x )(y i - m y )] 2
[Σ (x i - m x )(y i - m y )] 2
- 4Σ (x i - m x ) 2 Σ (y i - m y ) 2 ≦ 0
- Σ (x i - m x ) 2 Σ (y i - m y ) 2 ≦ 0
上の式のそれぞれの要素は、相関係数で使われた要素と同じであること
に気づきます。そこで第 2 項を右辺に移動します。
[Σ (x i - m x )(y i - m y )] 2 ≦ Σ (x i - m x ) 2 Σ (y i - m y ) 2
さらに両辺を右辺で割ります。
[Σ (x i - m x )(y i - m y )] 2
Σ (x i - m x ) 2 Σ (y i - m y ) 2
≦ 1
こ の 左 辺 は 、相 関 係 数 (r)を 自 乗 し た も の で す か ら 、 r 2 ≦ 1 と な り 、よ っ
17
こ こ で「 横 軸 」と 言 い x 軸 と 言 わ な い の は 、上 の 2 次 式 は x に つ い て の
2 次 式 と い う よ り も 、a に つ い て の 2 次 式 を 考 え て い る か ら で す 。よ っ て「 横
軸」は「a 軸」のことです。
18
2 次 方 程 式 ax 2 + bx + c = 0 の 判 別 式 (D)は b 2 – 4ac で す 。
61
て
-1 ≦ r ≦ 1
となります。
◇4 相関係数の意味
出 力 さ れ た 数 値 に つ い て 経 験 的 に 次 の よ う な 解 釈 で き ま す 19 。
| r | = 0.0
XとYの間に相関がない
0.0 < | r | ≦ 0.2
XとYの間にほとんど相関がない
0.2 < | r | ≦ 0.4
XとYの間に弱い相関がある
0.4 < | r | ≦ 0.7
XとYの間にやや強い相関がある
0.7 < | r | ≦ 1.0
XとYの間に強い相関がある
◇5 相関係数についての注意
相関係数を計算することによってあらゆる数値データの間の相関関係が
一応わかります。しかし、これはデータの本質については何も知らないコ
ンピュータが、入力された数値だけをもとに出した結果にすぎないので注
意が必要です。いろいろなケースが考えられますが、たとえば次のような
場合に単に相関係数だけを求めて、それを現象の解釈の結論にしてしまう
のは危険です。
(0) そ も そ も 2 つ が 同 じ デ ー タ の 場 合 。 た と え ば 、 値 と そ の 百 分 率 ( %)
は
まったく同じデータです。
(1) デ ー タ の 数 が 極 端 に 少 な い 場 合 。 た と え ば 次 の よ う に 5 つ の デ ー タ だ
けで相関係数を出してもあまり意味はないでしょう。このような分布は偶
然に生まれたのかも知れません。
19
相 関 係 数 の 範 囲 は -1≦ r≦ 1 に な る の で 、こ こ で は マ イ ナ ス と な る 逆 相 関
も 含 め て 絶 対 値 |r|で 示 し ま す 。
62
(2) 異 質 な デ ー タ が 混 在 し て い る 場 合 。 全 く 異 な る デ ー タ を 寄 せ 集 め て 相
関係数を求めると、現象の正しい解釈ができないことがあります。
上左図は異質のグループを総合して判断したために、個々のグループの中
で は 強 い 相 関 が あ り な が ら 、 全 体 と し て は そ れ が 弱 く な る ケ ー ス で す 20 。
上右図は異質のグループの間には相関がないのに総合させると、相関らし
きものが見えてしまうケースです。
(3) 大 き な 偏 り を 持 つ デ ー タ の 場 合 。 デ ー タ の 分 布 に 大 き な 偏 り が あ る と
きは注意が必要です。一般に下左図のように平均のそばに多く分布してい
て、周辺に少なくなるタイプのデータが適しています。
ところが、たとえば大量のテキスト内の語彙の分布は上右図のようになる
ので一般に高い相関係数を示します。
このようなさまざまなケースについて正しく分析するするためには散布
20
先のスペイン語教材のアンケート調査結果がこれと似ています。
63
図をしっかり観察することが大切です。また、相関関係が必ずしも因果関
係を示しているわけではないことに注意しましょう。たとえば勉強時間と
試験の成績の間に相関関係があったとても、それが必ずしも、勉強時間を
増やせば試験の成績向上につながる、という「原因→結果」の関係を示し
ていることにはならないでしょう。そこには、たとえば「教科への関心・
興味」のような隠れた要素があって、それが勉強時間と試験成績のどちら
に も 影 響 し て い る こ と が 考 え ら れ ま す 21 。
相関係数の算出はあくまでも数学的な操作に過ぎません。資料の本質を
知らずに計算すると意味のない分析結果を示すことにもなりかねないので
す。分析者が散布図を提示せず結果だけを示すときはとくに注意すべきで
す。私たちは言語データを扱うとき、ただやみくもにデータを分析するの
ではなく、そのデータをしっかりと見つめること、できれば全部読むこと
が必要です。そうすれば、自然とデータについての理解が深まるので、変
な分析結果が出てきたときには直感で気がつくはずです。しっかりとデー
タを読みこんでおくと、そのデータについて自分がよくわかっている、と
いう自信につながります。自分の経験に基づいた直感と、数学的に得られ
たデータ分析の結果を比較しながら、一致しているかどうか、一致してい
ないときは何の要因がありうるか考えてみる必要があるでしょう。
◇ 6 Excelで 相 関 係 数 を 求 め る
(1) 次 の デ ー タ を 使 用 し ま す ( 前 節 と 同 じ も の で す ) 。
鍵語
1 Madrid
2 Sevilla
151
163
con
38
45
de
202
195
en
105
81
por
54
45
a
(2) 次 の 計 算 を し ま す 。
21
勉 強 時 間 と 試 験 成 績 と い う よ う に 、単 位 が 異 な っ て い て も 、ま た 、実 技
テストと筆記試験のように規模(満点)が異なっていても、どちらも、標
準化された値(標準得点)を比べるので、そのまま相関係数を計算するこ
とができます。
64

B7 =SUM(B2:B6)

B8 =AVERAGE(B2:B6)

B9 =STDEVP(B2:B6)
(3) B7:B9 を コ ピ ー し 、 C7 に 貼 付 け ま す 。
(4) D2 に 標 準 得 点 の 式 を 入 れ ま す 。
D2 =(B2-B$8)/B$9
(5) D2 を D2:E6 に コ ピ ー 。桁 数 が 不 統 一 だ と 比 較 し に く い の で D, E 列 の 書
式を小数点以下 3 とします。
(6) B7:C9 を コ ピ ー し て D7 に 貼 付 け ま す 。
65
これで正しく標準化されたことがわかります。次に、これらの数値をもと
に相関係数を求めてみましょう。まず、それぞれの項目の標準得点の積と
全体の積平均を求めます。
F2 = D2*E2
F2 を (F3:F6)に コ ピ ー
(B7:B8)を (F7:F8)に コ ピ ー
これで標準得点をもとに相関係数を求めることができました。
結 果 を 確 認 す る た め に 、 Excel 関 数 を 使 っ て 相 関 係 数 を 算 出 し 比 較 し て み
ま し ょ う 。 Excel に は COREEL と い う 関 数 が 用 意 さ れ て お り 、 対 象 と な る
2 つのデータをコンマ区切りで選択します。
B10 =CORREL(B2:B6,C2:C6)
F8 と B10 の 値 が 同 じ に な る こ と を 確 認 し ま し ょ う 。
66
<Tips> そ れ ぞ れ の 特 徴 を 見 る た め に 値 を 操 作 す る の に「 ス ピ ン ボ タ ン 」を
使うと便利です。
(1) は じ め に リ ボ ン に 「 開 発 」 タ ブ を 設 定 し ま す 。 ◆ 「 フ ァ イ ル 」 → 「 オ
プ シ ョ ン 」→「 リ ボ ン の ユ ー ザ ー 設 定 」→ ]を 選 択 し 、「 リ ボ ン の ユ ー ザ ー
設定」で「メインタブ」の「開発」のチェックボックスをオンにします。
Excel 2007: 「 Office ボ タ ン 」 → 「 Excel の オ プ シ ョ ン 」 → 「 基 本 設 定 」 →
「 [開 発 ]タ ブ を リ ボ ン に 表 示 す る 」 を チ ェ ッ ク
(2)「 開 発 」 → 「 コ ン ト ロ ー ル 」 → 「 挿 入 」 → 「 フ ォ ー ム コ ン ト ロ ー ル 」 の
中のスピンボタンをクリック→シート内の適当な位置にドラッグして配置
します。
(3) シ ー ト に 配 置 し た ス ピ ボ タ ン を 右 ク リ ッ ク → 「 コ ン ト ロ ー ル の 書 式 設
定」
67
(4) 「 コ ン ト ロ ー ル 」 タ ブ → 「 最 小 値 」 「 最 大 値 」 「 変 化 の 増 分 」 「 リ ン
クするセル」を設定します。「リンクするセル」にスピンボタンによる入
力の結果が表示されます。
(5) ス ピ ン ボ タ ン な ど の コ ン ト ロ ー ル は 右 ク リ ッ ク す る こ と に よ り 、 大 き
さの変更、ドラッグ、コピー、などが可能になります。
ス ピ ン ボ タ ン は 便 利 な の で す が 、 た と え ば 1 か ら 100 ま で 移 動 す る と き は
大変です。スピンボタンをつけたらそれでしか値が操作できなくなるとい
う わ け で は な く 、 直 接 セ ル に 100 と 記 入 す る こ と も で き ま す 。
一人称的な研究
私 た ち は 、言 語 を 単 な る 言 語 分 析 用 の デ ー タ と 見 て い る の で は な く 、言 語
作 品 を 鑑 賞 し た り 、こ と ば の 伝 え 合 い や 共 有 を 経 験 し た り 、未 知 の 外 国 語 を
学 ん だ り し て 、言 語 を 生 活 の 中 で 経 験 し て い ま す 。そ の と き 、感 じ た り 気 づ
い た り す る こ と が あ る は ず で す 。言 語 の 現 実 に 触 れ た と き に 私 た ち の 内 面 に
68
生じる直感や気づきがとても大切です。
言 語 デ ー タ 分 析 は 、そ の よ う な 直 感 や 気 づ き の「 理 由 」や「 姿 」を 具 体 的
な デ ー タ で 調 べ て み る と き に 役 立 ち ま す 。こ の と き 言 語 の 経 験 が 最 初 で 、分
析 は そ の 後 に な り ま す 。自 分 が 経 験 し て い る こ と を 対 象 に し て 分 析 す る と き
は 、何 か 直 感 的 に ぴ ん と 来 る こ と が 多 い と 思 い ま す 。そ こ で 、な る べ く 自 分
で 経 験 し た( 読 ん だ 、集 め た 、調 べ た 、実 験 し た 、使 っ た 、感 動 し た 、興 味
を 持 っ た … )言 語 デ ー タ か ら 出 発 し て 、自 分 が 理 解 し 納 得 で き た 方 法 を 適 用
して、自分の個人的な直感を検証してみることを勧めます。
実 際 に 自 分 の 研 究 を 自 分 で 計 画 し 、試 行 錯 誤 を し な が ら 自 分 の 道 具 を 開 発
し 、自 分 で 納 得 し 、自 分 が 個 人 的 に 感 じ た こ と の 理 由 に 接 近 で き れ ば 発 展 性
が あ る し 、何 よ り も や り が い が あ っ て 楽 し い こ と だ と 思 い ま す 。こ の よ う ば
研 究 は「 一 人 称 的 」で あ る と い え る で し ょ う 。私 た ち は 他 者 の( 本 当 の )一
人 称 的 世 界 に 関 心 が あ り ま す か ら 、そ の よ う な 他 者 の 関 心 と 研 究 に も 共 感 し
ます。
6. 2 質的なデータの相関
言語資料を分析するとき頻度などの連続的な数量を扱うこともあります
が 、プ ラ ス・マ イ ナ ス( + /- )で 示 さ れ る よ う な 特 定 の 特 徴 の 有 無 だ け を
問題にすることもあります。たとえば、「ぬくい」(温かい)、「おとろ
しい」(面倒くさい)という言葉がある地域で使われるかどうかといった
ことを扱う場合は、「使う」「使わない」の 2 値のデータになります。こ
れらの語彙リストを作り、使用の有無から地域の関連性を求めるという研
究はよく見られます。このような種類のデータ分析には相関係数ではなく
今 回 扱 う 各 種 の 「 類 似 係 数 」 が 適 し て い ま す 22 。
22
*参考:
Ellegard, Alvar. 1959. "Statistical measurement of linguistic relationship."
Language, 35, p. 131-156.
Kroeber, Alfred L. 1960. "Three quantitative classifications of Romance",
Romance Philology, 14, pp.189-195.
Kroeber, Alfred L. and Chretien, C. D. 1937. "Quantitative classification of
Indo-european languages", Language, 13, p.83.
Kroeber, Alfred L. and Chretien, C. D. 1960. "Statistics, Indo -European and
taxonomy." Language, 36, p. 1-21.
安 本 美 典 . 1995. 『 言 語 の 科 学 ― 日 本 語 の 起 源 を た ず ね る 』 朝 倉 書 店 .
69
特徴があることだけでなく、それがないことも考慮に入れなければなら
ない場合もあります(つまり、「使われない」ということもその地域を表
すデータとなります)。言語の現象に限らず、私たちの日常生活では特徴
がある事象(祝祭、病気、事故、降雨など)に注目することが多いのです
が、その特徴がないときのことも考えないと、その特徴の本質がわからな
くなる場合があります。
◇1 量的データと質的データ
先に見たように、単語の頻得点は非常に偏った分布を示すので相関係数に
よる分析には適しません。次の散布図には一応「線形近似曲線」が描かれ
ていますが、データは左下に固まっていて、右上になるとほとんどデータ
がありません。頻度の高い単語の数は少なく、一方あまり使われない単語
の数は非常に多いのです。
ここではすべてを単語使用の「有無」に変えて分析する方法を採ります。
そうすれば、すべてのデータの分布は「有」と「無」の 2 種類の値になり
ます。次の図の「語」の列に続く 2 列が頻度を示しますが、その後の 2 列
では 1 が「有」を示し、0 が「無」を示します。頻得点などのような連続
的なデータを「量的なデータ」と呼び、このように単に有・無を示すよう
なデータを「質的なデータ」と呼びます。
( pp.67-85)
70
言語研究では、たった一度だけ出現するデータを特別に扱うことが一般的
です。偶然に現れたケースかもしれないからです。2 度の偶然は、ほとん
ど あ り 得 な い の で 、 2 以 上 を 「 有 」 (1)の デ ー タ と し て 基 準 化 す る 場 合 が 多
いです。データが巨大になったときは、さらにこの基準を上げることがあ
ります。いずれにしても、結果はこの基準値に左右されますから、それを
しっかりと認識しておくことが必要です。
◇2 尺度水準
これまでの説明で、質的データ、量的データという2つのタイプに大別し
ました。2つのデータの大きな特徴は、量的データは質的データに変換可
能であるのに対し、質的データは量的データに戻すことは出来ないという
点 で す 。 こ う し た 質 的 デ ー タ と 量 的 デ ー タ の 特 徴 は 、 ス タ ン レ ー 23 に よ っ
て 考 案 さ れ た 、「 尺 度 水 準 」 24 と い う 考 え 方 に お お よ そ 準 拠 し た も の で す 。
尺度水準という考え方に基づけば、すべての数量データは「名義尺度」
「 順 序 尺 度 」「 間 隔 尺 度 」「 比 率 尺 度 」と い う 4 つ の タ イ プ の い ず れ か に 分
類できます。名義尺度に使用される値は、名前をそのまま数字に置き換え
23
Stevens, S. S. 1946. “On the Theory of Scales of Measurement” . Science.
Vol. 103, No. 2684, pp. 677–680.
24
尺 度 水 準 と い う 考 え 方 は 、言 語 分 析 に 限 ら ず 、そ の 他 の 分 野 で も 広 く 使
われる考え方です。
71
たものであり、そのデータが、別のデータと同じか、違うかを区別するた
めに割り当てられた数値です。例えば、電話番号は名義尺度であるため、
ある番号が、他の番号と同じ番号か、違う番号かを区別するために使用し
ます。
順序尺度の値は、データが大きいか、小さいかを区別するための数値で
す。例えば、アンケート調査の「好き」「まあまあ好き」「どちらとも言
え な い 」「 あ ま り 好 き で は な い 」「 好 き で は な い 」と い う 項 目 に 対 し 、5, 4,
3, 2, 1 と い う 数 値 を 割 り 振 る 場 合 が 順 序 尺 度 で す 。 つ ま り 、 こ の と き 、 数
値の中で、4の方が1よりも好きの度合いが優位だとわかります。
間隔尺度の値は、比較できる数値で、一般的には単位を持った値です。
例 え ば 、摂 氏 の 温 度 に お い て 、20℃ と 18℃ を 比 較 し た と き 、2℃ 高 か っ た 、
2℃低かったという間隔を持った値であるため、間隔尺度です。間隔尺度
の特徴としては、ゼロという値が本来的な全く存在しないものという意味
で は な い と い う 点 で す 。た と え ば 、0℃ と い う 値 で も 、摂 氏 と い う 温 度 自 体
が 消 え て な く な る わ け で は な く 、 0℃ が 5℃ よ り も 5℃ 低 い と い う 便 宜 上 の
値です。
比率尺度の値は、比較可能な数値であり、単位を持つという点は間隔尺
度の値と同じですが、ゼロになってしまうとそのデータ自体が全く意味を
持たなくなるものです。例えば、質量は何グラム増えた、減ったというこ
とを判断できますが、これが、0 グラムになると質量というもの自体がな
くなります。
このような 4 つの尺度に分けるメリットのひとつは、数値分析できる幅
がそれぞれ異なるという点です。名義尺度、順序尺度、間隔尺度、比率尺
度の順に、データとして求められた値の数値分析可能な幅が広がっていき
ます。数値分析が限られたものにしか適応出来ないものを「低水準」、幅
広く適応できるものを「高水準」と呼ぶこともあります。そうすると名義
尺度は低水準なのに対して、比率尺度は高水準であるということになりま
す。例えば、得点(頻度)は非常に幅広い尺度に適応でき、名義尺度、順
序 尺 度 、間 隔 尺 度 、比 率 尺 度 の い ず れ に も 適 応 可 能 で す 。中 央 値 、最 大 値 、
最小値は、順序尺度、間隔尺度、比率尺度に適応できます。和、平均、標
準偏差、相関係数は、間隔尺度、比率尺度に対して適応されます。それ以
外の複雑な数値分析であっても、比率尺度であれば適応可能である、とい
うことになります。
また、このような尺度を設けるメリットとしては、それぞれの変換可能
な方向性があるということです。つまり、高水準なものは低水準なものと
72
して扱うことができますが、低水準なものは高水準なものとして扱うこと
はできません。
ここで、4つの尺度と、言語分析における質的・量的データの関係 性を
整理しておきましょう。一般には、名義尺度と順序尺度は「質的データ」
で あ り 、間 隔 尺 度 と 比 率 尺 度 は「 量 的 デ ー タ 」で あ る と さ れ ま す 。そ れ は 、
質的データと量的データの変換方向性によるものからも明らかです。ただ
し、数値分析可能な範囲が、質的データと量的データのどこまでできるか
については、きれいに対応関係は成立していない場合もあるので注意が必
要です。実際に分析するときに、質的データと量的データで数値データを
扱い、その関係性が明らかでないときには、上記の 4 つの尺度水準に立ち
返ることでそれが何の分析まで行っていいかの方針を決めることができる
でしょう。
TIPS 尺 度 水 準 と 代 表 値 の 関 係 を ま と め る と 次 の よ う に な り ま す 。 ×の と
ころは、該当の代表値がその尺度では使えないことを示します。
尺度と代表値
質的データ
量的データ
得点
中央値
平均
標準偏差
名義尺度
○
×
×
×
順序尺度
○
○
×
×
間隔尺度
○
○
○
○
比率尺度
○
○
○
○
◇3 四象限と類似係数
2 つ の デ ー タ の 間 の 関 係 を 見 る と き に 目 安 に な る の が 共 通 し て 「 有 」 (=1)
が起きる回数です。たとえば、先の図では「手紙」と「演劇」で共にプラ
ス に な っ て い る 語 は abajo, abandonar, abeja, abogado の 4 語 で す 。 こ れ を
「 共 起 回 数 」と 呼 び ま す 。共 起 回 数 は デ ー タ の 規 模 に 左 右 さ れ る の で 、こ れ
を標準的な値にするためにいろいろな方法が提案されてきました。ここで
は、2 つのデータ(たとえば、「手紙」と「演劇」) が類似している度合
いを数値化するための 7 つの係数を紹介します。
単 純 に 共 起 回 数 だ け で は 相 対 化 で き な い の で 、次 の よ う な 2 × 2 の 表 を
作 り 、 そ れ ぞ れ a, b, c, d の 4 つ を 考 慮 し ま す 。 a, b, c, d の そ れ ぞ れ は 、 高
校 数 学 ま で に 習 っ た 四 象 限 ( quadrants) で 示 せ ば 、 順 に 第 Ⅰ 象 限 (+/+)、 第
Ⅱ 象 限 (+/-)、第 Ⅲ 象 限 (-/+)、第 Ⅳ 象 限 (-/-)に 相 当 す る 値 で す 。a は x も y も
「 有 」 (=1)の 個 数 で す 。 b は x が 「 有 」 (=1)か つ y が 「 無 」 (=0)の と き 、 c は
x が 「 無 」 (=0)か つ y が 「 有 」 (=1)の と き 、 そ し て d は x も y も 「 無 」 (=0)
73
の 個 数 で す 。 た と え ば 先 の 図 の デ ー タ で は a=4 {abajo, abandonar, abeja,
abogado}, b=3 {abarcar, abastecimiento, abonar}, c=2 {abatir, aborrecer},
d=6 {abandono, abertura, abismo, abnegación, abono, abordar}と な り ま す 。
x / y
y (x)
y (-)
x (+)
a (x+, y+) 4
b (x+, y-) 3
x (-)
c (x-, y+) 2
d (x-, y-) 6
類 似 係 数 は こ れ ら の 数 値 (a, b, c, d)を 利 用 し ま す 。 d を 使 わ な い 係 数 も あ り
ます。類似度係数全体についてほぼ共通していることは、どちらにも共通
す る 肯 定 的 要 素 (a)と 、ど ち ら に も 共 通 し て い る 否 定 的 要 素 (d)の 数 が 多 け れ
ば多いほど、類似係数は大きくなる、ということです。逆に一方だけにあ
る 要 素 の 数 (b, c)が 大 き く な れ ば な る ほ ど 、類 似 係 数 は 小 さ く な り ま す 。以
下の7つは、その類似度を正規化した数値として求めるために考案された
係数です。
(1) は じ め に 単 純 一 致 係 数 (simple matching coefficient) を み ま し ょ う 。
単 純 一 致 係 数 (s.) =
a+ d
a+ b+c+d
0.0 ≦ s. ≦ 1.0
こ れ は 、 対 象 X と 対 象 Y に 共 通 し て 「 +」 が あ る 回 数 (a)と 、 そ れ が 共 に 存
在 し な い 回 数 (d)の 和 を 全 体 の 数 で 割 り ま す 。a = d = 0 の と き 最 小 値 0 に な
り、b = c = 0 のとき最大値 1 になります。
(2) Russel and Rao 係 数 は 分 子 の d を 考 慮 し ま せ ん 25 。 対 象 X, Y で と も に
「 + 」 で あ る 回 数 だ け を カ ウ ン ト し ま す 。 分 母 は (1)と 同 じ で す 。 a = 0 の と
き最小値 0 になり、b = c = d = 0 のとき最大値 1 になります。
Russel and Rao 係 数 (r.r.) =
a
a+b+c+ d
0.0 ≦ r.r. ≦ 1.0
(3) Jaccard 係 数 は 分 子 に も 分 母 に も d を 使 い ま せ ん 。a = 0 の と き 最 小 値 0
に な り 、 b = c = 0 の と き 最 大 値 1.0 に な り ま す 。
Jaccard 係 数 (j.) =
25
a
a+ b+c
0.0 ≦ j. ≦ 1.0
d の数値の扱い方については、この後説明します。
74
(4) Dice 係 数 は Jaccard 係 数 の a を 2 倍 に し た も の で す 。a = 0 の と き 最 小 値
0 に な り 、 b = c = 0 の と き 最 大 値 1.0 に な り ま す 。 (→ 後 述 )
Dice 係 数 (d.) =
2a
2a + b + c
0.0 ≦ j. ≦ 1.0
(5) Yule 係 数 は ad と bc の 差 を 問 題 に し ま す 。 (1)の 単 純 一 致 係 数 で は a と
d を 足 し て い ま す が 、 Yule 係 数 で は 掛 け る こ と に な り ま す 。 そ れ か ら 分 子
は ad と bc の 差 な の で 、 そ れ が マ イ ナ ス に な る こ と も あ り ま す 。 ad = 0 の
と き 最 小 値 -1 に な り 、 bc = 0 の と き 最 大 値 1 に な り ま す 。 ad = bc の と き
は 最 小 値 と 最 大 値 の 中 間 0 に な り ま す 。 a, b, c, d の い ず れ か が 0 の と き 、
結果に大きく影響します。
Yule 係 数 (y.) =
ad - bc
ad + bc
-1.0 ≦ y. ≦ 1.0
(6) Hamann 係 数 は a + d と b + c の 差 を 問 題 に し ま す 。 Yule 係 数 で は a と
d, b と c の 関 係 を 積 で 示 し ま す が 、Hamann 係 数 で は そ れ を 和 で 示 し て い ま
す 。 a = d = 0 の と き 最 小 値 -1 に な り 、 b = c = 0 の と き 最 大 値 1 に な り ま
す。a + d = b + c のときは最小値と最大値の中間 0 になります。
(a + d) - (b + c)
(a + d) + (b + c)
Hamann 係 数 (h.) =
-1.0 ≦ h. ≦ 1.0
(7) Phi 係 数 は 少 し 複 雑 な 式 で す 。 こ れ は 積 率 相 関 係 数 と 関 係 し ま す 。 (→
後述)
Phi 係 数 (ph.) =
ad - bc
(a + b)(a + c)(b + d)(c + d)
-1.0 ≦ Phi ≦ 1.0
(8) Ochiai 係 数 は 、 a / (a + b)と a / (a + c) の 幾 何 平 均 で す 。 そ れ ぞ れ の a
の比率に注目しています。
Ochiai 係 数 (o.) =
a
(a + b)(a + c)
0.0 ≦ o. ≦ 1.0
● 積 率 相 関 係 数 と Phi 係 数
Phi 係 数 は 「 有 (+ )」 を 1,「 無 (-)」 を ゼ ロ (0)と す れ ば 、 一 般 の 連 続 量 を 扱
う 相 関 係 数 (ピ ア ソ ン の 積 率 相 関 係 数 )か ら 導 出 で き ま す 。
75
X/Y
y(1)
y(0)
和
x(1)
a (1,1)
b (1,0)
a+ b
x(0)
c (0,1)
d (0,0)
c+ d
和
a+c
b+d
a+ b+c+d
はじめに総データ数を n とします。
n=a+b+c+d
先に見たように相関係数(標準得点の積和の平均)の式は次の通りです。
r=
{ [(x 1 - m x ) / σ x ][(y 1 - m y ) / σ y ]
+ [(x 2 - m x ) / σ x ][(y 2 - m y ) / σ y ]
(...)
+ [(x n - m x ) / σ x ][(y n - m y ) / σ y ] } / n
σx と σy を 分 母 に 移 す と
r
= [ (x 1 - m x )(y 1 - m y )
+ (x 2 - m x )(y 2 - m y )
+ (...)
+ (x n - m x )(y n - m y ) ] / (σ x σ y n) … ①
先に①の分子だけを取り上げましょう。
r
分子
= (x 1 - m x )(y 1 - m y )
+ (x 2 - m x )(y 2 - m y )
+ (...)
+ (x n - m x )(y n - m y )
それぞれ展開して
r
分子
= (x 1 y 1
- x1my
- mxy1
+ mxmy)
+ (x 2 y 2
- x2my
- mxy2
+ mxmy)
+ (x n y n
- xnmy
- mxyn
+ mxmy)
:
:
:
:
(1)
(2)
(3)
(4)
+ (...)
縦の列をまとめて、
76
r
分子
= (x 1 y 1 + x 2 y 2 + ... + x n y n ) ...(1)
- m y (x 1 + x 2 + ... + x n )
...(2)
- m x (y 1 + y 2 + ... + y n )
...(3)
+ nm x m y
...(4)
こ こ で 、 (1) x 1 y 1 + x 2 y 2 + ... + x n y n の う ち 、 b(1, 0), c(0, 1), d(0, 0) に あ た る 部
分ではXとYの少なくとも1つがゼロなので、その積もゼロになります。
それで結局は
x 1 y 1 + x 2 y 2 + ... + x n y n =
a
となります。また
x 1 + x 2 + ... + x n = a + b ... X の 総 和
y 1 + y 2 + ... + y n = a + c ... Y の 総 和
m x = (a + b) / n
... X の 平 均
m y = (a + c) / n
... Y の 平 均
となるので分子は
r
分子
= a
...(1)
- (a + b)(a + c) / n
...(2)
- (a + b)(a + c) / n
...(3)
+ (a + b)(a + c) / n
...(4)
= a - (a + b)(a + c) / n
= [na - (a + b)(a + c)] / n
n = a + b + c + d なので
r
分子
= [(a + b + c + d)a - (aa + ac + ba + bc)] / n
= (aa + ab + ac + ad - aa - ac - ab - bc) / n
= (ad - bc) / n …②
と な り ま す 。こ の 分 子 の 式 は X と Y に 共 に あ る 場 合 の 数 (a)と 、共 に な い 場
合 の 数 (d)の 積 か ら 、片 方 に し か な い 2 つ の 場 合 の 数 (b と c)の 積 を 引 い た も
の で す 。a も d も X と Y の プ ラ ス ・ マ イ ナ ス が 同 じ 場 合 で す 。 逆 に 、b と c
は X と Y の プ ラ ス・マ イ ナ ス が 反 対 に な る 場 合 だ か ら 、ad - bc が X と Y の
相関を示すのに合理的な数値に関わることが直感的に納得できます。
次に①の分母を r
分母
とします。
77
r
r
分母
分母
= σxσyn
の う ち の X の 標 準 偏 差 σ x を 取 り 上 げ ま し ょ う 。ル ー ト( 根 )が あ る と
や や こ し く な る の で 、と り あ え ず 2 乗 し た も の( つ ま り 、σ x 2 な の で 分 散 値 )
で計算し、後でその根を計算します。
σx2
= [ (x 1 - m x ) 2
+ (x 2 - m x ) 2
+ ...
+ (x n - m x ) 2 ] / n
それぞれの項を展開して、
σx2
= [(x 1 2
- 2x 1 m x
+ mx2)
+ (x 2 2
- 2x 2 m x
+ mx2)
+ (x n 2
- 2x n m x
+ m x 2 )] / n
:
:
:
(1)
(2)
(3)
+ ...
縦の列をまとめて、
σx2
= [(x 1 2 + x 2 2 + ... + x n 2 )
... (1)
- 2m x (x 1 + x 2 + ... + x n )
... (2)
2
2
2
+ (m x + m x + ... +m x ] / n
... (3)
= [(x 1 2 + x 2 2 + ... + x n 2 )
... (1)
- 2m x (x 1 + x 2 + ... + x n )
... (2)
+ nm x 2 ] / n
... (3)
x 1 , x 2 , ... x n は す べ て 1 ま た は 0 で す 。そ こ で X の 総 数 は a + b と な る の で
( 【 図 3.3d】 ) 、 次 の よ う に な り ま す 。
x 1 + x 2 + ... + x n = a + b
x 1 2 + x 2 2 + ... + x n 2 = a + b
m x = (a + b) / n
これを先の式に代入すると、
σx2
= [(a + b)
...(1)
78
- 2(a + b) 2 / n
2
...(2)
2
+ n(a + b) / n ] / n
...(3)
= {(a + b) – [2(a + b) 2 +(a + b) 2 ] / n} / n
= [a + b – (a + b) 2 / n] / n
= [(a + b)n - (a + b) 2 ] / n 2
= [(a + b)(a + b + c + d) - (a + b) 2 ] / n 2
= (a + b)(c + d) / n 2
こ こ で 、 σ x 2 か ら σ x に 戻 し ま す 26 。
X の 標 準 偏 差 σx =
同様にして、r
σy2
分母
(a + b)(c + d) / n …③
の σy を 求 め ま す 。
= [ (y 1 - m y ) 2 + (y 2 - m y ) 2 + ... + (y n - m y ) 2 ] / n
= [(y 1 2 - 2y 1 m y + m y 2 ) + (y 2 2 - 2y 2 m y + m y 2 ) + ...+ (y n 2 - 2y n m y + m y 2 )] / n
= [(y 1 2 + y 2 2 + ... + y n 2 ) - 2m y (y 1 + y 2 + ... + y n ) + nm y 2 ] / n
= [(a + c) - 2(a + c) 2 / n + n(a + c) 2 / n 2 ] / n
= (a + c)(b + d) / n 2
σy2 も σy に 戻 し ま す 。
Y の 標 準 偏 差 σy=
(a + c)(b + d) / n …④
上記①に、②と③④を代入すれば、こうして数値が 0 と 1 だけのデータの
相 関 係 数 ( Phi 係 数 : Phi) は 全 体 で 次 の よ う に な り ま す 。
Phi
=
(ad - bc) / n
n (a + b)(c + d) / n * (a + c)(b + d) / n
=
ad - bc
(a + b)(a + c)(c + d)(b + d)
分 母 は (a, d)と (b, c)を そ れ ぞ れ 組 み 合 わ せ て 和 と し た も の を 全 部 掛 け 合 わ
せています。
● Phi 係 数 と Ochiai 係 数
理 論 的 に 導 き 出 さ れ た Phi 係 数 を 実 際 に 適 用 し て み る と 不 都 合 な と き が あ
26
つまり、分散値を標準偏差に戻します。
79
ります。次のデータを比べてみましょう。
デ ー タ (1)
デ ー タ (2)
こ こ で そ れ ぞ れ の phi 係 数 を 求 め て み ま す 。 Phi (1)は デ ー タ (1)、 Phi (2)は
デ ー タ (2)の Phi 係 数 で す 。
Phi (1)
100×2 - 10×20
=
(100 + 10) ×(100 + 20)×(20 + 2) ×(10 + 2)
0
=0
(100 + 10) ×(100 + 20)×(20 + 2) ×(10 + 2)
=
Phi (2)
=
=
4×50 - 10×20
(4 + 10) ×(4 + 20)×(20 + 50) ×(10 + 50)
0
=0
(4 + 10) ×(4 + 20)×(20 + 50) ×(10 + 50)
ど ち ら も Phi 係 数 の 分 子 の ad- bc が ゼ ロ と な る の で 、 Phi 係 数 も ゼ ロ に な
り ま す 。 し か し 、 デ ー タ (1)と デ ー タ (2)を 比 べ れ ば (1)の ほ う が ず っ と 類 似
度 が 高 い よ う に 思 え ま す 。プ ラ ス (+)を 共 有 す る ケ ー ス が 100 も あ る か ら で
す 。 こ れ は 全 体 132 の 75.8%に あ た り ま す 。 そ れ に 対 し て (2)は ど う で し ょ
う か 。 わ ず か 4 回 の 共 起 回 数 で 計 算 す る と 4.8%に な り ま す 。
こ の 原 因 は d(0-0)の 数 値 の 扱 い 方 に あ り ま す 。 X に も Y に も な い 要 素 は
与えられたデータに限れば有限ですが、X、Y以外のデータに存在して、
XにもYにもなかったものです。そうした d の値は、XとYの内容にかか
わらず、一般にいくらでも増やすことができます。つまり、理論的には d
の 数 は 無 限 (∞)で あ る と 考 え ら れ ま す 。 た と え ば 、 X と Y と い う 二 人 が 読
んだことがある本を数えるとき、どちらも読んだことのない本の数は無限
(本が無限に出版されるとして)だと考えられます。
そ こ で 、 先 の 式 で d が 無 限 に な る と 仮 定 し て み ま し ょ う 。 phi 係 数 で d
が 無 限 大 に な る も の を phi’と し ま す 。
Phi’. = d lim
→∞
ad - bc
(a + b)(c + d)(a + c)(b + d)
80
分母と分子を d で割ります。
Phi’ = d lim
→∞
a - bc/d
(a + b)(a + c)(b/d + 1)(c/d + 1)
それぞれの分母になる d を無限大にすると、分子に何があってもゼロとな
ります。
Phi’ =
a
(a + b)(a + c)
こ れ が Phi 係 数 の 修 正 版( Ochiai 係 数 : ochi.)で す 。と て も シ ン プ ル に な り
ま し た 。 先 の デ ー タ (1), (2)で 計 算 し て み ま し ょ う 。
Phi’ (1) =
100
= 0.870
(100+10)(100+20)
Phi’. (2) =
4
= 0.218
(4+10)(4+20)
こ の よ う に 、Phi 係 数 で 区 別 で き な か っ た 両 者 も Ochiai 係 数 (Phi')を 利 用 す
れ ば デ ー タ (1) の 方 が デ ー タ (2) よ り も 類 似 性 が 高 い と い う 直 感 を 裏 付 け る
ことができます。
● 相 互 情 報 量 と Dice 係 数
言語研究ではたとえば 2 つの語の結合度を調べるために、相互情報量と
い う 数 値 を 使 い ま す 。こ れ あ h 、共 起 得 点 (a)を デ ー タ 全 体 で 理 論 的 に 期 待
で き る 共 起 得 点 ( 期 待 値 ) で 割 っ た 値 の 対 数 ( 底 =2) で す 。
相互情報量 =
log 2 (
共起度数・全度数
)
度 数 X・ 度 数 Y
た と え ば 、あ る ス ペ イ ン 語 の 資 料 で muy (='very')と い う 語 の 得 点 が 120, bien
(='well')の 得 点 が 167, 全 語 数 が 26578 で し た 。 そ う す る と 、 muy と bien
が 共 起 得 点 が 理 論 的 に 期 待 で き る 値 は (120/26578) x (167 / 26578) と な り ま
す。これは、それぞれが出現する確率の積です。そして、実際の資料では
muy + bien が 47 出 現 し ま し た 。 こ れ は 47/26578 と い う 確 率 で す 。 そ こ で
相互情報量を計算するために、はじめに共起得点をデータ全体で理論的に
期待できる共起得点(期待値)で割った値を求めましょう。
(47/26578) / [(120/26578) x (167 / 26578)]
81
= (47 x 26578) / (120 x 167) = 62.334
こ れ の 対 数 ( 底 =2) は 5.962 と な り ま す 。 こ れ が 相 互 情 報 量 で す 。 底 を 2
と す る 対 数 は 一 般 に 情 報 量 を 示 し ま す 。た と え ば 、16 の 可 能 性 が あ る 事 象
の 情 報 量 は 16 = 2 4 な の で 、 4 (=log 2 16)と な り ま す 。
Dice 係 数 は 共 起 得 点 を 得 点 (x)と 得 点 (y)の 平 均 で 割 っ た 値 で す 。 こ こ で
は相互情報量のように全語数を計算に含めることはしません。
Dice 係 数 (d.) =
共起度数
0.0 ≦ d. ≦ 1.0
(度数(x)  度数 (y) ) / 2
分 子 の 共 起 得 点 は 上 の 表 の a に あ た り ま す 。得 点 (x)は a + b に あ た り ま す 。
これは x が y と共起するケース数と y と共起しないケース数の合計になり
ま す 。 同 様 に 得 点 (y)は a + c で す 。 よ っ て 、
Dice 係 数 (d.) =
a
2a
=
(2a + b + c) / 2
(2a + b + c)
b = c = 0 の と き 最 大 値 1 に な り 、 a = 0 の と き に 最 小 値 0 に な り ま す 。 Dice
係 数 は Jaccard の a を 2 倍 に し た も の で す 。a と b+c を 対 照 化 す る 、と 考 え
れ ば 、 a が 2 数 (b, c)と 対 照 化 し て い る の で 、 Dice 係 数 の ほ う が つ り 合 い が
とれていると思います。
両者に存在しない特徴
か つ て 印 欧 言 語 学 の 分 野 で は Phi 係 数 を 使 っ た Kroeber (1937, 1969) と
Ochiai 係 数 を 使 っ た Ellegard (1959)の 間 に 論 争 が あ り ま し た 。 こ れ を 安 本
(1995)が 簡 単 に 解 説 し て い ま す 。 こ の 問 題 は 、 一 般 に 類 似 係 数 の ど ち ら か
が正しいということではなくて、データの種類や性格によって係数の選択
を考えるべきでしょう。たとえば、アンケート調査などで「賛成」と「反
対」という回答があるとすれば、単に両者が一致して「賛成」と答えた場
合 の 数 (a)だ け で な く 、一 致 し て「 反 対 」と 答 え た 場 合 の 数 (d)も 同 時 に 考 慮
されるべきです。
2 つのデータだけでなく、多数のデータ間の類似度を見る場合には、問
題の両者に存在しない特徴であってもほかのデータに存在する特徴である
ならば、どちらもその特徴を持たないという否定的な一致はそれなりの意
味をもつと考えられます。
82
◇4 優先係数
以上がよく使われている代表的な類似度係数ですが、そのほかにも次のよ
う な 類 似 度 係 数 が 考 え ら れ ま す 。 こ こ で は 、 X/(X+Y) と い う 相 対 型 (r:
relative)、 ま た は (X – Y) / (X + Y)と い う 対 照 型 (c: contrast)に よ っ て 分 類 し 、
さ ら に d 値 の 有 無 、 積 算 (mult.)の 有 無 を 明 記 し ま し た 27 。
X
Y
r:c
d
mult.
1. a / (a + b)
a
b
r
-
-
2. (a - b) / (a + b)
a
b
c
-
-
3. a / (a + c)
a
c
r
-
-
4. (a - c) / (a + c)
a
c
c
-
-
5. a / [a + (b + c)]
a
b + c
r
-
-
6. [a - (b + c)]/[a + (b + c)]
a
b + c
c
-
-
7. 2a / [2a + (b + c)]
2a
b + c
r
-
-
8. [2a - (b + c)] / [2a + (b + c)]
2a
b + c
c
-
-
9. a 2 / (a 2 + bc)
a2
bc
r
-
+
10. (a 2 - bc)/ (a 2 + bc)
a2
bc
c
-
+
11. a / [a + (bc) 1 / 2 ]
a
√ (bc)
r
-
+
12. [a - (bc) 1 / 2 ] / [a + (bc) 1 / 2 ]
a
√ (bc)
c
-
+
13. (a + d) / [(a + d) + (b + c)]
a + d
b + c
r
+
-
14. [(a + d) - (b + c)]/[(a + d) + (b + c)]
a + d
b + c
c
+
-
15. ad / (ad + bc)
ad
bc
r
+
+
16. (ad - bc) / (ad + bc)
ad
bc
c
+
+
17. (ad) 1 / 2 / [(ad) 1 / 2 + (bc) 1 / 2 ]
√ (ad)
√ (bc)
r
+
+
18. [(ad) 1 / 2 - (bc) 1 / 2 ] / [(ad) 1 / 2 +(bc) 1 / 2 ]
√ (ad)
√ (bc)
c
+
+
考えられる類似度係数
さ ら に 、9 と 15 は 次 数 が 2 に な っ て い る の で 、次 の 式 で 次 数 を 1 に 下 げ る
こ と も 考 え ら れ ま す 28 。
19. a / (a 2 + bc) 1 / 2
20. [ad / (ad + bc)] 1 / 2
27
こ れ ら の 中 で 、 5, 7, 13, 14, 16 は す で に 取 り 上 げ た も の で す 。 こ こ で は
全体を整理するために、これらの公式も含めました。
28
10 と 16 は 分 子 が 負 に な る こ と が あ る の で 、根 を 使 う こ と が で き ま せ ん 。
83
上 の 8.を「 優 先 係 数 」( coefficient of preference)と 名 付 け て 活 用 し た い と 思
います。「優先係数」は後述するように他の係数と比較して利点が多いか
ら で す 。 2a が b + c と 比 べ て ど の 程 度 優 先 さ れ て い る の か を 示 し ま す 。 優
先 係 数 (p.)は Dice 係 数 の 2a と (b+c)を 対 照 化 さ せ た 係 数 で す 。
Preference 係 数 (p.) =
2a - b - c
2a + b + c
p.: -1.0 (a=0) ≦ 0.0 (2a = b+c) ≦ 1.0 (b=c=0)
◇5 各類似度係数の比較
Phi 係 数 と Ochiai 係 数 の 選 択 に 限 ら ず 、 実 際 の 分 析 で こ れ ら の 類 似 度 係 数
のうちどれを使えばよいのか迷うことがあります。そのとき、いくつかの
選択の方法が考えられるでしょう。その選択の基準もさまざまです。たと
えば、これらの係数を利用して誰かの前で発表することを考えてみましょ
う。発表がそうした係数の数値自体による裏付ける根拠よりも、その先に
ある類似性を主張することが大きな目標であり、ほかの根拠に十分裏付け
ら れ て い る の で あ れ ば 、 単 純 一 致 係 数 や Russel and Rao 係 数 や Jacard 係 数
のように係数の説明に多くの時間を割かずに済む、わかりやすい係数を選
択するという決定も考えられます。類似度係数が、強い裏付けの根拠とし
て 重 要 な 意 味 を 持 つ な ら ば 、 Yule 係 数 や Hamann 係 数 を 選 択 し 、 そ の 数 値
の性質について丁寧な説明が必要になります。そして、統計に慣れている
人 に 発 表 す る な ら ば 、 よ く 知 ら れ て い る Phi 係 数 を 使 え ば そ の 説 明 は 必 要
な く な り ま す 。 Phi 係 数 に わ ず か な 説 明 を 加 え る こ と で Ochiai 係 数 を 使 う
こともできるでしょう。1 つだけでなく複数の係数を選択して、それぞれ
を比較し、考察することも考えられます。
しかし、このような決定は本質的ではなく、実際的な条件に従っていま
す。本質を追究するには、それぞれの係数の性質と分析対象のデータの性
質をよく理解して、本質的な条件と実際的な条件のどちらも考慮に入れた
上 で 決 定 し な く て は い け ま せ ん 。そ う す れ ば 、自 分 で も 納 得 が で き ま す し 、
自信をもって説明できます。
それぞれの係数の性質を比べると、共通する性質があることがわかりま
す 。先 に 見 た「 両 者 に 存 在 し な い 特 徴 (d)」の 扱 い の ほ か に 、逆 方 向 を 検 知
するかどうか(マイナスになるか)、完全に等質な分布のときゼロになる
かどうか、などについて、しっかり理解しておく必要があります。次の表
は そ れ ぞ れ の 特 徴 の 分 布 を 比 較 し た も の で す 。 こ こ で d 値 (0:0)を 扱 わ な い
84
(-)、逆 方 向 を 検 知 す る (v)、積 算 が な い (-)、と い う 条 件 を つ け る な ら ば 優 先
係 数 (Preference: p.)を 選 択 す る と よ い で し ょ う 。
s.m.
r.r.
j.
d.
y.
h.
ph
o.
d (0:0)を 扱 う
v
-
-
-
v
v
v
-
-
逆 方 向 (-)を 検 知
-
-
-
-
v
v
v
-
v
積算がある
-
-
-
-
v
-
v
v
-
性質
p
逆 方 向 を 検 知 す る 係 数 は 完 全 に 等 質 な 分 布 の と き ゼ ロ に な り ま す 。こ れ は 、
次のような実験をするとわかります。
こ こ で 、-1 か ら 1 の 間 を と る 係 数 な ら ば ゼ ロ に な り ま す が 、他 の 係 数 は 0.5
(s.; o.), 0.25 (r.r.), 0.33 (j.) に な る 、 と い う こ と を 心 得 て お か な け れ ば な り
ま せ ん 。 た と え ば 、 相 関 係 数 が 0.5 な ら ば 「 中 度 の 相 関 が あ る 」 と 判 断 し
ま す が 、そ れ が s.や o.の 値 な ら ば ま っ た く 相 関 が な い こ と を 示 し て い ま す 。
次 の 表 と 図 は b=2, c=4, d=8 で 固 定 し 、 共 起 回 数 (a)を 0 か ら 10 に 上 げ て
いったときのそれぞれの係数の変化を示しています。
Co-occurrence (a+/+)
0
1
2
3
4
5
6
7
8
9
10
b (+/-)
2
2
2
2
2
2
2
2
2
2
2
c (-/+)
4
4
4
4
4
4
4
4
4
4
4
d (-/-)
8
8
8
8
8
8
8
8
8
8
8
.57
.00
.00
.00
-1.00
.14
-.26
.00
-1.00
.60
.07
.14
.22
.00
.20
.00
.26
-.50
.63
.13
.25
.33
.33
.25
.15
.41
-.20
.65
.18
.33
.40
.50
.29
.25
.51
.00
.67
.22
.40
.44
.60
.33
.32
.58
.14
.68
.26
.45
.48
.67
.37
.37
.63
.25
.70
.30
.50
.50
.71
.40
.41
.67
.33
.71
.33
.54
.52
.75
.43
.44
.70
.40
.73
.36
.57
.53
.78
.45
.47
.73
.45
.74
.39
.60
.55
.80
.48
.49
.75
.50
.75
.42
.63
.56
.82
.50
.51
.77
.54
Simple match
Russel and Rao
Jaccard
Dice
Yule
Hamann
Phi
Ochiai
Preference
85
こ れ を 見 る と 、 逆 方 向 を 検 知 し な い Simple match, Russel and Rao, Jaccard ,
Dice の 振 幅 が 小 さ く 、と く に Simple match の 振 幅 が 小 さ い こ と が 確 認 で き
ま す 。 そ し て 、 Phi や Ochiai の 振 幅 は 小 さ く 、 同 じ 程 度 の 幅 で あ る こ と も
わ か り ま す 。そ れ ら に 対 し て Yule と Preference の 振 幅 が 大 き い こ と が 特 徴
的 で す 。Yule の 上 昇 は 急 で す が 、Preference は 比 較 的 緩 や か に 上 昇 し ま す 。
こ の こ と は a[++]の 値 が 高 い 場 合 の 弁 別 性 を 保 証 し ま す 。
ほかにもいろいろな実験をしてそれぞれの係数の性質を調べておく必
要があるでしょう。データ分析ではさまざまなデータを扱ったことのある
人であれば経験が生かして係数を選択できます。私たちはデータ分析を始
めたばかりなのであまり経験はありませんが、何度でも実験で確かめるこ
とはできます。実際のデータには数の限りがありますが、実験はいくらで
も可能です。また、私たちが経験する実際のデータはかなり偏りがあるの
が普通ですが、実験するときは全部自分でコントロールできますから、納
得がいくまで確かめることができます。
数値を積算している係数は、それぞれの項目の増減がそれを構成する要
素の増減に比例しているので、考えてみると納得できますが、問題点とし
て積算の片方がゼロになると他方にどのような数値があっても、ゼロにな
ってしまうことがあげられます。また、分母で積算されているとそれがゼ
ロ に な っ た と き 計 算 で き な く な り ま す 。た と え ば Ochiai で (a+b)が ゼ ロ に な
った場合です。このとき c に値があっても計算されません。一方、数値を
積算していない係数は、結局「割合」に過ぎないので、ほとんど考えなく
てもわかります。これが実際的な選択の条件となることもあるかもしれま
86
せん。
データの性質として、方向性があるものならば、逆方向を探知する係数
を選択すべきです。たとえば「賛成」と「反対」で回答したアンケート調
査などは、「賛成」の数だけでなく、「反対」の数も考慮に入れるべきで
す。一方、2 つの文献の語彙比較調査などは、ある単語が使われている、
と、使われていない、という数値を同等に扱うよりも、使われているケー
スだけで計算したほうがよいと思われます。どちらにも使われていない、
という語彙は無限に存在するからです。しかし、一定の語彙範疇(たとえ
ば「指示詞」「関係代名詞」など)で複数の文献を調査するときは、否定
的な反応も考慮に入れるべきでしょう。
分析の手順としては、完全に理解して経験を積む前は、とりあえず全部
の係数を比較し、大きく異なる結果を出した係数について、その原因を探
り、次にデータと照合して、データの性質を一番よく示している、と思わ
れる係数を選択するとよいでしょう。そのためには、データの性質をよく
知っていることと、係数の性質をよく理解していることが必要です。何度
でも実験をして確かめてください。
◇ 6 Excelで 質 的 デ ー タ を 扱 う
類似係数を使ってデータを比較するにはまず量的なデータを質的なデータ
に 変 換 す る 必 要 が あ り ま す 。こ れ に は IF 関 数 を 使 え ば 便 利 で す 。例 と し て
次のデータを使用します。
(1) は じ め に 、 量 的 デ ー タ の 質 化 の 基 準 を 設 定 し ま す 。
A17 を 質 的 デ ー タ に 変 換 す る た め の 基 準 値 と し ま す 。 こ の 値 よ り も 大 き い
87
場 合 、「 1」に 変 換 す る と い う ル ー ル に し ま す 。 0 よ り も 大 き い と き に 変 換
す る 場 合 は F17=0 と 記 入 し て お き ま す 。
(2) IF 関 数 を 使 っ て 量 的 デ ー タ (B2)を 質 的 デ ー タ (E2)に 変 換 し ま す 。
E2=IF(B2>$F$17, 1, 0) 29
こ の 式 の 意 味 は 、E2 が 基 準 値 の 値 (0)よ り も 大 き い 場 合 は 、1 を そ れ 以
外は 0 を返す、ということです。
(3) E2 を E2:F16 に コ ピ ー し ま す 。 こ れ で 0 よ り 大 き い 値 を 1 と 表 示 す る
ことができました。
四象限の計算
次に、さきほどの変換の結果を基に、共通して使われているもの、一方だ
け使われているもの、どちらも使われていないものを集計しましょう。
(1) は じ め に E2 と F2 を 対 象 と し て デ ー タ を 入 力 し ま す 。
H2 =IF(AND($E2=1, $F2=1), 1, 0)
こ の 式 の 意 味 は 、E2( 手 紙 )と F2( 演 劇 )が 共 に 1 の 場 合 、1 を 返 し 、
29
こ こ で は 基 準 値 を 動 か す こ と が で き る よ う に $F$17 と し ま し た が 、 下 記
の よ う に $F$17 を 使 用 し な く て も 同 じ 結 果 を 得 る こ と が で き ま す 。
E2=IF(B2>0, 1, 0)
88
そ れ 以 外 は 0 に す る 、と い う こ と で す 。AND を 使 っ て 複 数 の 条 件 を 指
定していることに注意してください。
H2 を I2:K2 に コ ピ ー し て 、 一 部 を 次 の よ う に 修 正 し ま す 。
I2=IF(AND($E2=1, $F2= 0), 1, 0)
J2=IF(AND($E2=0, $F2=1), 1, 0)
K2 IF(AND($E2=0, $F2=0), 1, 0)
(2) H2:K2 を H2:K16 に コ ピ ー し ま す 。
(3) G17 を 書 き 込 み 、 SUM で H17:K17 を 計 算 し ま す 。
H17 =SUM(H2:H16)
H17 を I17:K17 に コ ピ ー し ま す 。 I17 =SUM(I2:I16)
J17 =SUM(J2:J16)
K17 =SUM(K2:K16)
最終的には次のような値になります。
これで四象限での集計が完了です。
各種の類似係数
それでは各種の類似係数を計算してみましょう。
89
M19:M27 で そ れ ぞ れ の 係 数 を 求 め ま す 。
(1) 共 起 回 数 : M19=H17
(2) Simple match 係 数 : M20=(H17+K17)/(H17+I17+J17+K17)
(3) Russel and Rao 係 数 : M21=H17/(H17+I17+J17+K17)
(4) Jaccard 係 数 : M22=H17/(H17+I17+J17)
(5) Yule 係 数 : M23=((H17*K17)-(I17*J17))/((H17*K17)+(I17*J17))
(6) Hamann 係 数 : M24=((H17+K17)-(I17+J17))/((H17+K17)+(I17+J17))
(7) Phi 係 数 :
M25=((H17*K17)-(I17*J17))
/SQRT((H17+I17)*(H17+J17)*(I17+K17)*(J17+K17))
(8) Ochiai 係 数 : M26=H17/SQRT((H17+I17)*(H17+J17))
(9) Prominence 係 数 : M27=(H17/(H17+I17)+H17/(H17+J17))/2
(10) Preference 係 数 : M30=(2*H17-I17-J17)/(2*H17+I17+J17)
外国語学習・獲得と「価値」の優先度
語彙学習、さらに外国語学習一般において、学習者が認識する「価値」
の優先度が高い、ということと仮説にしたいと思います。語彙についてい
うと、単語の意味に学習者が「価値」を見出すと、それが獲得される、と
いう仮説です。これは、いわゆる「重要単語」のことではありません。な
ぜなら、重要単語で示されている「重要性」は学習者の認める価値とは異
なる場合があるからです。
この仮説を検証するために次のような実験をしてみました。一定の量の
単語リストについて、はじめに「自分にとって価値の優先度の高い」単語
にマークし、その後全体の記憶練習をして、その結果をそれぞれの単語数
に つ い て 集 計 し ま す 。 こ の 実 験 に 12 人 が 参 加 し ま し た 。
(a) +/+:
「 比 較 的 価 値 が 高 い 単 語 (+)」 /「 学 習 成 功 (+)」
90
(b) +/-:
「 比 較 的 価 値 が 高 い 単 語 (+)」 /「 学 習 失 敗 (-)」
(c) -/+:
「 比 較 的 価 値 が 低 い 単 語 (-)」 /「 学 習 成 功 (+)」
(d) -/-:
「 比 較 的 価 値 が 低 い 単 語 (-)」 /「 学 習 失 敗 (-)」
参 加 し た 12 人 の 結 果 は Yule も Hamann も プ ラ ス に な っ て い ま す か ら こ
の仮説に沿うものです。
かなり敷衍して考えてみると、はたして私たちは外国語をくりかえし練
習して獲得するのでしょうか?もしかしたら、「価値」の優先度が強く働
いた要素は瞬間的に獲得しているのかもしれません。とくにがんばって記
憶練習した覚えもないのに、獲得してしまった語があるとすれば、それは
「 価 値 」の あ る 単 語 だ っ た 可 能 性 が 高 い と 思 わ れ ま す 。そ う だ と す る と 、外
国語(やその他の科目)を、がんばって学習するよりも、価値を見出して
獲得してしまうほうが効果的ではないでしょうか。
価値を見出すためには、形式→意味という流れの教育・学習よりも、意
味→形式という流れのほうが効果があると考えられます。私たちは(外国
語の)形式を見て価値を見出すことはあまりありませんが、意味について
は、その価値の有無・程度を瞬間的に判断することができるからです。
7 データの検定
6.1 で は 量 的 な デ ー タ の 2 つ の 行 列 に 対 し て 、 関 連 性 が ど の 程 度 あ る か と
い う 相 関 係 数 に つ い て 見 ま し た 。 6.2 で は 質 的 な デ ー タ を 対 象 と し て 、 四
象限の情報から類似係数を算出する方法を見てきました。ここでは、クロ
ス 集 計 の 表 か ら 関 連 度 を 数 値 化 す る 方 法 を 扱 い ま す 30 。 次 の 表 を 見 て 下 さ
い。
and
全体
but
58
so
43
合計
28
129
単純集計表
30
* 参 考 : 池 田 央 . 1976.『 統 計 的 方 法 I 基 礎 』 新 曜 社 . pp.121-132.
91
and
but
so
合計
文頭
12
7
11
30
文中
46
36
17
99
全体
58
43
28
129
クロス集計表
上の表は 1 つの指標(英語の等位接続詞)について数値(頻度)を表した
も の で す 。一 方 、下 の 表 は (1)「 英 語 の 等 位 接 続 詞 」と (2)「 出 現 位 置 」と い
う 2 つの指標を基に集計したものです。このようなものをクロス集計表と
呼びます。ここで問題となるのは、この 2 つの指標はお互いに関連してい
るかどうかということです。具体的に言うと、2 つが関係している場合、
「 (1)英 語 の 等 位 接 続 詞 の (2)出 現 位 置 は 単 語 に よ っ て 異 な る 」 と い う 結 論 に
な り ま す し 、関 係 し て い な い 場 合 、「 (1)英 語 の 等 位 接 続 詞 の (2)出 現 位 置 は
単語に左右されない」(それぞれの現象は「独立」である)ということに
なります。この判定をする手法が、カイ二乗検定です。ここではカイ二乗
検 定 を 理 解 す る た め に 、 単 純 な 例 と し て 2-2 の 表 を 用 い て 説 明 し て い き ま
す。
7. 1 検定の方法
なぜカイ二乗検定が必要なのでしょうか。次のようなケースで考えてみま
しょう。ある現象を数えるにあたって、次のように、それが出現した場合
だけを数えるやり方があります。
「 方 法 A」 … 効 果 が あ っ た ケ ー ス : 59
「 方 法 B」 … 効 果 が あ っ た ケ ー ス : 49
「 方 法 A」 に 効 果 が あ っ た 場 合 の 数 を 59、 「 方 法 B」 に 効 果 が あ っ た 場 合
の 数 を 49 と し て 単 純 に 比 較 す る と 、確 か に「 方 法 A」の ほ う が 優 れ て い る 、
と い う 結 論 に な る か も し れ ま せ ん 。し か し 、こ こ で「 方 法 A」( そ し て「 方
法 B」 ) に 効 果 が あ っ た こ と を 確 か め る に は 、 「 方 法 A」 ( そ し て 「 方 法
B」 ) に 効 果 が な か っ た ケ ー ス も 調 べ る こ と が 必 要 で す 。 そ の 結 果 が 次 の
表です。
実 測 値 1 の 結 果 を 見 る と 、 や は り 「 方 法 A」 の ほ う が 「 方 法 B」 よ り 優 れ
92
ているように見えますが、仮に次の実測値2ようなケースになったときは
判断が逆転してしまいます。
「 方 法 A」と「 方 法 B」は ど ち ら も 効 果 が あ る 場 合 よ り も 効 果 が な い 場 合 の
方 が 上 回 り 、そ れ ぞ れ の 方 法 の 差 は 6 で す が 、「 方 法 A」の「 効 果 が な い 」
の数が大きくなっています。
さ ら に 、 次 の 実 測 値 3 の よ う な ケ ー ス が あ り ま す 。 「 方 法 A」 も 「 方 法
B」 も ど ち ら も 「 効 果 が あ る 」 の 数 が 「 効 果 が な い 」 の 数 よ り も 上 回 っ て
い ま す 。両 者 は「 効 果 が あ る 」と「 効 果 が な い 」の 差 は 10 と な っ て い ま す 。
は た し て 「 方 法 A」 が 「 方 法 B」 に 比 べ て 効 果 が あ る と 言 え る の で し ょ う
か。
これらは単に「効果がある」という肯定的な反応だけを数えていては見つ
か ら な か っ た 問 題 を 示 し て い ま す 。つ ま り 、方 法 A と 方 法 B の 差 を 考 え る
には、効果があった場合と効果がなかった場合の両方を考える必要がある
ということです(「方法」と「効果の有無」という 2 つの指標でクロス集
計する必要があるということです)。
そ れ で は 実 測 値 1~ 3 の 場 合 、 方 法 A と 方 法 B に 差 が あ る と い え る の は
どれでしょうか。この数値を統計的に算出するのがカイ二乗検定です。こ
の方法を用いることで、差があるかどうかをはっきりと数値で示すことが
できます。
◇1 期待値を計算する
カ イ 二 乗 検 定 の 基 に な る デ ー タ は 、(1)実 測 値 と (2)期 待 値 で す 。以 下 、例 と
し て 実 測 値 1 を 見 て い き ま し ょ う 31 。
31
比率は「効果がある」の値を「効果がない」の値で割った値です。1 よ
り大きいと「効果がある」ほうが多いことを示します。
93
このデータをグラフにして視覚化しておきます。
期待値の計算方法に関しては、5 章(→)で見ましたが、ここでは少し違
った角度から算出方法を再度考えてみます。説明のために、観測値を次の
ように呼ぶことにします。
次 の 表 で は 各 セ ル に 「 期 待 さ れ る 」 得 点 (期 待 得 点 : expected score)が 示 さ
れています。期待得点は次のような式で計算されます。
期待値
効果がある
効果がない
方法 A
(a + b)×(a + c)
a + b + c + d
(a + b)×(b + d)
a + b + c + d
方法 B
(c + d)×(a + c)
a + b + c + d
(c + d)×(b + d)
a + b + c + d
た と え ば 、 方 法 A の 効 果 が あ る 期 待 値 は 、 方 法 A の 総 数 (a + b) 94 に 「 効
94
果 が あ る 」 と 期 待 で き る 率 (a + c) 108、 掛 け た 数 値 を 総 数 で 割 っ た 値 で す 。
総 数 94 が 108:88 に 分 割 さ れ る と き に 108 の 側 に 当 然 期 待 で き る 数 値 、94 x
(108 / 196)を 示 し ま す 32 。
「 方 法 A」 ・ 「 効 果 が あ る 」 の 期 待 得 点 94 x 108 / 196 = 51.796
「 方 法 A」 ・ 「 効 果 が な い 」 の 期 待 得 点 94 x 88 / 196=42.204
「 方 法 B」 ・ 「 効 果 が あ る 」 の 期 待 得 点 102 x 108 / 196=56.204
「 方 法 B」 ・ 「 効 果 が な い 」 の 期 待 得 点 102 x 88 / 196=45.796
も し 実 際 に 観 察 さ れ る 値 が 当 然 予 測 さ れ る 値( 期 待 値 )と 近 い な ら ば 、「 偶
然でも起こるかもしれない分布」ということになります。逆に、もしそれ
が期待値から大きく外れるならば、観察されたデータは有意味な分布を示
していると考えられます。「偶然ではほとんどあり得ない」と考えるので
す 。つ ま り 、カ イ 二 乗 検 定 の ポ イ ン ト は 、「 実 測 値 と 期 待 値 の ズ レ を 見 る 」
というところにあります。
◇2 カイ二乗値を求める
期 待 値 と 実 測 値 の ず れ を 総 合 的 に 判 断 す る た め 、す べ て の 升 目 (a, b, c, d)
における実際の観測値と期待値の「相対的な差」の総和で求めます。相対
化するには、実測値から期待値を引いたものを期待値で割ります。また、
「 相 対 的 な 差 」の 合 計 は 、そ の ま ま で は 0 に な っ て し ま い ま す の で 、単 純 に
期待値からの距離を求めるために二乗しておきます(これがカイ「二乗」
という名前の由来です)。
標準化した値 =
(実 測 値 ―期 待 値 ) 2
期待値
このような操作を「標準化」と呼びます。データには一定の単位がありま
すが、標準化すると単位がなくなります。単位がなくなると、どのような
32
こ こ で 、こ れ ら の 期 待 値 の す べ て が 5 以 上 で あ る か ど う か を 確 か め て お
きます。いずれかが 5 以下だと誤差が大きくてカイ二乗検定には向いてい
ないデータと判断されます。
95
デ ー タ で も 統 計 的 に 同 じ 処 理 が で き る よ う に な る の で す 33 。 次 が そ れ ぞ れ
の相対的な差です。
こ れ ら の 値 を 合 計 し た 値 が 「 カ イ 二 乗 の 統 計 量 」 ( χ2) と 呼 ば れ る も の で
す。
χ 2 =1.002 + 1.230 + 0.923 + 1.133 = 4.288
式 を 一 般 化 し ま し ょ う 。 実 測 値 a, b, c, d の 期 待 値 を そ れ ぞ れ 、 a', b', c', d'
とし、標準化した値の総和は次のようになります。
χ2 =
(a - a') 2
(b - b') 2
(c - c') 2
(d - d') 2
+
+
+
a'
b'
c'
d'
カ イ 二 乗 の 統 計 量 は 、期 待 値 か ら の ズ レ( 距 離 )の 総 和 と い う こ と に
な り ま す 。こ の 値 が 大 き い ほ ど 、期 待 値 と の ズ レ が 大 き い と い う こ と
が言えます。
7. 2 検定の考え方
値や差を推定する統計は確率に基づいています。確率は全くありえない
0% か ら 、絶 対 そ う で あ る 100% ま で あ り ま す が 、た と え ば 方 法 A と 方 法 B
の 間 に 「 差 が 100% あ る 」 と 言 い 切 る こ と は 難 し い で す 。 で は 、 ど う す る
かというと「差がないとは言えない」という消極的な言い方をします。こ
の 証 明 に は 、100% と は 反 対 の 0% か ら 出 発 し ま す 。つ ま り 、「 方 法 A と 方
法 B に は( 全 く )差 が な い 」と い う 仮 説 か ら ス タ ー ト す る の で す 。こ の 仮
説 を 帰 無 仮 説 (H 0 )と 呼 び ま す 。 無 に 帰 し た い ( 棄 却 し た い ) 仮 説 で す の で
こ の よ う に 呼 ば れ ま す 。 こ の 逆 の 「 差 が あ る 」 と い う 仮 説 を 対 立 仮 説 (H 1 )
と呼びます。
33
た と え ば 、デ ー タ の 絶 対 的 な 値 を 3 メ ー ト ル だ と し て 、そ れ が 全 体 の 10
メ ー ト ル の 中 で の 割 合 を 見 る と 、 0.3 と い う 単 位 ( メ ー ト ル ) が な く な っ
た数値になり、この数値は他のケースの割合と同じ尺度で(標準化された
尺度で)比較できます。期待値を使った標準化もそれとよく似ています。
96
H0: 方 法 A と 方 法 B に は 差 が な い
H1: 方 法 A と 方 法 B に は 差 が あ る
推 測 統 計 が 求 め る 確 率 は H 0 が 成 立 す る 確 率 で す 。た と え ば 検 定 の 結 果 、3%
と 出 れ ば 、 こ れ は 「 方 法 A と 方 法 B に は 差 が な い 可 能 性 が 3%」 と い う こ
と で す 。 逆 に 言 え ば 、 97%の 確 率 で H 1 ( 差 が あ る ) が 成 立 し ま す 。 こ の 場
合 、H 1 が 成 立 す る 可 能 性 が か な り 高 い で す の で 、H 0 は 棄 却 で き る こ と に な
ります。
こ の よ う に 棄 却 す る 基 準 の こ と を 「 有 意 水 準 」 と 呼 び ま す 。 一 般 に 5%
と 1% が 用 い ら れ ま す 。 た と え ば 「 5% の 有 意 水 準 で H 0 が 棄 却 で き る 」 と
い う 結 論 は 、H 0 の 成 り 立 つ 確 率 が 5% 以 下( H 1 が 成 り 立 つ 確 率 が 95% 以 上 )
ということになります。
◇1 検定の評価
カイ二乗統計量は、期待値とのズレであるということを見ました。それで
は こ の 値 が ど の 程 度 大 き け れ ば 差 が あ る と い え る の で し ょ う か 。 2-2 の 分
割表では次のように決まっています。
有意水準 閾値
5%
3.841
1%
6.634
閾値とは、カイ二乗統計量の値がそれ以下であれば成り立たないというこ
と で す 。 あ ら た め て 先 ほ ど の 値 を 見 る と 、 4.288 で す の で 、 5% の 閾 値 よ り
も 大 き い こ と に な り ま す 。従 っ て 、こ の 結 果 は「 5% 水 準 で 有 意 な 差 が あ る 」
と 解 釈 で き ま す 。 一 方 、 1% 水 準 の 閾 値 は 6.634 で す の で 、 こ の 水 準 で は
H0 を 棄 却 す る こ と は で き ま せ ん 。
さ き ほ ど 「 2-2 の 分 割 表 で は 」 と い う 但 し 書 き を つ け ま し た が 、 こ の 点
は重要ですので触れておきます。カイ二乗統計量は期待値からのズレの合
計であるということを見ましたが、マス目が増えれば増えるほど合計の値
が 大 き く な り ま す 。 た と え ば 、 2-2 の マ ス と 4-4 の マ ス で は マ ス の 数 は 4
マ ス と 16 マ ス で す の で 、平 等 に 扱 う の は お か し い で し ょ う 。つ ま り 、有 意
水準の閾値の値も、マス目の数によって大きくなっていくということにな
ります。
こ の 基 準 は 「 自 由 度 」 (degree of freedom, df) と 呼 ば れ ま す 。 自 由 度 と い
う の は 自 由 に 値 を 決 め る こ と が で き る マ ス の 数 の こ と で す 。た と え ば 、2-2
97
のマスでは、1 つのマスを決めると、縦と横の合計が同じならばm他のす
べてのマスの値は自動的に決まってしまうので自由度は 1 ということにな
り ま す 。 次 の 表 で 方 法 A の 「 効 果 が あ る 」 を 10 と す る と 、 方 法 A の 「 効
果 が な い 」は 84、方 法 A の「 効 果 が あ る 」は 98、方 法 B の「 効 果 が な い 」
は 4 に決まります。
実測値 1 効果がある
効果がない
方法 A
10
94-10
94
方法 B
108-10
102-(108-10)
102
108
88
196
な お 、n-p の ク ロ ス 集 計 表 の 自 由 度 は 、(n-1)-(p-1)で 求 め る こ と が で き ま す 。
以 上 の こ と を ま と め て 次 の よ う に 表 し ま す 34 。
χ 2 = 4.288 > χ 2 (df: 1, p: 0.05) = 3.841
こ れ は 「 カ イ 二 乗 統 計 量 は 4.288 で 、 自 由 で 1 の 場 合 の 5% 有 意 水 準
の 3.841 よ り も 大 き く 統 計 的 に 有 意 で あ る 」 と い う 意 味 で す 。
◇ 2 イ ェ イ ツ の 補 正 ( Yates’ correction)
2-2 の 数 値 表 で は カ イ 二 乗 の 統 計 量 が 一 般 に 大 き く な る 傾 向 が あ り ま す 。
そ の た め 、 先 の χ2 の 代 わ り に 次 の 式 を 使 っ て 少 し 補 正 し ま す 。
n
n(|ad - bc| - 2 ) 2
χ 2 (Yate's cor.) =
(a+b)(a+c)(c+d)(b+d)
そ う す る と 、 イ ェ イ ツ の 補 正 を し た 結 果 χ 2 (Yate’s cor.)は 3.714 と な っ て 、
先 ほ ど の 値 よ り も 少 し 小 さ く な り ま し た 。 こ の 場 合 も 有 意 水 準 1%で 帰 無
仮説を棄却できないことになります。このようにイェイツの補正を利用す
ることでより慎重な評価ができます。
カ イ 二 乗 ・ イ ェ イ ツ の 補 正 ・ Phi 係 数
イ ェ イ ツ の 補 正 は χ 二 乗 値 の 分 子 か ら n/2 を 引 い た 数 値 に な り ま す 。こ の
ことを確かめておきましょう。
34
df は 自 由 度 (degree of freedom) 、 p は 確 率 (probability)を 示 し ま す 。
98
はじめに次が実測値です。
O
X(+)
X(-)
和
Y(+)
a
b
a + b = s
Y(-)
c
d
c + d = t
和
a + c = u
b + d = v
a + b + c + d =n
次 に a, b, c, d そ れ ぞ れ の χ 二 乗 値 を 計 算 し ま す 。
χ 2 (a) = (a – su / n) 2 / (su / n) = [(an – su) 2 / n 2 ][n / su] = (an – su) 2 / nsu
χ 2 (b) = (b – sv / n) 2 / (sv / n) = [(bn – sv) 2 / n 2 ][n / sv] = (bn – sv) 2 / nsv
χ 2 (c) = (c – tu / n) 2 / (tu / n) = [(cn – tu) 2 / n 2 ][n / tu] = (cn – tu) 2 / ntu
χ 2 (d) = (d – tv / n) 2 / (tv / n) = [(dn – tv) 2 / n 2 ][n / tv] = (dn – tv) 2 / ntv
こ の 和 が χ 二 乗 (χ 2 )で す 。
χ2
= [ tv(an – su) 2 + tu(bn – sv) 2 + sv(cn – tu) 2 + su(dn – tv) 2 ] / nstuv
= [ tv (a 2 n 2 – 2ansu + s 2 u 2 )
+ tu (b 2 n 2 – 2bnsv + s 2 v 2 )
+ sv (c 2 n 2 -2cntu + t 2 u 2 )
+ su (d 2 n 2 – 2dnvt + t 2 v 2 ) ] / nstuv
= (a 2 n 2 tv – 2ansutv + s 2 u 2 tv
+ b 2 n 2 tu – 2bnsvtu + s 2 vtu 2
+ c 2 n 2 sv -2cntusv + t 2 u 2 sv
+ d 2 n 2 su – 2dnvtsu + t 2 v 2 su) / nstuv
縦列で足します。
= [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su)
- 2stuvn (a + b + c + d)
+ stuv (su + sv + tu + tv) ] / nstuv
= [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su)
- 2stuvn 2
+ stuv (s + t)(u + v) ] / nstuv
= [ n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su) - 2n 2 stuv + n 2 stuv] / nstuv
99
= n 2 (a 2 tv + b 2 tu + c 2 sv + d 2 su - stuv) / nstuv
= n (a 2 tv + b 2 tu + c 2 sv + d 2 su - stuv) / stuv
s = a + b, t = c + d, u = a + c, v = b + d な の で
= n [ a 2 (c + d)(b + d)
+ b 2 (c + d)(a + c)
+ c 2 (a + b)(b + d)
+ d 2 (a + b)(a + c)
- (a + b)(c + d)(a + c)(b + d) ] / stuv
= n [a 2 (bc + cd + bd + d 2 )
+ b 2 (ac + c 2 + ad + cd)
+ c 2 (ab + ad + b 2 + bd)
+ d 2 (a 2 + ac + ab + bc)
– (ac + ad + bc + bd)(ab + ad + bc + cd) ] / stuv
= n [ a 2 bc + a 2 cd + a 2 bd + a 2 d 2
+ ab 2 c + b 2 c 2 + ab 2 d + b 2 cd
+ abc 2 + ac 2 d + b 2 c 2 + bc 2 d
+ a 2 d 2 + acd 2 + abd 2 + bcd 2
- a 2 bc - a 2 cd – abc 2 – ac 2 d
- a 2 bd – a 2 d 2 – abcd – acd 2
- ab 2 c – abcd – b 2 c 2 – bc 2 d
- ab 2 d – abd 2 – b 2 cd – bcd 2 ] /stuv
= n (a 2 d 2 – 2abcd + b 2 c 2 ) / stuv
= n (ad – bc) 2 / [(a + b)(a + c)(c + d)(b + d)]
こ の 式 は 先 に 見 た χ 2 (Yate's cor.) と わ ず か に 分 子 の 一 部 が 異 な る だ け で
す 。 ま た 、 こ の 式 は 先 に 見 た Phi 係 数 を 二 乗 し て n(= a + b + c + d) を 掛 け
た数値になります。
χ 2 = n Phi 2
100
◇ 3 Excelで カ イ 二 乗 検 定 を す る
そ れ で は Excel で カ イ 二 乗 検 定 を 行 っ て み ま し ょ う 。 カ イ 二 乗 検 定 で は
実測値と期待値、そして標準化した値を基にして計算しますので、次のよ
うなカイ二乗検定をするためのシートを作成します。
実測値は横和と縦和の両方を求めておきます。
期待値
「 実 測 値 」 の 和 を 参 照 し て 「 期 待 値 」 を 計 算 し ま す 。 B7 に 次 の 式 を 書 き 込
み、全体にコピーします。なお、表示はセルの書式設定から小数点以下 3
位までの設定にしました。
B7=$D2*B$4/$D$4
101
標準化
(1)「 実 測 値 」と「 期 待 値 」を 参 照 し て 期 待 値 と の 差 を 標 準 化 し た 各 値 を 計
算 し ま す 。二 乗 に は ^( キ ャ レ ッ ト )を 使 い ま す 。次 の 式 を 入 力 し 、残 り の
セルにコピーします。
B11 =(B2-B7)^2/B7
カイ二乗統計量
カイ二乗統計量は標準化した値の合計です。次の式を入力します。
B14= sum(B11:C12)=4.288
102
有意水準・自由度・限界値
Excel に は CHIINV と い う 関 数 が 用 意 さ れ て お り 、「 有 意 水 準 」と「 自 由 度 」
を 基 に 閾 値 を 算 出 で き ま す 。引 数 は 、CHIINV(確 率 ,自 由 度 )で す 。こ こ で は
自 由 度 1 の 場 合 の 5%と 1%の 閾 値 を 求 め て み ま し ょ う 。
B15=CHIINV(0.05,1)
B16=CHIINV(0.01,1)
以 上 の 結 果 か ら 、 カ イ 二 乗 統 計 量 は 5%水 準 の 閾 値 よ り も 大 き く 、 1%水 準
の 閾 値 よ り も 小 さ い の で 、 5% 水 準 で 有 意 、 1% 水 準 で は そ う で は な い と い
うことがいえます。
Yates の 補 正
イェイツの補正を求める関数は残念ながら用意されていませんので、数式
を 自 分 で 入 力 し ま す 。絶 対 値 に 変 換 す る に は ABS 関 数 を 利 用 し ま す 。次 の
式を入力してみましょう。
B17 =(ABS(B2*C3 -B3*C2)-D4/2)^2*D4/(B4*C4*D2*D3)=3.714
103
CHITEST 関 数 を 使 う
Excel に は CHITEST 関 数 が 用 意 さ れ て お り 、こ れ を 利 用 す る と 実 測 値 と 期
待 値 か ら H 0 が 成 り 立 つ 確 率 を 直 接 計 算 す る こ と が で き ま す 。 CHITEST(実
測 値 ,期 待 値 )と い う 形 で 使 い ま す 。
B18 =CHITEST(B2:C3,B7:C8)
こ の 計 算 の 結 果 、 0.038 と 出 ま す 。 こ れ は H 0 が 成 り 立 つ 可 能 性 が 3.8% で
あ る こ と を 示 し て い ま す 。つ ま り 、5% 水 準 で は 十 分 に 棄 却 で き る 値 で あ る
104
ということを示します。
この手法を使うと、標準化の手順が省略できるというメリットと、直接
確率を求めることができるというメリットがあります。先ほどまでの結果
で は 5% 水 準 で は 有 意 だ が 1% 水 準 で は 違 う と い う こ と で し た が 、 3.8% は
ちょうどこの間に入ります。
実 測 値 2、 実 測 値 3 に つ い て
実測値 2 と 3 について同じように計算するにはシートをコピーして実測値
の値を入れ替えればよいでしょう。次のような結果になりました。
105
カイ二乗統計量もイェイツもかなり小さい値になっています。このことか
ら 、 実 測 値 2 と 3 で は 方 法 A と 方 法 B に 差 が あ る と は 言 え ま せ ん ( H0 を
棄却できません)。
カイ二乗分布
カイ二乗の「限界値」は「有意水準」と「自由度」によって決まります。
た と え ば 、 自 由 度 =1、 有 意 水 準 =0.05 な ら ば 、 限 界 値 は 3.841 に な り ま す 。
こ の 限 界 値 は 非 常 に 複 雑 な 数 式 に よ っ て 導 か れ る も の で 、こ れ を 理 解 す る
こ と は 私 た ち の「 文 系 の デ ー タ 分 析 」の 範 囲 を 超 え て い る と 思 い ま す 。次 に
示 す シ ー ト は 、カ イ 二 乗 分 布 を 示 す 関 数 を 自 由 度 1, 2, 3 に つ い て 求 め た も の
で す が 、セ ル [B2]の 数 式 は 、次 の よ う な 関 数 を 使 い ま す 。こ の よ う に 非 常 に
複雑な式なのです。
B2==$A2^(B$1/2-1)*EXP(-1*$A2/2)/(2^(B$1/2)*EXP(GAMMALN(B$1/2)))
こ こ で 、自 由 度 (F)=1 の 線 の 3.841 の 値 の 右 側 の 面 積 が 全 体 の 5%に な る こ と
を示しています。
私 た ち は 実 験 を す る こ と に よ っ て こ れ を 実 際 に 納 得 す る こ と が で き ま す 。次
は 、ラ ン ダ ム に 1000 ほ ど の 偏 り の な い ケ ー ス を 発 生 さ せ 、自 由 度 =1 の カ イ
二乗値の頻度を計算した結果です。
106
そ れ ぞ れ 、先 に 示 し た 理 論 的 に 導 か れ る 連 続 線 の 形 状 に 近 似 し て い る こ と が
わ か り ま す 。こ の 実 験 は 何 度 や っ て も 、具 体 的 な 数 値 は 変 わ り ま す が 、グ ラ
フの形はそれぞれ類似しています。
ブラックボックス・リープ・ディスコネックション
書 店 に は 統 計 学 の 参 考 書 が 多 く 並 ん で い ま す 。 「 Excel を 使 っ て こ の よ
うにすればよい」と説明する手法の本もたくさんあります。実際に手にと
って見ると、簡単に統計処理ができるように書かれていて参考になる本も
ありますが、中には、手法だけを扱って、応用法についての注意などがな
く、数学的な背景については大まかに理解していればよい、という姿勢で
書かれているものも多いようです。
たしかに、書かれてあるとおりのテクニックを使えばそれなりの結果が
出るのですが、どうしてそのような結果が出るのか具体的にわからないこ
とがあります。これでは計算過程がブラックボックスになってしまい、自
分が出した結果を説明できません。
参考書の中には説明が「飛躍している」(リープ)と思われるケースも
あります。これは説明の段落がどのようにつながるのかわからないような
状態です。もしかしたら自分の数学的な知識が不足しているため、リープ
だと勝手に判断しているのかもしれません。
また、説明の中には「~ということが知られている」「~という公式を
使 う 」と い う よ う な 背 景 知 識 に 対 す る リ ン ク に な っ て い る こ と が あ り ま す 。
しかし、私たちが「知られている」という事実や「公式」に疎いとき、背
景知識とのリンクは切れてしまっています(ディスコネクション)。
107
このような理論的な理解がない状態で手法だけを応用してしまうと、結
局自分が何をやっているのかわからないのに、自分の名前をつけたレポー
ト・論文・発表を生産してしまうことになりかねません。本人がわかって
いないのに、レポート・論文を読む人や発表を聞く人がいるというのは望
ましくありません。
そこで、自分にとって、ブラックボックス、リープ、ディスコネクショ
ンがあると思われる参考書の説明については、ぜひ自分で実際にいろいろ
な 実 験 を し て 納 得 が い く ま で 確 か め て く だ さ い 。 Excel は そ の 実 験 道 具 と
して役立ちます。そして、実験をしながら感覚的に様子がわかったら、今
度は統計学や数学の本を読んで数式を理解してください。誰でも難しそう
な記号が並んだ数式を目にすると尻込みすることはよくあることですが、
そこでじっくり腰を据えて理解してみると案外身近なものであることはよ
くあることです。理論の理解と実験の順番は逆でも、同時でもよいでしょ
う 。 机 上 の 書 籍 と Excel の 往 復 作 業 で す 。 い ず れ に し て も 自 分 で 納 得 で き
た手法を使うことを勧めます。ちょっと面倒かもしれませんが、努力の結
果自分が納得できる成果を得たとき、その達成感が次のステップにつなが
ります。
(c) 上 田 博 人 ( 東 京 大 学 ) Hiroto Ueda (University of Tokyo) 2013.1.17
108
Fly UP