統計分析/統計基礎理論第3回講義資料

by user

on 28 марта 2017

Category: Documents

>> Downloads: 3

views

Report

Comments

Description

Download 統計分析/統計基礎理論第3回講義資料

Transcript

統計分析/統計基礎理論第3回講義資料

今回のポイント

統計分析/
統計基礎理論
記述統計⇒「データを要約する」
 データが多い場面に利用する統計学
 得られた全体のデータの特徴を数量化すること
⇒要約することで知見を得る
第３回記述統計（３）：代表値

全体を一言（＝１つの数値）で表す！ ⇒代表値
 分布（データ）の中心を表す代表値
 分布（データ）の広がり（バラツキ）を表す代表値
京都大学経営管理大学院
松井啓之
 ２つの分布のバラツキ具合を比較すると
 分布の形を表す代表値


代表値とは

⇒データが集中している部分？
 分布の中心 ⇒分布の真ん中？
⇒分布の重心？
 分布（データ）の中心を表す代表値
平均値（ミーン：mean、アベレージ：average）

中央値（メジアン：median）
最頻値（モード：mode）


2
分布（distribution）の中心とは
代表値：ある集団を１つの値で特徴づける値⇒要約

代表値から何が言えるのか？
代表値を組み合わせると何が言えるか？
算術平均、幾何平均、調和平均、加重平均など
 分布（データ）の広がり（バラツキ）を表す代表値


分散と標準偏差
範囲と四分位点
 分布の形を表す代表値


歪み、尖り
２つの分布のバラツキから分かる指標
 共分散（covariance）、相関係数（correlation
coefficient）
算術平均（１）

分布の中心
3
4
（算術）平均値の長所と短所
算術平均（arithmetic mean）：相和平均

長所
 すべての分布に常に存在する（必ず存在！）
 いま全体でn個のデータ：x1, x2, x3,…, xnがあるとする。
 唯一無二の平均値が得られる
この場合データの（算術）平均とは
 計算が簡単である
 全てのデータを用いる→全ての情報が詰まっている！
 意味が明確
 データの総和をデータ数で割った値。

 物理的に考えれば分布の重心＝やじろべいの支点。
 例外値（外れ値、極端値）の影響を非常に受ける
 全てのデータを利用して値を求めるが、極端な外れ値や

歪んだ分布のときに代表性が弱くなる。
100人の人口、１人が100億の所得、残り0→平均１億の所得
 適切な代表値でない場合がある
 原則として、間隔尺度または比例尺度でないと計算する
意味がない。
短所

5
異なるグループが混在した場合の平均値
例えば、親と子供が混じった場合の平均年齢は全く無意味
6
1
算術平均の性質（１）

算術平均の性質（２）
算術平均はデータの１次変換を保持する

もとのデータ xi に対して、a, b を定数として１次式
i=1, 2, …, n
yi = axi+b
により xi を yi に変換（１次変換）する。このとき変換され
たデータ yi の算術平均 y は
y = ax+b
となる。すなわち、個々のデータ xi と yi の間の１次関係
が両者の算術平均 x と y の間にもそのまま成立する。

※ xi － x を偏差（deviation）と呼ぶ
（≡は「常に等しい」を表す）

⇒算術平均は偏差の平方和を最小にする値である
7
中央値（median：メジアン）/中位数
8
最頻値（mode：モード）
データを小さい方から大きい方に並べた場合の中央
（ちょうど真中）の値

⇒複数存在することも許可する。
 名義尺度でも得られる
 「流行」のことを「モード」というのと同じ語源
 順序尺度、間隔尺度、比尺度で計算できる
 長所
 例外値（外れ値、極端値）の影響を受けない
 煩雑な計算が不要
 外れ値や歪んだ分布に強い
 長所
 例外値（外れ値、極端値）の影響を受けない
 唯一無二の中央値が得られる
 煩雑な計算不要
 短所
 大量のデータの順序付けが簡単ではない
 全てのデータを用いる訳ではない
最も頻繁に現れた値
 度数分布表において最も頻度の高い値（度数が大きい）
 データ：x1, x2, x3,…, xn
 nが奇数の場合：(n+1)/2番目の値
 nが偶数の場合：n/2番目の値とn/2+1番目の値の算術平均
 短所
 最頻値が存在しない場合がある（一様分布）
 最頻値が唯一無二でない（複数）場合がある
 連続量データを扱う場合、最頻値は階級の決め方に依存する。
→データ分析主体の恣意が入る可能性
9
平均値・中央値・最頻値の例

算術平均からの偏差の平方和は、他のいかなる
一定値からの偏差の平方和より小さい
１次変換で定数項の影響を受けないことから、仮の
平均値を設定することで計算を簡単できる。
例えば、102、105、97、101、98の平均を計算する時に、仮
の平均として100を設定すれば、
仮の平均100との差は2、5、-3、1、2となる。
従って、平均：=（2+5-3+1-2）/5＋100=100.6

算術平均からの偏差の和は常に０である
10
度数分布に基づく算術平均
例：平成元年3月9日から4月2日の東京の最低気温

3.2, 3.1, 5.1, 4.8, 8.3, 9.8, 8.3, 6.6, 5.1, 3.8, 5.2, 5.6, 6.5, 5.7,
5.7, 7.4, 6.2, 7.0, 6.7, 5.7, 6.2, 6.0, 8.8, 10.7, 8.5
順番に並べると、全部で25個のデータがある。
3.1, 3.2, 3.8, 4.8, 5.1, 5.1, 5.2, 5.6, 5.7, 5.7, 5.7, 6.0, 6.2, 6.2,
6.5, 6.6, 6.7, 7.0, 7.4, 8.3, 8.3, 8.5, 8.8, 9.8, 10.7
 平均値：6.4
中央値（13番目）：6.2 最頻値（3個）：5.7

各階級（クラス）の代表値（階級値）から平均を近似
的に求めることが出来る。
加重平均の応用
xi（i=1,…, n）のデータに対して、kクラス（k=1,…, m）の階
級値をx’k、度数をfkとすれば
データの集中しているところ
（分布の中心）平均値
中央値
最頻値
11
12
2
特殊な平均：加重平均

特殊な平均：相乗平均/幾何平均
加重平均（weighted mean）

幾何平均（geometric mean）/相乗平均
 いま全体でn個のデータ：x1, x2, x3,…, xnがあるとする。
 観測値ごとに重みを変化させた算術平均
この場合データの幾何平均とは
 いま全体でn個のデータ：x1, x2, x3,…, xnがあるとする。
n個の重み：w1, w2, w3,…, wn とすると、加重平均とは

加重平均も、重心（＝やじろべいの支点）
右表のように３種類株式を買ったとして、全投資の
現在価格
平均利回りを計算する。
普通株A
150円
投資額は、A：150円×20=3000円、同様にB：3000円、普通株B 50円
C：4000円で合計で10000円となる。
普通株C
100円
したがって、平均利回りは投資金額の加重平均なので
10×3000/10000＋20×3000/100000＋18×4000/10000＝16.2（%）となる
購買株数
利率
20
10%
60
20%
40
18%
13
特殊な平均：調和平均

1995年から2002年までの各年度の実質経済成長率（GDP）は、1.6, 3.5,
1.8, -1.1, 0.7, 2.4, -0.6, 1.2（%）である。８年間の平均成長率を求める。
 ヒント：初年度のGNPの値をY0とすれば、一定の成長率ｒの場合、n
年後は、Ｙn=Y0(1+r)n、またＹn = Y0(1+r1)(1+r2)…（1+rn）なので、この
関係は幾何平均となっている
｛(1+0.016)×(1+0.035)×(1+0.018)×(1-0.011)×(1+0.007)
×(1+0.024)×(1-0.006)×(1+0.012)｝1/8
＝（1.016・1.035・1.018・0.989・1.007・1.024・0.994・1.012）1/8
14
≒1.012なので平均成長率は1.2%
データの広がりとは？
調和平均（harmonic mean）

 いま全体でn個のデータ：x1, x2, x3,…, xnがあるとする。こ
範囲
四分位範囲
分散
標準偏差
の場合データの調和平均とは

逆数の平均値の逆数、0を含むデータには使えないが、外れ値に
は強い。
ヒント：距離を L kmと考えて、所用時間を考えてみると、所要時間
＝（L/a）+(L/b)時間、平均時速は、往復2L kmをその所用時間で
割ってあげれば良い。

16
四分位範囲と四分位偏差

四分位範囲
 順番に並べたデータを４つに分割して、上から
１/ ４の点と下から１/４の点の差をとったもの
四分位範囲＝第３四分位－第１四分位
 外れ値や分布の歪みの影響を受けにくい

四分位偏差（quartile deviation）
 四分位範囲の半分
四分位偏差：QD＝（Q3－Q1）/2
※四分位範囲＝四分位偏差と定義している場合もある。
※四分位点を拡張した十分位点やパーセント点なども存在
Q1：第１四分位数（25%点）
Q2：第２四分位数＝中央値（50%点）
Q3：第３四分位数（75%点）
四分位範囲
範囲
中央値（Q2）
Q3
バラツキ大
15
範囲（レンジ：range）
 最大値（xmax）と最小値（xmin）の差をとったもの
R = xmax － xmin
 外れ値の影響を受けやすい。
四分位数（quartile）/四分位点
 全体のデータを小さい順から並べた場合に、４等
分する位置の値
Q1
バラツキが小さい
バラツキが
大きい
範囲と四分位数

バラツキ小
バラツキ中
ある区間を往復するのに、行きは時速a km、帰りは時速b kmとした場
合の平均時速は？（算術平均（a + b）/2ではありません！）

データの広がり＝データのバラツキの大きさ
17
Q1
中央値（Q2）
Q3
18
3
平均偏差（絶対偏差）

分散（variance）
平均値と各データの差の絶対値の総和をデータ数で
割った値
 各データxiの平均


からの隔たり（偏差）
 分布の拡がりを、中心の値から各値までの距離（隔たり）の
平均で測る
（全標本＝母集団の）分散
なので、
（算術）平均と各データの差（＝偏差）の二乗和を
データ数で割った値（＝二乗和の平均）
データが平均からどの程度ちらばっているかを示す尺度
 平均値や範囲の異なる分布のちらばりを同じ指標で比較
可能
 全データを使う、１つの外れ値の影響は受けにくい
平均から離れた標本が多ければ分散は大きくなり（＝ちら
 絶対値を使うために、統計量として、他の統計量と数学的
ばりが大きい）、平均に近い標本が多ければ分散は小さい
な関連を持たない
→標本統計量から母集団統計量を推定するのに使えない

二乗和しているため、平均との距離の影響がより強く現れる。
19
20
不偏分散（unbiased variance）
分散（２）

不偏分散（標本の分散）
 「データ数」でなく、「データ数」から１を引いた「自由度」で
割ったもの。標本データから母集団の分散を推定するとき
はこちらを用いる。

度数分布表の各階級の代表値（階級値）から分散を
近似的に求めることが出来る。
 標本統計量から母集団統計量を推定するのに使う
xi（i=1,…, n）のデータに対して、k クラス（k=1,…, m）の階級
値を x’k、度数を fk とすれば
 教科書によっては、（全標本の）分散を表す記号でsで利用
する場合もあるので、注意するように
 自由度がn-1になるのかを理解するための例

21
標準偏差（standard deviation）：Std.

変数が3つx1、x2、x3があり、平均値 x が決まっているとする。x1、x2の数値
は自由に決定出来るが、x3に関してはx3=x-x1-x2で確定してしまう。つまり
自由に決定できる変数の数（＝自由度）が3-1=2となる
不偏標準偏差
標準偏差：分散の平方根

不偏標準偏差は、不偏分散の平方根：s
 標準偏差はもっとも普通に使われるばらつきの指標
 通常、論文や本や新聞などで標準偏差が発表されてい
 要は、「各データの中心（＝平均値）からの距離の平均」
る場合は、標本調査で得たデータ（＝標本）から母集団
統計量を推定しているのが普通なので、わざわざ不偏と
書かれていなくても不偏標準偏差（s）が使われている場
合が多い。
 基本的にs>であるが、nが大きくなるにつれて、２つの
値は近づいていく
＝平均的乖離幅

その対象がどの程度平均から離れているかという指標
 分散は次元が異なるので、元の次元に戻す→標準偏差

次元：要は単位の一致のこと、例えば長さであれば、単位はm
（メートル）であるが、分散の場合、単位がm2 （平方メートル）と元
の単位と異なることになる。平均の場合は、計算の結果で単位が
変わることはなく、単位はm （メートル）のままである。
22
23
24
4
変動係数（Coefficient of Variation）

標準偏差（分散）の性質（１）
相対的な分散度の指標として、標準偏差を平均で割
ることによって、実質的なデータのバラツキの大きさ
を評価する尺度

標準偏差は、データの特殊性の度合いの評価基準
 例えば、海面の水位が平均値とすると波の高さが標準偏
差であり、どのぐらい波が上下動しているかを示す。




標本標準偏差（不偏標準偏差）の場合

平均株価1000円で標準偏差10の株券Aと平均株価100円で標準偏差
10の株券Bのどちらの方がちらばり（変動）が大きかったと言えるか？
株券AのCV＝0.01、株券BのCV＝0.1であるので、株券Bの方が変動
が大きかったことが分かる。変動係数を用いることで、実質的なばらつ
きの大きさを比較可能になる。
※データの単位や大きさが異なっている場合も比較可能
⇒標準偏差は「リスク」の大きさの指標とみなせる
データ xi（i=1, 2,…, n）を、１次変換 axi+b （a, bは定
数）によって yi に変換するとき
y = |a| x
y2 = a2x2
となる（当然sでも成立する）
 １次変換における定数項（b）が無関係⇒全てのデータから
一定値を引いたもので計算しても結果は同じ
25
標準偏差（分散）の性質（２）

標準偏差（変動係数）によって、あるデータの特殊性を評価可能
標準偏差は、ばらつきの大きさを示すので、ばらつきの小さい方が
予測し易い、つまり、外れる危険性（＝リスク）が少ない
26
平均・分散の効率的な計算方法（１）
標準化（基準化）
 平均値から標準偏差の何倍離れているか
⇒あるデータの全体のデータ内での位置
 相対的な位置の比較が可能
※標準化とは平均を0、分散を1にする一次変換

偏差値：標準変化量の１つの応用
平均を、１シグマを１０に設定した標準化

x2
x12
x22
xn
xn2
合計
Σxi
Σxi2
平均
x=Σxi/n
Σxi2/n
一般的な成績分布（正規分布）の場合

偏差値～（シグマ）で約、偏差値～（シグマ）で約
27
平均・分散の効率的な計算方法（２）

x
x1
x2
1
2
:
n
28
参考：平均・分散の応用（１）
平均、分散との１次変換で定数項の影響を受けな
いことから、仮の平均値を設定することで計算を
簡単にすることができる。

チェビシェフの不等式
 平均値（）と標準偏差（）が分れば、どのような範囲にど
れぐらいの割合のデータが含まれているか概略が分る
標本平均を含む区間｛（- k）から（+ k）｝に入らない
観測値の数は、全体の1/k2 以下である。ただし k > 1。
例えば、102、105、97、101、98の平均、分散を計算する
時に、仮の平均として100を設定すれば、
仮の平均の100との差は2、5、-3、1、2となる。
平均：=（2+5-3+1-2）/5＋100=100.6
分散：2=（22+52+（-3）2+12+（-2）2）/5-（3/5）2 =206/25=8.2
標準偏差：=2.87
と効率的に計算をすることが出来る
 不等式で利用される区間を「kシグマ区間」と呼ぶ

SQRT(2)シグマ区間外れるのは、含まれるのは（50%）

2シグマ区間外れるのは、含まれるのは（75%）
3シグマ区間外れるのは、含まれるのは（）

29

SQRTは平方根（√）の意味
30
5
参考：平均・分散の応用（２）
参考：平均・分散の応用（３）
※チェビシェフの不等式は、かなり安全な方向で範囲を指定
している。実際には、平均付近にデータが集中している
（≒正規分布）と考えられるので、以下のような大まかな
関係を利用しても構わない

 株の配当や利息による利益⇒インカムゲイン
 株の売買による利益⇒キャピタルゲイン（譲渡益）

x ± 2/3（中央4/3）→約1/2（50%）、x ± （中央2）→約2/3（67%）
x ± 2（中央4）→約95%、x ± 3（中央6）→約99～100%
⇒ （月次）平均収益率

チェビシェフの不等式から、
 少なくとも50%の文章が720から1280文字の長さである（k = SQRT（2）
の場合）
 少なくとも75%の文章が600から1400文字の長さである（k = 2 の場合）
 少なくとも88%の文章が400から1600文字の長さである（k = 3 の場合）
ことが導かれる。
参考：平均・分散の応用（４）
平均収益率はあくまでも「平均」の値であり、予測に
しか過ぎない。予測から外れる場合もある。
⇒予測がどの程度ばらつくのか？
 ばらつき指標＝標準偏差⇒リスクの指標とみなせる
ボラティリティ（＝Variability：変動性）

 リスクが同じであれば⇒収益率が高いほうを選択
ボラティリティが大きい＝価格変動が大きい

「ボラティリティ」として「標準偏差」（リスク指標）
1981
1982
1983
1984
 ローリスク・ローリターンとハイリスク・ハイリターンは、そ
平均
月次収益率
2.05
2.46
-1.33
2.04
-0.54
0.94
SD
5.35
9.11
5.91
5.98
5.71
6.74
れぞれセットになったもので、優越はないと考えられる。
1981年の場合、平均して約2.5%の収益をもたらすが、ボラティリティとして
SDが9.11%、±１シグマ範囲（2.5-9.1%～2.5+9.1%⇒-6.6%～11.6％）に入
る確率が約67%である。つまり、-6.6%以上の損失を被る確率は約16%もあ
る（逆に、+11.6%以上の利益を得る確率も約16%ある）。これはかなり高い
33
確率で、6.5%の損失を被ることもかなりあり得ることを示している。
参考：平均・分散の応用（６）


総合的に金融商品を評価するための指標として、収
益とリスクを組み合わせた指標で表現
⇒シャープレシオ（SPM：Sharpe ratio）
34
参考：積率（モーメント：moment）
シャープレシオ
分散偏差の二乗和平均
歪度偏差の三乗和平均
 尖度偏差の四乗和平均
⇒積率（モーメント）



ローリスク・ローリターンの商品とハイリスク・ハイリ
ターンの商品を比較することは可能か？
 一般に、収益率が高い製品はリスクも大きい
例：1980~84年の新日鉄株の月次収益率(%)とStd（%）
1980
株（金融商品）の総合評価はどうすれば良いのか
 収益率が同じなら⇒リスクの小さいほうを選択
いての価格変動率
年
32
参考：平均・分散の応用（５）
 資産価格の変動の激しさを表すパラメータ⇒ある銘柄につ

ある銘柄が１ヶ月の間に何パーセント値上がりしたかを年12ヶ月
にわたってデータを収集し、その平均をとったもの

31

キャピタルゲインで利益を得るためには？
 株価の売買で得られる利益が重要
例題：大量の文書があるとする。その文章の長さは平均1000
文字、標準偏差は200文字であることがわかっている。

株で儲けるとは？
無リスク資産（例えば、国債の利回り）分を引くことで、その金融
商品の収益率を明確にする
分散の拡張概念と
して一般化可能
 x軸としてリスク（Std）（＝分母がリスクの評価）、y軸として
収益（＝分子がリターンの評価）の傾き（角度）
⇒角度が大きい（＝ SPMが大きい）程、優良な金融商品

異なるリスクやリターンの商品を統一的に比較可能
 ローリスク・ローリターンの商品とハイリスク・ハイリターン
の商品のSPMが同じ（xy平面上に点を取ると、同一直線
上に存在する）であれば、商品としての優越性はないが
性質が違うと見なすことができる

35
積率を使うと、分散、歪度、尖度が同一概念で表現可
能となる。さらに、一般的な分布の平均や分散を計算
36
する際にも必要（特にファイナンス系の人）
6

統計分析/統計基礎理論 第3回講義資料

Comments

Description

Transcript

統計分析/統計基礎理論第3回講義資料