Comments
Description
Transcript
統計分析/統計基礎理論 第3回講義資料
今回のポイント 統計分析/ 統計基礎理論 記述統計⇒「データを要約する」 データが多い場面に利用する統計学 得られた全体のデータの特徴を数量化すること ⇒要約することで知見を得る 第3回 記述統計(3):代表値 全体を一言(=1つの数値)で表す! ⇒代表値 分布(データ)の中心を表す代表値 分布(データ)の広がり(バラツキ)を表す代表値 京都大学 経営管理大学院 松井啓之 2つの分布のバラツキ具合を比較すると 分布の形を表す代表値 代表値とは ⇒データが集中している部分? 分布の中心 ⇒分布の真ん中? ⇒分布の重心? 分布(データ)の中心を表す代表値 平均値(ミーン:mean、アベレージ:average) 中央値(メジアン:median) 最頻値(モード:mode) 2 分布(distribution)の中心とは 代表値:ある集団を1つの値で特徴づける値⇒要約 代表値から何が言えるのか? 代表値を組み合わせると何が言えるか? 算術平均、幾何平均、調和平均、加重平均など 分布(データ)の広がり(バラツキ)を表す代表値 分散と標準偏差 範囲と四分位点 分布の形を表す代表値 歪み、尖り 2つの分布のバラツキから分かる指標 共分散(covariance)、相関係数(correlation coefficient) 算術平均(1) 分布の中心 3 4 (算術)平均値の長所と短所 算術平均(arithmetic mean):相和平均 長所 すべての分布に常に存在する(必ず存在!) いま全体でn個のデータ:x1, x2, x3,…, xnがあるとする。 唯一無二の平均値が得られる この場合データの(算術)平均とは 計算が簡単である 全てのデータを用いる→全ての情報が詰まっている! 意味が明確 データの総和をデータ数で割った値。 物理的に考えれば分布の重心=やじろべいの支点。 例外値(外れ値、極端値)の影響を非常に受ける 全てのデータを利用して値を求めるが、極端な外れ値や 歪んだ分布のときに代表性が弱くなる。 100人の人口、1人が100億の所得、残り0→平均1億の所得 適切な代表値でない場合がある 原則として、間隔尺度または比例尺度でないと計算する 意味がない。 短所 5 異なるグループが混在した場合の平均値 例えば、親と子供が混じった場合の平均年齢は全く無意味 6 1 算術平均の性質(1) 算術平均の性質(2) 算術平均はデータの1次変換を保持する もとのデータ xi に対して、a, b を定数として1次式 i=1, 2, …, n yi = axi+b により xi を yi に変換(1次変換)する。このとき変換され たデータ yi の算術平均 y は y = ax+b となる。すなわち、個々のデータ xi と yi の間の1次関係 が両者の算術平均 x と y の間にもそのまま成立する。 ※ xi - x を偏差(deviation)と呼ぶ (≡は「常に等しい」を表す) ⇒算術平均は偏差の平方和を最小にする値である 7 中央値(median:メジアン)/中位数 8 最頻値(mode:モード) データを小さい方から大きい方に並べた場合の中央 (ちょうど真中)の値 ⇒複数存在することも許可する。 名義尺度でも得られる 「流行」のことを「モード」というのと同じ語源 順序尺度、間隔尺度、比尺度で計算できる 長所 例外値(外れ値、極端値)の影響を受けない 煩雑な計算が不要 外れ値や歪んだ分布に強い 長所 例外値(外れ値、極端値)の影響を受けない 唯一無二の中央値が得られる 煩雑な計算不要 短所 大量のデータの順序付けが簡単ではない 全てのデータを用いる訳ではない 最も頻繁に現れた値 度数分布表において最も頻度の高い値(度数が大きい) データ:x1, x2, x3,…, xn nが奇数の場合:(n+1)/2番目の値 nが偶数の場合:n/2番目の値とn/2+1番目の値の算術平均 短所 最頻値が存在しない場合がある(一様分布) 最頻値が唯一無二でない(複数)場合がある 連続量データを扱う場合、最頻値は階級の決め方に依存する。 →データ分析主体の恣意が入る可能性 9 平均値・中央値・最頻値の例 算術平均からの偏差の平方和は、他のいかなる 一定値からの偏差の平方和より小さい 1次変換で定数項の影響を受けないことから、仮の 平均値を設定することで計算を簡単できる。 例えば、102、105、97、101、98の平均を計算する時に、仮 の平均として100を設定すれば、 仮の平均100との差は2、5、-3、1、2となる。 従って、平均:=(2+5-3+1-2)/5+100=100.6 算術平均からの偏差の和は常に0である 10 度数分布に基づく算術平均 例:平成元年3月9日から4月2日の東京の最低気温 3.2, 3.1, 5.1, 4.8, 8.3, 9.8, 8.3, 6.6, 5.1, 3.8, 5.2, 5.6, 6.5, 5.7, 5.7, 7.4, 6.2, 7.0, 6.7, 5.7, 6.2, 6.0, 8.8, 10.7, 8.5 順番に並べると、全部で25個のデータがある。 3.1, 3.2, 3.8, 4.8, 5.1, 5.1, 5.2, 5.6, 5.7, 5.7, 5.7, 6.0, 6.2, 6.2, 6.5, 6.6, 6.7, 7.0, 7.4, 8.3, 8.3, 8.5, 8.8, 9.8, 10.7 平均値:6.4 中央値(13番目):6.2 最頻値(3個):5.7 各階級(クラス)の代表値(階級値)から平均を近似 的に求めることが出来る。 加重平均の応用 xi(i=1,…, n)のデータに対して、kクラス(k=1,…, m)の階 級値をx’k、度数をfkとすれば データの集中しているところ (分布の中心) 平均値 中央値 最頻値 11 12 2 特殊な平均:加重平均 特殊な平均:相乗平均/幾何平均 加重平均(weighted mean) 幾何平均(geometric mean)/相乗平均 いま全体でn個のデータ:x1, x2, x3,…, xnがあるとする。 観測値ごとに重みを変化させた算術平均 この場合データの幾何平均とは いま全体でn個のデータ:x1, x2, x3,…, xnがあるとする。 n個の重み:w1, w2, w3,…, wn とすると、加重平均とは 加重平均も、重心(=やじろべいの支点) 右表のように3種類株式を買ったとして、全投資の 現在価格 平均利回りを計算する。 普通株A 150円 投資額は、A:150円×20=3000円、同様にB:3000円、 普通株B 50円 C:4000円で合計で10000円となる。 普通株C 100円 したがって、平均利回りは投資金額の加重平均なので 10×3000/10000+20×3000/100000+18×4000/10000=16.2(%)となる 購買株数 利率 20 10% 60 20% 40 18% 13 特殊な平均:調和平均 1995年から2002年までの各年度の実質経済成長率(GDP)は、1.6, 3.5, 1.8, -1.1, 0.7, 2.4, -0.6, 1.2(%)である。8年間の平均成長率を求める。 ヒント:初年度のGNPの値をY0とすれば、一定の成長率rの場合、n 年後は、Yn=Y0(1+r)n、またYn = Y0(1+r1)(1+r2)…(1+rn)なので、この 関係は幾何平均となっている {(1+0.016)×(1+0.035)×(1+0.018)×(1-0.011)×(1+0.007) ×(1+0.024)×(1-0.006)×(1+0.012)}1/8 =(1.016・1.035・1.018・0.989・1.007・1.024・0.994・1.012)1/8 14 ≒1.012なので 平均成長率は1.2% データの広がりとは? 調和平均(harmonic mean) いま全体でn個のデータ:x1, x2, x3,…, xnがあるとする。こ 範囲 四分位範囲 分散 標準偏差 の場合データの調和平均とは 逆数の平均値の逆数、0を含むデータには使えないが、外れ値に は強い。 ヒント:距離を L kmと考えて、所用時間を考えてみると、所要時間 =(L/a)+(L/b)時間、平均時速は、往復2L kmをその所用時間で 割ってあげれば良い。 16 四分位範囲と四分位偏差 四分位範囲 順番に並べたデータを4つに分割して、上から 1/ 4の点と下から1/4の点の差をとったもの 四分位範囲=第3四分位-第1四分位 外れ値や分布の歪みの影響を受けにくい 四分位偏差(quartile deviation) 四分位範囲の半分 四分位偏差:QD=(Q3-Q1)/2 ※四分位範囲=四分位偏差と定義している場合もある。 ※四分位点を拡張した十分位点やパーセント点なども存在 Q1:第1四分位数(25%点) Q2:第2四分位数=中央値(50%点) Q3:第3四分位数(75%点) 四分位範囲 範囲 中央値(Q2) Q3 バラツキ大 15 範囲(レンジ:range) 最大値(xmax)と最小値(xmin)の差をとったもの R = xmax - xmin 外れ値の影響を受けやすい。 四分位数(quartile)/四分位点 全体のデータを小さい順から並べた場合に、4等 分する位置の値 Q1 バラツキが小さい バラツキが 大きい 範囲と四分位数 バラツキ小 バラツキ中 ある区間を往復するのに、行きは時速a km、帰りは時速b kmとした場 合の平均時速は?(算術平均(a + b)/2ではありません!) データの広がり=データのバラツキの大きさ 17 Q1 中央値(Q2) Q3 18 3 平均偏差(絶対偏差) 分散(variance) 平均値と各データの差の絶対値の総和をデータ数で 割った値 各データxiの平均 からの隔たり(偏差) 分布の拡がりを、中心の値から各値までの距離(隔たり)の 平均で測る (全標本=母集団の)分散 なので、 (算術)平均と各データの差(=偏差)の二乗和を データ数で割った値(=二乗和の平均) データが平均からどの程度ちらばっているかを示す尺度 平均値や範囲の異なる分布のちらばりを同じ指標で比較 可能 全データを使う、1つの外れ値の影響は受けにくい 平均から離れた標本が多ければ分散は大きくなり(=ちら 絶対値を使うために、統計量として、他の統計量と数学的 ばりが大きい)、平均に近い標本が多ければ分散は小さい な関連を持たない →標本統計量から母集団統計量を推定するのに使えない 二乗和しているため、平均との距離の影響がより強く現れる。 19 20 不偏分散(unbiased variance) 分散(2) 不偏分散(標本の分散) 「データ数」でなく、「データ数」から1を引いた「自由度」で 割ったもの。標本データから母集団の分散を推定するとき はこちらを用いる。 度数分布表の各階級の代表値(階級値)から分散を 近似的に求めることが出来る。 標本統計量から母集団統計量を推定するのに使う xi(i=1,…, n)のデータに対して、k クラス(k=1,…, m)の階級 値を x’k、度数を fk とすれば 教科書によっては、(全標本の)分散を表す記号でsで利用 する場合もあるので、注意するように 自由度がn-1になるのかを理解するための例 21 標準偏差(standard deviation):Std. 変数が3つx1、x2、x3があり、平均値 x が決まっているとする。x1、x2の数値 は自由に決定出来るが、x3に関してはx3=x-x1-x2で確定してしまう。つまり 自由に決定できる変数の数(=自由度)が3-1=2となる 不偏標準偏差 標準偏差:分散の平方根 不偏標準偏差は、不偏分散の平方根:s 標準偏差はもっとも普通に使われるばらつきの指標 通常、論文や本や新聞などで標準偏差が発表されてい 要は、「各データの中心(=平均値)からの距離の平均」 る場合は、標本調査で得たデータ(=標本)から母集団 統計量を推定しているのが普通なので、わざわざ不偏と 書かれていなくても不偏標準偏差(s)が使われている場 合が多い。 基本的にs>であるが、nが大きくなるにつれて、2つの 値は近づいていく =平均的乖離幅 その対象がどの程度平均から離れているかという指標 分散は次元が異なるので、元の次元に戻す→標準偏差 次元:要は単位の一致のこと、例えば長さであれば、単位はm (メートル)であるが、分散の場合、単位がm2 (平方メートル)と元 の単位と異なることになる。平均の場合は、計算の結果で単位が 変わることはなく、単位はm (メートル)のままである。 22 23 24 4 変動係数(Coefficient of Variation) 標準偏差(分散)の性質(1) 相対的な分散度の指標として、標準偏差を平均で割 ることによって、実質的なデータのバラツキの大きさ を評価する尺度 標準偏差は、データの特殊性の度合いの評価基準 例えば、海面の水位が平均値とすると波の高さが標準偏 差であり、どのぐらい波が上下動しているかを示す。 標本標準偏差(不偏標準偏差)の場合 平均株価1000円で標準偏差10の株券Aと平均株価100円で標準偏差 10の株券Bのどちらの方がちらばり(変動)が大きかったと言えるか? 株券AのCV=0.01、株券BのCV=0.1であるので、株券Bの方が変動 が大きかったことが分かる。変動係数を用いることで、実質的なばらつ きの大きさを比較可能になる。 ※データの単位や大きさが異なっている場合も比較可能 ⇒標準偏差は「リスク」の大きさの指標とみなせる データ xi(i=1, 2,…, n)を、1次変換 axi+b (a, bは定 数)によって yi に変換するとき y = |a| x y2 = a2x2 となる(当然sでも成立する) 1次変換における定数項(b)が無関係⇒全てのデータから 一定値を引いたもので計算しても結果は同じ 25 標準偏差(分散)の性質(2) 標準偏差(変動係数)によって、あるデータの特殊性を評価可能 標準偏差は、ばらつきの大きさを示すので、ばらつきの小さい方が 予測し易い、つまり、外れる危険性(=リスク)が少ない 26 平均・分散の効率的な計算方法(1) 標準化(基準化) 平均値から標準偏差の何倍離れているか ⇒あるデータの全体のデータ内での位置 相対的な位置の比較が可能 ※標準化とは平均を0、分散を1にする一次変換 偏差値:標準変化量の1つの応用 平均を、1シグマを10に設定した標準化 x2 x12 x22 xn xn2 合計 Σxi Σxi2 平均 x=Σxi/n Σxi2/n 一般的な成績分布(正規分布)の場合 偏差値~(シグマ)で約、偏差値~(シグマ)で約 27 平均・分散の効率的な計算方法(2) x x1 x2 1 2 : n 28 参考:平均・分散の応用(1) 平均、分散との1次変換で定数項の影響を受けな いことから、仮の平均値を設定することで計算を 簡単にすることができる。 チェビシェフの不等式 平均値()と標準偏差()が分れば、どのような範囲にど れぐらいの割合のデータが含まれているか概略が分る 標本平均を含む区間{(- k)から(+ k)}に入らない 観測値の数は、全体の1/k2 以下である。 ただし k > 1。 例えば、102、105、97、101、98の平均、分散を計算する 時に、仮の平均として100を設定すれば、 仮の平均の100との差は2、5、-3、1、2となる。 平均:=(2+5-3+1-2)/5+100=100.6 分散:2=(22+52+(-3)2+12+(-2)2)/5-(3/5)2 =206/25=8.2 標準偏差:=2.87 と効率的に計算をすることが出来る 不等式で利用される区間を「kシグマ区間」と呼ぶ SQRT(2)シグマ区間外れるのは、含まれるのは(50%) 2シグマ区間外れるのは、含まれるのは(75%) 3シグマ区間外れるのは、含まれるのは() 29 SQRTは平方根(√)の意味 30 5 参考:平均・分散の応用(2) 参考:平均・分散の応用(3) ※チェビシェフの不等式は、かなり安全な方向で範囲を指定 している。実際には、平均付近にデータが集中している (≒正規分布)と考えられるので、以下のような大まかな 関係を利用しても構わない 株の配当や利息による利益⇒インカムゲイン 株の売買による利益⇒キャピタルゲイン(譲渡益) x ± 2/3(中央4/3)→約1/2(50%)、x ± (中央2)→約2/3(67%) x ± 2(中央4)→約95%、x ± 3(中央6)→約99~100% ⇒ (月次)平均収益率 チェビシェフの不等式から、 少なくとも50%の文章が720から1280文字の長さである(k = SQRT(2) の場合) 少なくとも75%の文章が600から1400文字の長さである(k = 2 の場合) 少なくとも88%の文章が400から1600文字の長さである(k = 3 の場合) ことが導かれる。 参考:平均・分散の応用(4) 平均収益率はあくまでも「平均」の値であり、予測に しか過ぎない。予測から外れる場合もある。 ⇒予測がどの程度ばらつくのか? ばらつき指標=標準偏差⇒リスクの指標とみなせる ボラティリティ(=Variability:変動性) リスクが同じであれば⇒収益率が高いほうを選択 ボラティリティが大きい=価格変動が大きい 「ボラティリティ」 として「標準偏差」 (リスク指標) 1981 1982 1983 1984 ローリスク・ローリターンとハイリスク・ハイリターンは、そ 平均 月次収益率 2.05 2.46 -1.33 2.04 -0.54 0.94 SD 5.35 9.11 5.91 5.98 5.71 6.74 れぞれセットになったもので、優越はないと考えられる。 1981年の場合、平均して約2.5%の収益をもたらすが、ボラティリティとして SDが9.11%、±1シグマ範囲(2.5-9.1%~2.5+9.1%⇒-6.6%~11.6%)に入 る確率が約67%である。つまり、-6.6%以上の損失を被る確率は約16%もあ る(逆に、+11.6%以上の利益を得る確率も約16%ある)。これはかなり高い 33 確率で、6.5%の損失を被ることもかなりあり得ることを示している。 参考:平均・分散の応用(6) 総合的に金融商品を評価するための指標として、収 益とリスクを組み合わせた指標で表現 ⇒シャープレシオ(SPM:Sharpe ratio) 34 参考:積率(モーメント:moment) シャープレシオ 分散 偏差の二乗和平均 歪度 偏差の三乗和平均 尖度 偏差の四乗和平均 ⇒積率(モーメント) ローリスク・ローリターンの商品とハイリスク・ハイリ ターンの商品を比較することは可能か? 一般に、収益率が高い製品はリスクも大きい 例:1980~84年の新日鉄株の月次収益率(%)とStd(%) 1980 株(金融商品)の総合評価はどうすれば良いのか 収益率が同じなら⇒リスクの小さいほうを選択 いての価格変動率 年 32 参考:平均・分散の応用(5) 資産価格の変動の激しさを表すパラメータ⇒ある銘柄につ ある銘柄が1ヶ月の間に何パーセント値上がりしたかを年12ヶ月 にわたってデータを収集し、その平均をとったもの 31 キャピタルゲインで利益を得るためには? 株価の売買で得られる利益が重要 例題:大量の文書があるとする。その文章の長さは平均1000 文字、 標準偏差は200文字であることがわかっている。 株で儲けるとは? 無リスク資産(例えば、国債の利回り)分を引くことで、その金融 商品の収益率を明確にする 分散の拡張概念と して一般化可能 x軸としてリスク(Std)(=分母がリスクの評価)、y軸として 収益(=分子がリターンの評価)の傾き(角度) ⇒角度が大きい(= SPMが大きい)程、優良な金融商品 異なるリスクやリターンの商品を統一的に比較可能 ローリスク・ローリターンの商品とハイリスク・ハイリターン の商品のSPMが同じ(xy平面上に点を取ると、同一直線 上に存在する)であれば、商品としての優越性はないが 性質が違うと見なすことができる 35 積率を使うと、分散、歪度、尖度が同一概念で表現可 能となる。さらに、一般的な分布の平均や分散を計算 36 する際にも必要(特にファイナンス系の人) 6