Comments
Description
Transcript
試し読みをする(1.66MB)
第2章 1変量データの まとめ方 本章では,記述統計の手法について説明します。具体的には,得られたデータから表やグ ラフを作成し,意昧のある統計量を算出する方法など,1 変量データのまとめ方について学 びます。 本章から理解を深めるための数式が出てきますが,必ずしも,これらの式を覚える必要は ありません。それぞれのデータの性質や統計量の意義を理解することが重要です。 2‐1 円グラフと棒グラフ 1 変量質的データをまとめる方法としてよく使われるグラフは,円グラフと棒グラフです。 まず,図 2.1 に,円グラフの例を示します。これは,学生に好きなスポーツを質問した際に 得られたデータをまとめた例です。 第2章 1変量データのまとめ方 57 図 2.1: 円グラフの例 一方,図 2.2.1 と図 2.2.2 の棒グラフの例は,各項目の割合を比較するだけでなく,デー タの度数(頻度)そのものを比較することができます。 知識編 第 章 2 図 2.2.1: 棒グラフの例 図 2.2.2: 棒グラフの例(降順) 円グラフと棒グラフは,状況に応じて使い分けます。円グラフは,項目数がそれほど多く ない場合に,各項目の割合を比較する際に有用です。割合の大小を直感的に理解できます。 一方,各項目の度数を比較したい場合や項目数が多い場合には,円グラフよりも棒グラフの ほうが適切です。 棒グラフの棒が高いものから低いものへと並ぶように,頻度順で降順に並び替えてグラフ 化することも多くの場合,有用です。このとき, 「その他」については, 「個別に頻度を計算 すると数が小さくなってしまう項目」を集めたものと考えられるので,各項目を降順に並べ 替えた後のいちばん最後に示すことが一般的です。 2‐2 度数分布表とヒストグラム 1 変量量的データをまとめる基本的な方法はヒストグラムであり,ヒストグラムを描くた めにデータを表形式でまとめたものを度数分布表といいます。一般に,調査や実験により得 られた量的データは,そのままでは数値の羅列にすぎません。まず最初に,これらの量的デ ータがどのようにばらついているのかを調べることが必要です。ここでは,ヒストグラムを 用いて量的データの分布を調べる方法について説明します。 日本人の 20 歳男性 120 人の身長(㎝)のデータが以下のように得られたとします。 165.3 166.2 181.0 183.9 162.3 177.5 … このような量的データに対しては,データの傾向をとらえるため,表 2.1 のような度数分 布表を作成します。度数分布表では,データを階級と呼ばれるいくつかのグループに分け, 1 1 1 22222と222122 2-2-1 度数分布表とヒストグラムの読み方 58 各階級に含まれるデータの個数(度数)を数えたものを表にします。各階級は,同じ幅を持 った区間で与えられ,階級の中心の値を階級値といいます。度数分布表を作成する手順は次 のとおりです。 表 2.1: 20 歳男性身長(㎝)の度数分布表 階級 階級値 度数 相対度数 累積度数 累積相対度数 150 ~ 155 152.5 1 0.008 1 0.008 155 ~ 160 157.5 5 0.042 6 0.050 160 ~ 165 162.5 16 0.133 22 0.183 165 ~ 170 167.5 35 0.292 57 0.475 170 ~ 175 172.5 32 0.267 89 0.742 175 ~ 180 177.5 19 0.158 108 0.900 180 ~ 185 182.5 9 0.075 117 0.975 185 ~ 190 187.5 3 0.025 120 1 計 — 120 1 — — Step 1 データの最大値,最小値を見つけ,データの範囲 R = 最大値 - 最小値を求める。 Step 2 階級値 c を決める。階級数は 10 程度に分けることが多いが,データ数に応じて c ≈ √n 程度を目安として決める 1。 Step 3 階級幅 w を,w ≈ R/c を目安として決める。ただし w は測定単位の整数倍となる ように調整する。 Step 4 階級を決める。もっとも小さい階級の下側境界値を「最小値から測定単位の半分を 引いた値」とし,ここから w ずつ加えていき,各階級の境界値を求める。このとき, 境界値が最大値 xmax より大きくなるまで階級を作る。 Step 5 各階級をもとに,データの度数を数え,度数分布表を作成する。 度数分布表は,各階級に含まれるデータが何個あるかという度数を表示しています。また, データの総数に対する度数の割合である相対度数は,データ数が異なる複数のデータを比較 する場合などに用います。さらに,度数,相対度数それぞれの累積値を累積度数,累積相対 度数と呼び,これらの値が有効な場合もあります。この度数分布表をグラフ化したものがヒ 第2章 1変量データのまとめ方 59 ストグラム(図 2.3)です。 “ ≈ ” という記号は,だいたいそのくらいの値という大よその等号を表しています。たとえば,階級幅は切りのよ い数字が望ましいので,R/c = 2.1623 のような場合,w ≈ 2.0 などとしてもよいでしょう。 1 知識編 第 章 2 図 2.3: ヒストグラム ヒストグラムは,その形状によりデータの分布を直感的に把握することができます。特に 以下の点について注目することが重要です。 1. 単峰形かそうでないか:得られたデータが一山形の分布(単峰形分布)であるのか,二 山,またはそれ以上のピークを持つ分布(多峰形分布)であるのかは重要な観点です (図 2.4) 。山が複数存在する多峰形の場合には,異なる性質を持つ複数のデータが混在 している可能性があるので,その原因を探る必要があります。 2. 対称かそうでないか:ヒストグラムが左右対称か非対称かは,この分布が第 7 章の検 定や推定で出てくる正規分布をあてはめてよいかどうかに通じます。分布が左右非対称 である場合,データの平均値が直観とは異なる値をとることもあるので注意が必要です。 3. 中心位置はどこか:データの中心位置を知ることは,統計解析における基本事項であり, ヒストグラムからおおよその中心を把握することができます。 4. ばらつきはどの程度か:データの中心と同時に,データのばらつきの程度を調べること は,もっとも基本的な事項の 1 つです。後述のばらつきを測る尺度と結び付けて,理 解するとよいでしょう。 5. 外れ値が存在するか:外れ値とは,ほかの大多数のデータとかけ離れた値を持つ観測値 のことをいいます(図 2.5) 。外れ値が存在する場合には,その原因を探求してみる必 要があります。外れ値が発生する原因はさまざまで,データの転記ミスといった場合も あれば,何かしらの重大な異常が隠されている場合もあります。外れ値が生じた原因を 2 2 22222222222222 探ることで,重要な発見につながる可能性があります。 60 図 2.4: 一山型と二山型のヒストグラム 図 2.5: 外れ値を含むデータに対するヒストグラム 2‐3 データの中心を表す統計量 データからなんらかの計算により得られた値のことを統計量と呼びます。統計量にはさま ざまな種類があり,データの持つ統計的性質を定量的に測る基準となります。ここでは,統 計量のなかでも,連続データの中心位置を表す統計量について解説します。 2-3-1 平均値 代表値のなかで,もっともよく用いられるのが平均値です。n 個の観測値 x1 ,x2 ,…,xn が与 x は次の式で計算されます。 えられたとすると,算術平均 ̄ 第2章 1変量データのまとめ方 61 この算術平均は,相加平均とも呼ばれ,日常的にもよく用いられる平均値です。ほかの種 類の平均値と区別するときには算術平均と呼ばれますが,単に平均値や平均と呼んだ場合に は,この算術平均を指していることが多くあります。また,統計解析において標本平均とい った場合も,この算術平均を指す場合がほとんどです。本書においても,単に平均値という 場合には算術平均を意昧するものとします。 知識編 第 章 2-3-2 中央値 2 ゆが 平均値は,外れ値が存在したり,分布が片方に歪んでいると,その影響を強く受けること が知られています。このような外れ値や分布の歪みに影響を受けにくい統計量として,中央 値(メジアン)があります。中央値は,データを大きさの順に並べたとき,ちょうど真ん中 にくる観測値で定義され,データが偶数個の場合は中央にくる 2 つの観測値の平均を中央値 とします。たとえば,以下の 10 個のデータが与えられた場合,中央値は(5 + 6) /2 = 5.5 となります。 1 2 2 3 5 6 8 9 9 50 一方,これらのデータの平均値を計算すると,9.5 になり,50 以外のすべてのデータは 平均値よりも小さいデータであることになります。これは平均値が外れ値の影響を受けやす いことを示しています。中央値は,上の例の 50 が 1000 になっても変わらず 5.5 となります。 2-3-3 最頻値 度数分布のなかでもっとも度数の大きい階級の階級値を最頻値(モード)といいます。た とえば,表 2.1 のデータであれば,最頻値は 167.5㎝ということになります。 離散データの分布であれば,もっとも頻度の高い値を特定できますが,連続データの場合 には同じ観測値が観測されないことが多いため,通常は上記のように階級値を使うしかあり ません。そのため,この場合の最頻値は,度数分布表の階級の作り方により変わることを認 識しておく必要があります。また,最頻値も外れ値の影響を受けにくい統計量であると言え るでしょう。 2-3-4 平均値・中央値・最頻値の関係 ヒストグラムを描いたときに,左右対称の単峰形分布であれば,平均値,中央値,最頻値 このグラフのように,ヒストグラムが左に偏った形状の場合,代表値の値は,最頻値<中央 値<平均値の順番になります。逆に右に偏った形状の場合は,最頻値>中央値>平均値とな り,平均値よりも中央値の方がデータの中心を表すのに適していると考えることもできます。 たとえば , 日本の社会人全体の収入の程度を把握するために,平均年収を用いるのが妥当 かどうか,という議論はよくあります。年収 5,000 万円以上という高額所得者がいる一方, マイナスの所得者はいませんから,左右非対称の分布になります。平均年収は,大多数の人 の年収より高めに出るので,中央値や最頻値を合わせて見るべきと言えます。 2 2 22222222222222 はほとんど値が変わりません。一方,分布が歪んでいる場合には,図 2.6 のようになります。 62