...

特別講義

by user

on
Category: Documents
18

views

Report

Comments

Transcript

特別講義
特別講義
統計の基礎
緒方裕光
国立保健医療科学院
統計学の基礎
緒方裕光
国立保健医療科学院
1. はじめに
現代社会では、あらゆる種類の「情報」が大量に溢れており、またそれらにアクセスす
ることも年々容易になってきている。このような状況にあって、情報の合理的な扱い方を
知っていることは、情報を有効利用するためだけでなく、不要な情報に惑わされないため
にもたいへん大きな意味を持っている。
一般に、情報は「文字」
、
「映像」
、
「図」
、「数値」などの媒体を通じて人々に伝わる。し
かし、私たちはこれらの情報の内容を必ずしも客観的に認識しているわけではない。多く
の場合、情報の内容はその受け手の主観(経験、知識、偏見など)に強く影響を受け、場
合によっては同じ情報がまったく異なる内容として認識される。このとき、もしすべての
種類の情報に対して共通に適用できる分析方法や解釈方法が存在するならば、このような
認識の違いは尐なくなるであろう。上述の情報の媒体の中で、数値で表された情報(以下、
数値データ)に関しては、すべての種類の数値データに対する共通の分析方法が、およそ
200 年の時間をかけて確立されてきた。その理論的基礎が統計学(あるいは数理統計学)
であり、具体的な解析方法が統計的方法である。数値データを情報として利用する際には、
多くの人にとってこの統計的方法は強力な道具となりうる。
一般に、私たちが数値データを拠りどころにして何らかの判断を行おうとするならば、
数値データが持っている「確かさ」(逆の表現をすれば「不確実性」)の程度が、その判断
の成否に大きな影響を与えることになる。数値データが持っている不確実性を客観的(数
量的)に評価するためには統計的方法は不可欠である。現実に、自然科学、人文科学など
の学問分野だけでなく政治、経済、社会、ビジネス、一般生活といった広い範囲で統計的
方法が用いられており、数値データの統計的解析は様々な予測や推定の根拠となっている。
統計学は、いうまでもなく数値データを取り扱う調査研究に頻繁に利用されている。そ
れと同時に、意識しているかどうかにかかわらず統計的方法は私たちの日常生活と深く関
係しており、その基本的考え方は私たちに多くの示唆を与えてくれる。統計学は数学と無
縁ではありえないが、以下では、できる限り数学的な記述を避けて統計学の基本について
簡単に概説する。
2. 統計学とは何か
統計学の定義に関しては、多くの統計学者による様々な見解がある。例えば、竹内啓
(1974)は、統計学はデータの科学、すなわち観測されたデータを解析するための一連の
科学的方法論であると述べている。統計学はデータを素材とする学問で、医学、生物学、
農学、工学、人類学といった自然科学系の領域はもちろんのこと、法律学、経済学、心理
学、教育学、社会学といった人文社会科学領域における研究においても不可欠なものであ
る。さらに、竹内は統計学的に捉えることができる現象の特質として次の 4 点を挙げてい
る。すなわち、1)具体性および現実性(現実に起こる具体的現象のみに注意を向ける)
、2)
操作性(対象を具体的現実的に捉え、それを数字で表現する)、3)変動性(対象を常に変
動的なものと捉える)
、4)傾向性(自然あるいは世界の現象の中にはある一定の傾向が存
在する)
、である。柳井晴夫(1999)は、統計学とは主観的事象をより客観的にするための
方法論であり、人々が人生を生きぬくための教養として広範囲の分野で身につけるべきで
あると主張している。いずれにしても、統計学とは数値データをどのように分析し、結果
をどのように解釈し、その結果からどのような判断を下すのか、といったことを議論する
学問であるといえる。
一例として、生物学分野における統計学の役割について述べてみよう。生物学的研究に
おける最も単純な観察は、生物の外観、解剖学的観察、顕微鏡による観察といったように
非数量的なものである。しかし、ある一定の観察結果がどのような条件のもとで得られる
のかを知りたいとき、同様の観察を何回か繰り返す必要がある。観察を繰り返すというこ
とは、すなわち複数の観察結果を得ることであり、同時に数値データ(例えば一定の条件
下で同じ観察結果が何回得られたか、など)を得ることにもなる。また、ある刺激に対す
る生体反応の有無を観察する場合、刺激量の程度と生体反応の強さをそれぞれ何らかの客
観的指標で表わすためには、
刺激と反応について数量的な関係を見出さなければならない。
このような定量的アプローチには統計学的方法が必須であり、それは生物学的に意味のあ
る現象やメカニズムを発見するためにはきわめて有効な手段となる。
また、
同じ条件下で繰り返し観測される数値データがいつも同じ値であるとは限らない。
すなわち数値データは常に変動性を伴っている。この数値データの変動については、その
原因が特定できる場合とできない場合がある。特定できる原因とは、例えば人為的に設定
された実験条件や観察対象に対する何らかの負荷要因、あるいは測定者や測定器による偏
向などである。一方、原因が特定できない変動は偶然変動と呼ばれることがある。偶然変
動は実験者には制御できないものであり、生物実験に限らず、厳密な物理実験や化学実験
などでも生じる。多くの研究において、数値データは偶然変動を含むとみなして統計的方
法が適用される。このような数値データの変動の原因を統計学的に探ることにより、観察
している現象に関する様々な結論を得ることができる。
統計学は、統計的方法そのものについて研究する独自の学問領域として成立していると
同時に、自然科学、杜会科学を問わず、様々な分野で問題解決のための方法論としての役
割を果たしている。さらに、例えば、農学分野で始まった実験計画法が他の分野でも普及
したように、統計学は異なる分野の科学を方法論的に結びつける媒体としての役割も持っ
ている。
3. 統計データ
実験や調査などの研究では、個々の観測結果に数値を対応させて表現することが多い。
このとき、個々のデータの集まりは、観測対象である集団に関する何らかの特性を表して
いる。このように集団の特性を表す一群の数値データを、一般に、統計データ(以下、デ
ータ)と呼んでいる。
1) データの尺度
個々の観測結果に 1 つの数値を対応させる基準を尺度という。尺度は、比尺度、間隔尺
度、順序尺度、名義尺度の 4 種類に分類され、それぞれ次のような特徴がある。比尺度(重
量、距離、絶対温度など)は絶対原点をもち(すなわち 0 に意味がある)
、データ間の「差」
や「比」に意味がある。間隔尺度(温度(℃)、テスト得点など)は絶対原点をもたず、デ
ータ間の「差」に意味はあるが「比」には意味がない。また、順序尺度(試験の順位、鉱
物の硬度など)は、数値の順序のみに意味がある。名義尺度(職業分類、図書分類番号な
ど)は、分類のための記号としてのみ意味がある。一般に、比尺度と間隔尺度は定量的な
特性を示す場合が多く、これらは量的データと呼ばれる。一方、順序尺度と名義尺度は定
性的な特性を示す場合が多く、これらは一般に質的データと呼ばれる。データの統計的解
析方法や数学的表現方法などは、これらのデータの種類に応じて異なる。
2) 連続量と離散量
データのとり得る数値が、例えば身長、体重などのように連続的である場合を連続量と
いい、サイコロを投げたときに出る目や世帯人員などのように非連続的である場合を離散
量という。連続量については、測定器具や観察方法が許す限りいくらでも小さい小数点以
下の値をとることが可能である。ただし、本来連続量であっても、ある桁以下を四捨五入
して、見かけ上離散量として表わされる場合もある。データが連続量であるか離散量であ
るかによって、
データに適用される分布の種類や分布の特徴を示す表現方法などが異なる。
3) データの集め方
データを集める方法は主に 3 つに分類される。すなわち、①実験、②調査、③既存資料、
である。実験とは、コントロールされた一定の条件下で、決められた手順にしたがい観察
を行う方法である。実験の条件と手順が同じであれば、追試によって同じような結果を再
現させることが可能である。実験には、いうまでもなく実験室内で行われる生物、物理、
化学などの実験が含まれるが、人間集団を対象として実験的研究を行うこともある(介入
研究など)。一方、現実に起こる様々な現象については観察条件をコントロールできないこ
とが多い。この場合は、人為的な条件設定を行わずに自然の状態をそのまま観察する調査
方法が用いられる。このような調査は一般に観察研究と呼ばれることがある。さらに、既
に実施された実験や調査の結果を用いて何らかの分析を行うこともある。このような既存
資料を 2 次データという。通常、2 次データは他人が行った実験や調査の結果であるため
に、方法や解釈の詳細が不明であったり、研究間で質の違いが存在したり、といった欠点
がある。しかし、過去に蓄積されたデータを有効に活用するという意味では、2 次データ
の解析の重要性は今後増してくるであろう。
4. 統計的方法
実験や調査において得られたデータは、何らかの法則性に従う集団現象の 1 つの実現値
とみなすことができる。多くの研究における最終目標はまさにその法則性の発見にある。
統計的方法とは、広い意味でデータの解析方法のことであり、その目的は、研究対象とな
る集団から得られたデータに基づいて、集団現象を記述し、さらにその法則性を推論する
ことにあるといえる。以下では、まず、①集団現象の記述方法(記述統計)について述べ、
さらに、統計的推論に必要な基本概念として、②母集団と標本との関係、③統計的推定、
④統計的検定、について簡単に述べる。
1) 記述統計
観察によって得られたデータの持つ情報を要約あるいは整理して、データの分布形や
様々な特性を調べる方法を記述統計という。一般にデータの整理方法は、①表の作成(度
数分布表、クロス集計表など)
、②グラフの作成(ヒストグラム、散布図など)、③指標の
算出(平均値、分散、標準偏差など)の 3 つに分類される。なお、データ全体を代表させ
る指標を代表値といい、平均値はこの代表値の 1 つである。代表値には他にも中央値、最
頻値などがある。また、分散、標準偏差はデータの広がりの程度を示す。
個々の観察対象者について、2 つの値が同時に得られる場合にも、同様に表(クロス集
計表など)
、グラフ(散布図、相関図など)、指標(相関係数など)によってデータの特徴
を記述できる。なお、相関係数は 2 つの変数間の直線的関係の強さを示す(必ずしも因果
関係を示すわけではない)。
2) 母集団と標本
実験や調査の際に、結論の対象となる集合あるいは集団を母集団といい、母集団の一部
で実際に観察される対象あるいはそのデータを標本という。また、母集団を構成する対象
者の数を母集団の大きさという。
同様に標本を構成する対象者の数を標本の大きさという。
大きさが有限である母集団を有限母集団といい、大きさが無限である母集団を無限母集団
という。調査研究においては、母集団全体を調査対象とすることを全数調査といい、標本
について調査する場合を標本調査という。有限母集団の場合には全数調査は可能であるが、
母集団が大きいときは標本調査が行われることが多い。
標本データに基づいて何らかの結論を下す場合、
その結論が母集団全体に及ぶためには、
標本が母集団からランダムに抽出されることが前提となる。例えば、母集団の個々の対象
者にそれぞれ番号を割り当て、乱数表などを用いて標本を抽出するといったような方法が
ある。標本データから母集団に関する推論を行う方法の理論的根拠は、日常われわれが何
らかの形で親しんでいる確率の考え方に基づいている。この確率の概念については 17 世紀
頃から体系化されてきており、その数学的理論は確率論とよばれている。統計的方法にお
いては、一般に集団現象の法則性は確率的なモデルにしたがっていると仮定されている。
3) 統計的推定
母集団と標本において、
「母集団の平均」と「標本の平均」とを区別するために、それぞ
れ母平均、標本平均と呼ぶことがある。その他、例えば母集団に関する分散、相関係数を
同様にそれぞれ母分散、母相関係数などと呼ぶことがある。母平均、母分散、母相関係数
などを総称して母数(またはパラメータ)という。標本データから算出される標本平均、
標本分散はそれぞれ母平均、母分散の推定値である。このように 1 つの推定値で母集団の
母数を推定することを点推定と呼ぶ。
母数を推定するもう 1 つの方法は、区間推定である。区間推定では、2 つの数値が定め
る 1 つの区間内に母数の値を含む確率が一定の値になるように表現する。例えば、母平均
が、ある 2 つの数値すなわち下限値(L)と上限値(U)の間に存在する確率が 95%である
とすると、この L 以上、U 以下の区間を 95%の信頼区間という。区間推定の意義は、その
推定がどの程度正確であるかを示すことにあり、とくに推定値を意思決定の根拠として利
用する場合には非常に重要である。
4) 統計的検定
母集団に関する何らかの仮説が正しいか否かを標本データから判断することを統計的検
定あるいは仮説検定という。仮説検定の手順としては、まず統計的仮説(2 つの仮説:帰
無仮説と対立仮説)を立て、どちらが正しいかを確かめるために標本データについて統計
的解析を行う。この解析の結果を統計的判断基準と比較することによって 2 つの仮説のう
ちどちらを採択するかを判断する。
仮説検定では、帰無仮説が正しいときにこれを正しくないと判定してしまう誤りを「第
1 種の誤り」といい、帰無仮説が正しくないときにこれを正しいと判定してしまう誤りを
「第 2 種の誤り」という。通常、第 1 種の誤りの起こる確率を一定の値(通常 5%または1%:
有意水準とよばれる)以下にして、第 2 種の誤りの起こる確率が最小になるように検定方
式を定めている。一般に仮説検定では、第 1 種の誤りを重視する。その理由は、仮説検定
の方法は、帰無仮説を検証することを第 1 の目的として定式化されているからである。な
お、統計的検定のための仮説は、一般の研究で用いられる作業仮説とは異なるので注意が
必要である。
5. おわりに
現実社会の諸現象を観察して得られる数値データには本質的に偶然性、不確実性といっ
た曖昧な要素が存在している。私たちは、そのような曖昧なデータに基づいて、常に何ら
かの意思決定や判断を行おうとしている。したがって、根拠となるデータの「曖昧さ」を
合理的に評価することができなければ、私たちの意思決定や判断が最善であるのかどうか
を認識することは困難である。
また、多くの研究において、観察された数値データと現象のメカニズムとを関係づける
ことが主目的の1つとなっている。しかし、すべての現象に関して因果関係が完璧に説明
されることがない限り、上記の曖昧な要素を無視することはできない。むしろ、現実に起
こる様々な現象を理解するうえでは、このような偶然性や不確実性を積極的に認識し、受
け入れていくこともきわめて重要である。
近年のコンピュータの普及に伴い、ソフトウェアを用いればほとんどの統計的計算が容
易に行われる。それだけに、統計学の本質を理解していなければ結果を正しく解釈できな
いし、場合によっては誤った結論が導かれることになる。自ら数値データを取り扱う場合
も、あるいは他人が行った数値データの解析結果を読み取る場合にも、いずれの場合にも
統計学的な考え方の基本を理解しておく必要がある。客観的な数値データが何らかの判断
の根拠として用いられる機会が多くなればなるほど、学問分野に限らずどのような分野に
おいても統計学の果たす役割は今後大きくなっていくであろう。
参考文献
1) Norman G.R., Streiner D.L. (中野正孝他訳).論文が読める!早わかり統計学:臨
床研究データを理解するためのエッセンス(第 2 版)
.東京:メディカル・サイエンス・
インターナショナル;2005.
2) 緒方裕光,柳井晴夫.統計学-基礎と応用-.京都:現代数学社;1999.
3) 繁桝算男,柳井晴夫,森敏昭編著.Q&A で知る統計データ解析.東京:サイエンス社;
1999.
4) 竹内啓.統計学の視点.東京:東洋経済新報社;1974.
5) 柳井晴夫,緒方裕光編著.SPSS による統計データ解析-医学・看護学、生物学、心理
学の例題による統計学入門-.京都:現代数学社;2006.
Fly UP