...

1 - JMP User Community

by user

on
Category: Documents
18

views

Report

Comments

Transcript

1 - JMP User Community
Copyright © 2015 SAS Institute Inc. All rights reserved.
JMPを用いた
大学院統計教育
北海道大学大学院医学研究科
医学統計学分野
伊藤 陽一
Copyright © 2015 SAS Institute Inc. All rights reserved.
指定教科書




Altman DG. 医学研究におけ
る実用統計学. サイエンティス
ト社. 1999.
医学研究者向けの生物統計
学の定番教科書
数式は少なめで、統計的な考
え方について解説している
難しい手法については、生物
統計学の専門家に相談する
ようにとなっている
講義の構成

統計解析の基礎(1単位)








1. 探索的データ解析 (1, 2, 3, 7章)(4/7)
2. 検証的データ解析 (5, 15章)(4/14)
3. 統計解析の原理 (8章) (4/21)
4. 統計解析ソフトJMPの使い方 (6章) (5/12)
5. 理論分布の利用 (4章) (5/19)
6. 連続データの群間比較 (9章) (5/26)
7. 分割表の解析 (10章) (6/2)
8. 信頼性データの解析と検査の特性 (14章) (6/9)
講義の構成

統計解析の応用(1単位)

1. 回帰分析と変数選択 (11, 12章) (6/16)

2. 一般線形モデルと対比 (9, 12章) (6/23)

3. ロジスティック回帰 (12章) (6/30)

4. 生存時間解析 (13章) (7/7)

5. ノンパラメトリック法 (第8章) (7/14)

6. サンプルサイズ設計 (15章) (7/21)

7. 多変量解析(12章) (8/4)
生物統計学の創始
データに基づいた科学
バラツキのあるものを測る
生物統計学とは

1901年 Galtonと共に
Biometrika誌を創刊


ダーウィンの進化論を
データに基づいて証明する
ために、生データと様々な
解析方法を提案
データに基づいた科学の
始まり (The Grammar of
Science)
Karl Pearson 1857-1936
ピアソンの発見



生物学の蓄積データのバラツキは、測定誤差と
いうより、そのデータそのものがある確率分布を
持っていることに気付いた。
鳥のくちばしの長さは、ある真の値があって、
我々の測定方法が未熟なために、計測値がばら
つくのではなく、同じだと考えられる鳥の集団の
中で、ある確率分布に従って分布している
計測するべきは、その分布の形状そのものでは
ないか?
ダーウィンとゴルトン
回帰(Regression)を発明
従兄弟
Charles Robert Darwin, 1809 - 1882
Francis Galton 1822 - 1911
ダーウィンが示せなかったこと

現存種のすべてはその環境によく「適応」したよ
うに見えるということは示したが、人類の歴史の
時間内に実際に発生した新しい種の例は示せな
かった。
ピアソンの構想


「新しく誕生した種と出会えるほど我々は長く生
きられないけれど、分布の四つの母数の変化を
見ることはできるだろう」
データの分布の特徴を表わす四つの母数


平均、標準偏差、歪度、尖度
最初の25年間にBiometrikaに掲載されたデータ



アフリカの原住民の脛骨と腓骨
中央アメリカの熱帯雨林の鳥のくちばしの長さ
古代の墓地から掘りおこされたヒトの頭蓋骨の容積
(デイヴィッド・サルツブルグ 2006)
ポッパーによる科学的研究方法
の図式
仮 説
理 論
新しいアイデアの創造
(啓発的推論)
推 論
理論の実証
探索的データ解析
演繹的推論
結 果
帰納的推論
実験計画
データ
(データの妥当性の確保)
(C・R ラオ 1993 一部改)
統計学的検証
バラツキのある事象を検証する
Fisher流の統計学

ロザムステッド農事試験
場での収量変動に関す
る研究に従事

「研究者のための統計的
方法」(1925)

「実験計画法」(1935)
Ronald A. Fisher 1890-1962
ロザムステッド農事試験場
Rothamsted Experimental Station
1843年 新しい人工肥料を
開発するために創設
・異なる無機塩と異なる小麦
ライ麦、大麦、ジャガイモの
栽培
・毎日の降水量と気温の測定
・週ごとの施肥状況と土壌の
記録
・年ごとの収穫量の記録
(c) OpenStreetMap contributors, CC-BY-SA 2.0
1919年 フィッシャー就任
http://www.openstreetmap.org/
Fisherに対する期待

90年もの間に蓄積された異なる無機塩の組み
合わせと異なる小麦、ライ麦、大麦、ジャガイモ
の生育データ、毎日の降水量と気温、週ごとの
施肥状況、土壌の記録、年ごとの収穫量の記録

ロザムステッド農事試験場のジョン・ラッセル卿
は、この膨大なデータを統計的に調べれば、
何かを見極められるだろうと考え、フィッシャーを
雇用した。
小麦の収量の年次変化の解析
1870年 初等教育法の制定
小学校教育の義務化
1876年 土壌と降水量では 1876年 雑草が多年草植物 1876年 小麦畑の雑草を抜く
説明できない収穫
となり繁茂した
幼い少年達を雇用
量の減少が始まる
できなくなる
1880年 減少に拍車がかかる
1894年 改善に転じる
1894年 雑草が突然減少 1894年 ロザムステッド近郊の
全寮制女子学校の
校長ジョン・ロウズ卿
体を丈夫にするため、
幼い少女たちに草取り
をさせる
1901年 再び減少に転じる 1901年 再び繁茂
1901年 ジョン・ロウズ卿死去
ロザムステッド農事試験場の
蓄積データの教訓

行きあたりばったりの実験からは、有益な情報を
引き出すことはできない

調べたい事柄を調べることができるように、実験
をする必要がある
実験計画法における
フィッシャーの三原則

局所管理



ランダム化


小麦の圃場を細かな小区画に分割する
日当たり、水はけ、土壌の状態が均一な区画を作る
局所管理された区画に対して、比較したい肥料や
小麦の品種の組み合わせをランダムに割り付ける
繰り返し測定

同一の組み合わせを、複数の区画に割り付ける
Fisherの3原則とその役割
Fisher’s three principles and its roles
反 復
replication
無作為化
randomization
局所管理
local control
誤差の評価
誤差の減少
evaluation of error
reduction of error
統計的判定
精度の向上
statistical decision
Improvement of precision
ポッパーによる科学的研究方法
の図式
仮 説
理 論
新しいアイデアの創造
(啓発的推論)
推 論
理論の実証
探索的データ解析
演繹的推論
結 果
帰納的推論
検証的データ解析
実験計画
データ
(データの妥当性の確保)
(C・R ラオ 1993 一部改)
現代統計学の構成
生物統計学
医
学
統
計
学
農
業
統
計
学
水
産
統
計
学
工
業
統
計
学
経
済
統
計
学
社
会
統
計
学
・・・
数理統計学
(Neyman-Pearson流の統計学)
ベ
イ
ズ
統
計
学
統計学の必要性
バラツキのある事象とは?
工業における品質管理との違い


工業における品質管理

目的:規格通りの製品を製造する

製品間のバラツキは排除すべきもの
医学における臨床研究

目的:よりよい治療法を探索する

よりよい治療法の治療効果は患者間のバラツキを
上回らなくてはならい

患者間のバラツキは排除できない
統計的手法の必要性
1円玉と5円玉の重さ
4
3.5
3
重さ
2.5
2
1.5
1
0.5
1円
5円
硬貨の種類
統計的手法の必要性
実薬およびプラセボ投与後のLDL
18 0
LDL (mg/d l)
17 0
16 0
15 0
14 0
13 0
12 0
プ ラ セボ
実薬
グループ
群間差とバラツキのバランス
4
18 0
3.5
17 0
LDL (mg/d l)
3
重さ
2.5
2
16 0
15 0
14 0
1.5
13 0
1
12 0
実薬
プ ラ セボ
0.5
1円
5円
硬貨の種類
S/N比
グループ
5円と1円の重さの平均の差
実薬とプラセボのLDLの平均の差
平均の差の標準誤差
平均の差の標準誤差
探索的データ解析
実際の授業内容の紹介
データの記述

Exploratory Data
Analysis (1977).

データに語らせる

箱ヒゲ図の導入
John Wilder Tukey (1915 -2000)
データの記述方法

ヒストグラム(Histogram)

箱ヒゲ図(Box-Whisker Plot)

幹葉表示(Stem and Leaf Plot)

積率(モーメント(Moment))

中央値と最頻値(Median & Mode)
データの紹介

「タイピングスコア」データ

3種類のタイプライターを使って、17人の
タイピストにタイプしてもらい、1分間あたりの
ワード数を計測したデータ

最も速くタイプできる機種はどれかを調べる
データ解析の準備

外れ値の確認



分布形状の確認


まずは入力ミスではないかどうかの確認
そうでない場合は、除外して解析するかどうかを
慎重に検討
必要があれば、データ変換
欠測値の確認

結果変数の欠測の有無と、重要な予後因子が
関連していないかどうかの確認
ヒストグラム (Histogram)
Note;
面積が頻度
に比例
タイプ速度(Word/min)
箱ヒゲ図 (Box-Whisker Plot)
四分位点範囲
(Inter-Quartile Range;IQR)
Note;
外れ値の探索に
便利
75%点
中央値(メディアン)
25%点
lQRの1.5倍の範囲
で 最も遠い観測点
外れ値 (Outlier)
IQRがバラツキ
の大きさに対応
中央値の線が箱の
中央になければ、
分布に歪みあり
幹葉表示 (Stem and Leaf Plot)
幹葉
8|7
8|01
7|779
7|0001223
6|668
6|12
Note;
分布の形状と生データを
同時に表示している
電車の時刻表;
どの時間帯に多いかが
遠くからでも分かり、
具体的な時刻は、近くに
行くと分かる
積率(モーメント(Moment))

ピアソンが測っていた分布の特徴を表わす母数
平均:
Mean
y

̂ 
i
n
標準偏差:
Standard
Deviation
ˆ 
ˆ
y


n

i
ˆ
歪度:
Sk 



n  1n  2  ˆ 
Skewness
尖度:
Kurtosis
2
ˆ
  yi   
n 1
3
nn  1
3n  1
 yi  ˆ 
ˆ
Ku 

 

n  1n  2n  3  ˆ  n  2n  3
4
2
歪度 (Skewness)
Sˆk  1.32  0
Sˆk  1.57  0
Note;
右に裾を引く
歪度が正
左に裾を引く
歪度が負
実用上は、-1から1の間
であれば、正規分布と
みなせる
尖度 (Kurtosis)
Kˆ u  1.91  0
Note;
外れ値がある場合
尖度が正
Kˆ u  1.11  0
ある範囲に一様に分布
している場合
尖度が負
実用上は、-1から1の間
であれば、正規分布と
みなせる
正規分位点プロット(Q-Q plot)
Φ
−1
𝑟𝑖
𝑁+1
ri i番目の観測値の順位
N 観測数
Φ-1 正規分布の累積分布
関数の逆関数
分布が正規分布に近いときには
赤い線上に観測値が並ぶ
正規性の確認に有用
平均、中央値、最頻値
Mean, Median and Mode
最頻値(Mode)
中央値(Median)
平均値(Mean)
右に裾を引く分布
のとき、
Mode<Median<
Meanの順になる
経験則として、
Mean-Median:
Median-Mode=
1:2となる
英和辞書における
各単語の位置と
一致
データ変換 (対数変換)
右に裾を引く分布のとき、
対数変換を行うと左右対
称に近くなる
Sˆk  1.25
Y
Sˆk  0.78
log10 Y 
データの95%存在範囲
を平均±1.96SDで要約
可能
平均±1.96SDまたは
平均±SDで分布を要約
することが妥当となる
変数間の関連性
変数間の関連性(Association)

関連性と因果関係



関連性があることだけでは、因果関係があることには
ならない (Hillの基準; Last 2000)
関連性がなくても、交絡因子によって関連がないよう
に見えるだけであり、本当は因果関係があるかもしれ
ない
関連性と相関関係(線形関係)

相関関係とは、線形関係のことであり、関連性の
ひとつの形に過ぎない
Hillの基準









45
1 関連の強さ(Strength of the association)
2 一貫性(Consistency)
3 時間的関係(Temporality)
4 生物学的用量反応勾配(Biological gradient)
5 特異性(Specificity)
6 生物学的妥当性(Biological plausibility)
7 整合性(Coherence)
8 実験(Experiment) ( Bradford Hill A: The Environment and Disease:
Association or Causation? Proc R Soc Med.
9 類似性(Analogy) 1965 May; 58(5): 295–300. )
変数の型

名義尺度




カテゴリカルな水準を
持つ変数で順序性が
あるもの(ex.がんのス
テージ)
連続尺度
2値
多値
計数

順序尺度


カテゴリカルな水準を
持つ変数で順序性が
ないもの(ex.地域、施設)



回数として計測される
連続値
生存時間

時間が測定値となるが
打ち切りの有無が同時
に観測される
統計解析手法の分類例
データの型/
解析の目的
2値
連続値
生存時間
time-to-event
分布の要約
頻度表
ヒストグラム
要約統計量
Kaplan-Meier法
2群間比較
χ2検定/Fisher直
接確率検定
t検定/Wilcoxon
検定
ログランク検定
多群間比較
分割表のχ2検定
分散分析
ログランク検定
予後因子の調整/
層別(化)調整
Cochran-MantelHaenszel法
分散分析
ログランク検定の
応用
統計モデル当てはめ
ロジスティック回帰
重回帰
Cox回帰
(臨床試験の進め方 p.75)
一般線形モデル
変数の型の組み合わせによる
解析方法の違い
結果変数(Y)
説明
変数
(X)
名義尺度
または
順序尺度
連続尺度
名義尺度または
順序尺度
連続尺度
分割表解析
(χ2検定
CMH検定)
t検定
分散分析
ロジスティック回帰
相関係数
回帰分析
ピアソンの相関係数
  0.816
 0

 x  x  y  y 
 x  x    y  y 
i
i
2
i
  0.816
直線関係のとき
1または-1をとる
2
i
Anscombe (1973)の例   0.816
散布図を
確認する
ことが重要
JMP実習の実演
Growth.jmp
実習を行う上でのポイント




データを可視化する
平滑化など探索的な解析方法を通して、関連性
を発見する
関連性を要約するためのデータ加工を行う
データを要約して、解釈する
実習風景
実習アンケート


n=16
他のソフトウェアの使用経験






EXCEL: 75%
R:
25%
SAS: 12.5%
SPSS: 12.5%
AMOS: 6.25%
STAT:
6.25%
実習アンケート結果(1)
使いやすさなど
解析ソフトウェアとし 解析結果は見やす
て使いやすいか?
いか?
習得時間は短いか?
実習アンケート結果(2)
実習について
実習は簡単か?
実習内容は理解で
きたか?
実習は役に立った
か?
統計解析実習におけるJMPの
有用性





サンプルデータが充実
データの可視化が容易
探索的データ解析手法が充実
計算式によって、新しい変数の作成が可能
JMPスクリプトによって、解析内容の保存、
再利用が可能
参考文献






大橋靖雄、荒川義弘 編. 臨床試験の進め方.南江堂.2006.
デイヴィッド・サルツブルグ. 統計学を拓いた異才たち. 日本経済新聞社.
2006.
C・R ラオ. 統計学とは何か. 丸善. 1993.
Last JM. 疫学辞典第3版. 日本公衆衛生協会. 2000.
Tukey, JW. Exploratory Data Analysis. Addison-Wesley. 1977.
Rothman, KJ., Greenland, S., Lash, TL. Modern Epidemiology 3rd ed.
Lippincott Williams &Wilkins. 2008.
Copyright © 2015 SAS Institute Inc. All rights reserved.
Fly UP