...

自主学習セミナー 統計処理の基本(2015.5.27)

by user

on
Category: Documents
14

views

Report

Comments

Transcript

自主学習セミナー 統計処理の基本(2015.5.27)
統計処理の基本
1.
データとブラウジング
2.
平均の差の検定
3.
相関と回帰
4.
その他の重要な知識
1. データとブラウジング
有効数字について
表現方法
例えば,1200mg/Lで,00が有効数字でないのなら、1.2g/Lと表現する。
(一般に,有効数字×103n の指数形式が適切)
計算
加減
結果を絶対値の大きい方の有効桁数に合わせる
例)最大有効桁位が小数点下第1位の場合
5.2 + 0.3471 = 5.2 + 0.35 (小数点第2位まで丸めて計算)
5.55 → 5.6
乗除
(結果を小数点第1位に丸める)
結果を有効桁の少ない方に合わせる
例)最小有効桁数が2桁の場合
5.2 × 0.3471 = 5.2 × 0.347 (有効桁数s3まで丸めて計算)
1.8044 → 1.8
(結果を有効桁数2に丸める)
数値と誤差
自然現象を測定した数値にはすべて誤差がある。
したがって、すべて統計的に評価する必要がある。
正規分布(平均と分散で形が決まる)モデルを使用
𝑓 𝑥 =
* 平均値 𝜇はデータを全部足して例数で割ったもの
1
2𝜋𝜎 2
𝑒
−
𝑥−𝜇 2
2𝜎2
* 分散 𝜎 2 は偏差平方和(データと平均値の差の二乗の総計,Σ(𝑥𝑖 − 𝑥)2 =
𝑆
𝑆𝑥𝑥 )を例数で割ったもの( 𝑛𝑥𝑥 )
* 分散の平方根をとると単位がデータと同じになり、データの分布を平均値か
らの距離(標準偏差,σ )で表現できる(平均 ± 標準偏差)
<標準偏差はその範囲に分布データの何%が含まれるかを示す
±1σ は約68%、 ±2σ は約95%>
* 平均値の分散
𝜎2
はデータの分散を例数で割ったもの( 𝑛 )
* 平均値の分散の平方根をとると単位が同じになり、平均値の分布を平均値か
らの距離(標準誤差,𝑆𝐸)で表現できる
正規分布では、分布の95%を含む区間は、 σの±1.96倍
しかし、実際の測定は標本に対して行われるので、
誤差(偏り)のある標本平均値𝑥を用いて分散を計算することになる
したがって、
分散の推定値には、平均値の誤差分を加えなければならない 。
2
𝜎 =
𝑆𝑥𝑥
𝑛
+
𝜎2
𝑛
𝑆
𝑥𝑥
= 𝑛−1
(不偏分散)
分散の式が異なるので、正規分布ではなく、自由度(𝑛 − 𝑝、 𝑝 は誤差
をもつパラメーターの数になる)によって変化する t 分布となる
( 95%を含む区間が異なる)。
例えば、自由度60の時、 約±2.00倍となる(t値)
信頼区間
誤差を含めた数値の評価
測定法の性能指標
→
数値の信頼区間を求める
CV(変動係数:coefficient of variance)を使う
𝑆𝐷
CV =
data
測定値100のCVが5%(0.05)の場合、𝑆𝐷 = CV × data = 0.05 × 100 = 5
2𝑆𝐷が10となるので約95%の信頼区間(data ± 2𝑆𝐷)は、90~110となる
例えば、臨床検査でよく使う項目のCVは、最近では1%以下であるが、
免疫学的測定法の低値域ではCV 10%まで上がることがあるの要注意
測定値100が4重測定の平均値であれば、信頼区間は、 data ± 2𝑆𝐸 となる
𝑆𝐷
ので、95~105となる( 𝑆𝐸 = 𝑛 = 2.5)
データの集計
データの分類
* 一意コード
* 一次データ
* 二次データ
* 補足データ
(ID・連番など、重複がない)
(未編集の生データ)
(変換や計算後の値)
(単位やコメントなど)
変数のタイプ
* 質的変数
* 量的変数
(名義尺度,分類)
(連続量,離散量,順位数)
一次データでは,元の精度を保持すること
(四捨五入、測定感度以下を0にする、などをしない)
欠損値の情報では理由を区別する
(測定せず、検出されず、測定範囲外、無効値など)
統計処理前にはデータ浄化
(エラーチェック,表現・単位の統一,データの圧縮,など)
一意コード
質的変数
量的変数
一次データ:TP, ALB, ZTT, CRP, WBC, St, Seg, Lym
二次データ:GLB, T.Neu, T.Lym
離散量:年齢
データのブラウジング:分布を見る
正規分布
対数正規分布
べき変換分布
正規分布を前提とした統計処理の場合、
正規分布に適合可能な分布は
前処理としてデータ変換を行う
Box-Cox変換
(𝑥 𝜆 −1)
𝑥′ = 𝜆
𝑥 ′ = 𝑙𝑜𝑔 𝑥
𝜆≠0
𝜆=0
データのブラウジング:箱ヒゲ図で見る
4分位偏差による表現
10 0
95%点など
75%点
50
中央値
25%点
0
5%点など
AST(U/L)
→
正規分布化(対数変換)
→
→
データの関連性のブラウジング:相関散布図
2. 平均の差の検定
プロローグ
そもそも2群の平均の差は明白
(ある男女対抗の競技大会で,平均点の高いチームの勝ちにする,というような場合)
知りたいのは,普遍的な事実 - 母集団での差
(この競技における平均点は男女どちらが高いのか,という一般的な問題を解く場合)
「部分的な事実」を用いて、「普遍的な事実」を知るためには,確
率論に基づく統計学を利用する。この場合、 「部分的な事実」は、母
集団から無作為に取り出した標本であるとの前提(標本理論)が必要
さらに、標本は,比較したいもの以外の因子がすべてランダム化され
ているかマッチングされていることが前提
(例えば、若い男性と高齢の女性との間で性差は論じられない)
ランダム化<保証がない>よりはマッチングのほうが現実的?
平均の差の検定 – 方法の原理
標本の平均値間には差があるが,母集団でも差があるとは限
らない(大小が逆かもしれない。そもそも分からない)
ので、確率的に「差がない」という可能性を否定することに
よって、逆に、観察されている差は一般化できると主張する
差がない可能性を完全に否定することはできないが、一定の
基準(危険率)を設定して、それより小さい場合には,差が
あるということを受け入れ、それ以上では,差がないという
可能性は捨てないでおこう(有意差なし)とします
危険率をどう決めるかは自由で、研究方法で明記すればいいが、多くの場合、5%
以下とすれば受け入れられるでしょう(内容次第ですが)
注意すべきは、
「有意差なし」が、「差がない」ということではない!
ということ
平均の差の検定 –
具体的な方法
平均値の差がその誤差の95%を含む区間よりも大きければ,
5%未満の危険率で差があると判定
差の誤差は、それぞれの平均値の分散を加算し(𝑆𝐸𝐴 2 + 𝑆𝐸𝐵 2)、その平方根
をとって求める。
有意差=平均値の差が誤差の95%を含む区間(誤差の1.96倍)よりも大
有意差が成立する不等式
𝜇𝐴 − 𝜇𝐵 >
𝑆𝐸𝐴 2 + 𝑆𝐸𝐵 2 × 1.96
標本を用いる場合は、誤差のある標本平均値𝑥を2つ用いているので、自由度
𝑛 − 2の t 分布となる。
有意差が成立する不等式
|𝑥𝐴 − 𝑥𝐵 | >
𝑆𝐸𝐴 2 + 𝑆𝐸𝐵 2 × 𝑡
平均の差の検定 –
具体的な方法(つづき)
実際のt検定
対応なしで、母分散が等しい(分散比で判定 → これは怪しい)とき
不偏分散は
𝑆𝑥𝑥𝐴 +𝑆𝑥𝑥𝐵
𝑛𝐴 +𝑛𝐵 −2
有意差の式は
|𝑥𝐴 − 𝑥𝐵 | >
自由度は
𝑛𝐴 + 𝑛𝐵 − 2
𝑆𝑥𝑥 +𝑆𝑥𝑥𝐵
𝐴
𝑛𝐴 +𝑛𝐵 −2
𝑛𝐴
+
𝑆𝑥𝑥 +𝑆𝑥𝑥𝐵
𝐴
𝑛𝐴 +𝑛𝐵 −2
𝑛𝐵
×𝑡
対応なしで、母分散が等しくない(不明の)とき(Welch法)
式は
自由度を近似
|𝑥𝐴 − 𝑥𝐵 | >
(𝑆𝐸𝐴 2 +𝑆𝐸𝐵 2 )2
(𝑆𝐸𝐴 2 )2 (𝑆𝐸𝐵 2 )2
+ 𝑛 −1
𝑛𝐴 −1
𝐵
𝑆𝐸𝐴 2 + 𝑆𝐸𝐵 2 × 𝑡
(有効自由度)
対応のある場合、
式は
|𝑥(𝐴−𝐵) | >
自由度は
𝑛−1
𝑆𝐸(𝐴−𝐵) 2 × 𝑡
平均の差の検定
- 解釈
𝑆𝑥𝑥
𝑆
分散 𝑛𝑥𝑥 は例数が増えてもあまり変わらないが,平均値の分散 𝑛𝑛
は分散を
さらにnで割っているため、例数を増やしていけばどんどん減っていく
つまり、
例数を増やせば p値もどんどん小さくなっていく。
差がないという可能性もどんどん減っていく。
逆に例数が少なすぎても(偶然に)有意差は出やすくなる。
有意差が得られただけでは、単に「差がある」とは言えても、
「意味のある差がある」とまでは言えていない。
したがって、「意味のある差がある」ことを言いたいのであれば、
* どの程度の差を「意味あるもの」と考えるのか
* そのためにはどれだけのサンプル数が適当なのか
ということを予め考えておくことが必要
平均の差の検定 –
有意かつ意味のある差
どの程度の差を意味あるもの(医学的な有意性)とするのかを決める
効果量 d = 意味ある平均の差 / 標準偏差の平均 を設定し、
𝛼 = 0.05 (第一種過誤確率) 、𝛽 = 0.2 (第二種過誤確率)<検出力 1 − 𝛽 = 0.8 >の時、
適当なサンプル数は,
𝛼
2
(
のときの𝑧値
+
𝛽のときの𝑧値)
𝑛1
𝑛1 = (1 + ) × 2
𝑛2
𝑑2
𝛼
2
(𝑛2 ≥ 𝑛1 ,片側検定では → 𝛼にする)
たとえばコレステロ−ル20mg/dLの差を意味あるものとし,標準偏差が30mg/dLと
20
𝑛
50mg/dLの集団を同数用いる場合,𝑑 = 40 = 0.5,𝑛1 = 1
2
ここで,α = 0.05 の場合の例数は,
n = (1 + 1)  (1.96 + 0.84)2 / 0.52 = 2  7.84 / 0.25 = 62.7
したがって63人ずつがよいということになる
→
この場合、有意差がなければ差がない(同等)と判断してよい
検出力の設定は研究の目的によって変わるが、
0.8(効果重視=通常はこれ), 0.5(中), 0.2(低=僅かな差でも重視)
群分けによる変動
補足:分散分析
データ全体を複数の群に分けた時に、群分けによる変動が、それ以外の誤差による変動
よりも大きいかどうかを検定する方法
方法:
分散比の検定(F検定)
分母は、誤差の分散(群ごとに平均偏差平方和を求めてすべて加え、全データ数-群の
数=自由度で割ったもの)
分子は、群分けの分散(各群の平均値を用いて偏差平方和を求め、群の数-1=自由度
で割ったもの)
平均値に差がなければ分散は等しくなる
3. 相関と回帰
複数の数値をセットでもつものをベクトルという
ベクトルは固有の方向を持つ
ベクトル間の方向の関係を相関性という
正相関(同方向)
逆相関(逆方向)
無相関(直交)
通常は相関する成分と無相関の成分に分けられる
相関する成分が多いほどベクトルどうしの関連性は強い
相関
まずひとつの数値だけを含む数(ふつうの数)どうしで考えると、
かけ合わせたものが+になれば同方向、-になれば逆方向、0になれば直交
それぞれ、正相関、負相関、無相関、に対応する
複数の数値の集まりではベクトルどうしのかけ合せで、結果の意味は同じなので
ベクトル間の掛け算(内積)で相関性を評価できる
𝒙 = [𝒙𝟏, 𝒙𝟐, 𝒙𝟑,∙∙∙, 𝒙𝒏 ]
𝒚 = [𝒚𝟏, 𝒚𝟐, 𝒚𝟑,∙∙∙, 𝒚𝒏 ]
𝒙 ∙ 𝒚 = 𝒙𝟏 ∙ 𝒚𝟏 + 𝒙𝟐 ∙ 𝒚𝟐 + 𝒙𝟑 ∙ 𝒚𝟑 +∙∙∙ +𝒙𝒏 ∙ 𝒚𝒏 = |𝒙||𝒚| cos 𝜽
ベクトルの方向が同じとき内積は+となる
ベクトルの方向が逆のとき内積は-となる
ベクトルが直交していると内積は0となる
正相関(全く同じときは
負相関(完全に逆向きは
無相関(cos𝜽 = 0 )
cos𝜽 = 1)
cos𝜽 = −1 )
内積を絶対値の積で標準化したもの(ベクトル間の余弦)
𝒙∙𝒚
𝑥 |𝑦|
= cos 𝜃
は要素が偏差値の場合に相関係数を表す
𝒙 = [(𝒙𝟏 −𝒙), (𝒙𝟐 − 𝒙), (𝒙𝟑 −𝒙), ⋯ , (𝒙𝒏 −𝒙)]
𝒚 = [(𝒚𝟏 −𝒚), (𝒚𝟐 − 𝒚), (𝒚𝟑 −𝒚), ⋯ , (𝒚𝒏 −𝒚)]
相関分析について - 方法と検定
母集団のモデルを正規分布とする − 標本の分布も正規性が必要
𝑆𝑥𝑦
Σ(𝑥𝑖 −𝑥)(𝑦𝑖 −𝑦)
標本相関係数は r =
=
2
2
𝑆𝑥𝑥 × 𝑆𝑦𝑦
<r =
Σ(𝑥𝑖 −𝑥) × Σ(𝑦𝑖 −𝑦)
𝑥と𝑦の共分散
𝑥の標準偏差 × 𝑦の標準偏差
>
分母と分子でnが消えています
相関係数検定方法の例:
無相関 0 の信頼限界より外に r があるかどうかを調べる
有意差となる不等式
𝑟>
(1−𝑟 2 )
×𝑡
𝑛−2
標本平均値がxとyに計2つあるので、自由度は𝑛 − 2となる
相関分析について - 回帰式
𝑦 = 𝑎𝑥 + 𝑏
(𝑎 =
𝑆𝑥𝑦
𝑆𝑥𝑥
, 𝑏 = 𝑦 − 𝑎𝑥)
一次線形回帰式とは,xに対応するyが,xの変化に対して直
線的に変化するというモデルで,
説明変数 x と応答変数 y (因果関係)が区別されていなけ
ればならない
年齢と体重の回帰式をつくる場合,年齢を応答変数にすることはできないのは
自明。
一方,学力試験で国語と数学の成績の関係をみるような場合は,相関関係は
あっても、どちらが説明変数でどちらが応答変数ということは言えない
応答変数を変動させる成分の中で説明変数が寄与する割合
は,決定係数 = r2 で表現される(r=0.5 なら0.25が寄与率で、
xはyの変動の25%に寄与していることとなる)
回帰式
―
注意点1
回帰式を一般化する場合の注意
* 回帰式に代入されて得た値 𝑦の信頼区間は平均値前後で最小となり,
平均値をはずれるほど広がっていく。
1
𝑛
𝑦 ± 𝑡 × (1 + +
(𝑥𝑖 −𝑥)2
)×
𝑆𝑥𝑥
𝑉𝑒
(信頼区間95%ではtは自由度n-1,α=0.05の時の値,Ve:残差の不偏分散 )
* 回帰式の作成に用いたデータ域をはずれた部分にまで回帰式が有効で
あるとは限らない(定義域内でのみ使用すべき)
* 回帰式の作成に用いたデータに対する過剰適合が生じている
回帰式で逆推定する場合の注意
例えば,濃度別の吸光度を測定した回帰式(検量線)では,吸光度yか
ら濃度xを求める(逆推定)作業が予定される
𝑦 −𝑏
* 𝑥 = 𝑖𝑎 として求めるのは,𝑟 = 1.0の時以外は正しくない
* 正確にはy の信頼区間についての下式をxについて解いてxの区間推定
を行う
1
𝑛
|𝑦𝑖 − 𝑎𝑥 − 𝑏 | ≤ 𝑡 × (1 + +
(𝑥𝑖 −𝑥)2
) × 𝑉𝑒
𝑆𝑥𝑥
体重( kg)
散布図 と回帰直線
95% 信頼区間
100
90
80
70
60
50
150
160
誤差はy軸方向のみ
(xとyに互換性はない)
信頼区間は
周辺で広がる
170 180 190
身長( cm
)
切片は最大化される
(過剰適合)
回帰式
―
多変量解析への発展
2つ以上の説明変数がある場合、応答変数のベクトルは,互いに独立な
(軸上にある)ベクトルの一次結合で表現できる → 重回帰式
𝑦 = 𝑎1 × 𝑥1 + 𝑎2 × 𝑥2 + 𝑎3 × 𝑥3 + 𝑎4
ただし、 𝑥1 ∙ 𝑥2 = 0 𝑥2 ∙ 𝑥3 = 0
𝑥1 ∙ 𝑥3 = 0
例えば、
赤血球数,フィブリノゲン,γ-globulinの変動が互いに独立とすると
血沈 = -0.2×赤血球数 + 0.17×フィブリノゲン + 20×γ-globulin+ 40
赤血球
γ-globulin
フィブリノゲン
血沈
多変量解析のいろいろ
supervised ― 学習系
重回帰分析
複数の説明変数の組み合わせによって応答変数を説明
<応答変数は量的変数>
判別分析
複数の説明変数を組み合わせて判別・分類のための式を作成する
<応答変数はカテゴリーなどの質的変数>
unsupervised ― 探索系
主成分分析
既知の変数を用いて(隠された)未知の応答変数を求める
因子分析
既知の変数に対して未知の説明変数(因子)による回帰を求める
因子分析(斜交解パターン行列)
因子1 因子2 因子3
Albumin
-0.295 -0.278
0.476
Globulin
0.896 0.092
0.063
ZTT
0.921 -0.178
0.000
CRP
0.019 0.777 -0.175
Neutrophil -0.092 0.774
0.192
Lymphocyte 0.166 0.132
0.884
クラスター分析
複数の変数を関連性の強さ(距離など)によってカテゴリーに分類する
<データセットに分類結果は未知で与えられていない>
回帰式
―
関数線形回帰
変数 → 関数
線形基底関数モデル
𝜔𝑖 φ𝑖 (𝑥)
𝑦𝑖 =
𝑖=0
φ𝑖 (𝑥):基底関数(多項式、ガウシアン、三角関数、Wavelet、など)
多項基底の場合
φ𝑖 𝑥 = 𝑥 𝑖
𝑦𝑖 = 𝜔0 + 𝜔1 𝑥 + 𝜔2 𝑥 2 + ⋯
係数の設定法:最小二乗法、最尤推定法
過剰適合の防止:正則化項(ペナルティ項)の追加
Lasso回帰、など
一般化線形モデル(GLM)
正規分布以外の分布も扱える線形回帰モデル(ロジスティック回帰、ポアソン回帰など)
多重ロジスティック回帰
線形回帰を確率(0~1の値域)で表現する
𝑝=
1
1 + 𝑒 − 𝛽0 +𝛽1 𝑥1 +𝛽2 𝑥2+∙∙∙+𝛽𝑛𝑥𝑛
量的変数・質的変数・交差変数(𝑥1 × 𝑥2 など)が混在できる!
多項ロジスティック回帰
応答変数が多群(3値以上)の場合
一般化線形混合モデル
サンプルごとに異なる値をとるランダム効果の関数𝛾を加えたモデル
𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 +∙∙∙ +𝛽𝑛 𝑥𝑛 + 𝛾1 + 𝛾2 +∙∙∙
4. その他の知識
①正規分布モデルが利用できない時
データが少なくて分布が不明
データが離散的で分布を当てはめ難い、などの場合
→ ノンパラメトリック法を用いる
データの数値をそのまま使用せず、順位をつけて、順位数を用いた擬似的な正規分布に
より検定する方法
比率の差のχ2検定
t検定 の代わりに
Wilcoxsonの順位和検定・U検定
分散分析(ANOVA) の代わりに
Kruskal-Wallis順位和検定
Pearson相関係数 の代わりに
SpearmanまたはKendallの順位相関係数
パラメーター(平均、分散)で処理できるものをパラメトリック法として区別する
ブートストラップ法とジャックナイフ法について
標本から再サンプリングし、分布のパラメーターを推定する方法
ブートストラップ法は重複を許した同じケース数の復元サンプリングを繰り返す
ジャックナイフ法はケースを除きながらサンプリングを繰り返す
②モデルの最適化(最尤推定法と情報量基準)
尤度:観測されたデータの確率モデルへの適合度
各観測データの確率モデルにおける確率の積で計算
最尤推定:尤度を最大にするようなモデル(確率分布)とそのパラメーターを求めること
尤度関数 𝐿 𝜃 = 𝑓 𝑥𝑖 𝜃 を最大にする𝜃を求めること(データ𝑥𝑖 は定数扱い)
実際の計算では、両辺の自然対数をとって𝑙𝑛 𝐿 𝜃 = 𝑙𝑛 𝑓(𝑥𝑖 |𝜃)
最尤推定は、対数尤度関数を最大(≦0)にする𝜃を求めることと等価
解析的には対数尤度関数を偏微分した式を0とおいて𝜃を求める
モデルが正規分布の場合(𝜃は2つ)、最尤推定値は観測データの平均と分散になる
数値計算的には、Newton-Raphson法、EMアルゴリズム、MCMC法など
参考)ベイズ推定は事前確率を尤度で補正して事後確率を求める
最適モデルの選択:
赤池の情報量基準𝐴𝐼𝐶 = −2 × (𝑙𝑛 𝐿 − 𝑝)、𝑙𝑛 𝐿は最大対数尤度、𝑝は自由パラメーターの数
(平均対数尤度の近似値、尤度とパラメーター数のトレードオフで最適なモデルを評価)
𝐴𝐼𝐶が小さい値を示すほうのモデルを選ぶ
応用例
重回帰式の変数選択、統計モデルの比較、など
③ベイズ推論による臨床診断
Bayesの公式の確率𝑝をオッズ 𝑜 = 𝑝
1−𝑝
にして式を書きかえると
例1:胸痛患者が心筋梗塞である確率
事前確率 0.1(胸痛患者における心筋梗塞の確率)の時、Odds ≒ 0.11
<事前確率の情報がなければ主観的確率でもよい>
所見
LR+
LR男性
あり
1.3
60才以上
50才
0.8
刺すような痛み
なし
1.3
胸壁の圧痛
なし
1.3
ニトログリセン効果
なし
1.1
発汗
なし
0.7
頸動脈の怒張
なし
0.9
第III音聴取
なし
0.9
ECG:ST上昇
なし
0.6
ECG:ST低下
あり
4.5
ECG:非特異的ST変化
なし
1.5
ECG:T波の逆転
あり
2.2
<各LR値はMcGee, Evidence-Based Physical Diagnosisによる>
事前Odds(=0.11)× ∏LR(=9.77) = 1.0747(事後オッズ)
事後確率は、Odds/(1+Odds) = 0.518となる
例2:意識障害が脳病変によるものかそれ以外(代謝性など)か
事前確率0.5とし、血圧が120以下の場合LR-は0.2なので、事後確率は0.17で脳病変は否定的
④傾向スコア
ランダムな割り当てができない状況で、関心ある変数の差を検討する場合(観察研究)に
複数の共変量(交絡因子)を1変数に集約し、この変数を用いて、マッチング・層化・重み
づけを行う
Ex. ある薬の投与群と非投与群において、差を検討する場合、
割り当て変数z(投与群=1と非投与群=0)
年齢・性別・体重・・・・・などの複数の共変量xiでzを説明するモデルを作成し、
例ごとの傾向スコアを得る
→ ロジスティック回帰がよく用いられる
マッチング
2つの群で傾向スコアの等しいまたは近いペアで差を求め、その平均を検定する
(傾向スコアの差の合計を最小化するように設定する、例数の少ない方は重複使用する)
層化
傾向スコアを複数の層(5など)に分類し、そのクラス間で平均の差を検定する
重みづけ
傾向スコアの逆数で補正する
Fly UP