Comments
Description
Transcript
自主学習セミナー 統計処理の基本(2015.5.27)
統計処理の基本 1. データとブラウジング 2. 平均の差の検定 3. 相関と回帰 4. その他の重要な知識 1. データとブラウジング 有効数字について 表現方法 例えば,1200mg/Lで,00が有効数字でないのなら、1.2g/Lと表現する。 (一般に,有効数字×103n の指数形式が適切) 計算 加減 結果を絶対値の大きい方の有効桁数に合わせる 例)最大有効桁位が小数点下第1位の場合 5.2 + 0.3471 = 5.2 + 0.35 (小数点第2位まで丸めて計算) 5.55 → 5.6 乗除 (結果を小数点第1位に丸める) 結果を有効桁の少ない方に合わせる 例)最小有効桁数が2桁の場合 5.2 × 0.3471 = 5.2 × 0.347 (有効桁数s3まで丸めて計算) 1.8044 → 1.8 (結果を有効桁数2に丸める) 数値と誤差 自然現象を測定した数値にはすべて誤差がある。 したがって、すべて統計的に評価する必要がある。 正規分布(平均と分散で形が決まる)モデルを使用 𝑓 𝑥 = * 平均値 𝜇はデータを全部足して例数で割ったもの 1 2𝜋𝜎 2 𝑒 − 𝑥−𝜇 2 2𝜎2 * 分散 𝜎 2 は偏差平方和(データと平均値の差の二乗の総計,Σ(𝑥𝑖 − 𝑥)2 = 𝑆 𝑆𝑥𝑥 )を例数で割ったもの( 𝑛𝑥𝑥 ) * 分散の平方根をとると単位がデータと同じになり、データの分布を平均値か らの距離(標準偏差,σ )で表現できる(平均 ± 標準偏差) <標準偏差はその範囲に分布データの何%が含まれるかを示す ±1σ は約68%、 ±2σ は約95%> * 平均値の分散 𝜎2 はデータの分散を例数で割ったもの( 𝑛 ) * 平均値の分散の平方根をとると単位が同じになり、平均値の分布を平均値か らの距離(標準誤差,𝑆𝐸)で表現できる 正規分布では、分布の95%を含む区間は、 σの±1.96倍 しかし、実際の測定は標本に対して行われるので、 誤差(偏り)のある標本平均値𝑥を用いて分散を計算することになる したがって、 分散の推定値には、平均値の誤差分を加えなければならない 。 2 𝜎 = 𝑆𝑥𝑥 𝑛 + 𝜎2 𝑛 𝑆 𝑥𝑥 = 𝑛−1 (不偏分散) 分散の式が異なるので、正規分布ではなく、自由度(𝑛 − 𝑝、 𝑝 は誤差 をもつパラメーターの数になる)によって変化する t 分布となる ( 95%を含む区間が異なる)。 例えば、自由度60の時、 約±2.00倍となる(t値) 信頼区間 誤差を含めた数値の評価 測定法の性能指標 → 数値の信頼区間を求める CV(変動係数:coefficient of variance)を使う 𝑆𝐷 CV = data 測定値100のCVが5%(0.05)の場合、𝑆𝐷 = CV × data = 0.05 × 100 = 5 2𝑆𝐷が10となるので約95%の信頼区間(data ± 2𝑆𝐷)は、90~110となる 例えば、臨床検査でよく使う項目のCVは、最近では1%以下であるが、 免疫学的測定法の低値域ではCV 10%まで上がることがあるの要注意 測定値100が4重測定の平均値であれば、信頼区間は、 data ± 2𝑆𝐸 となる 𝑆𝐷 ので、95~105となる( 𝑆𝐸 = 𝑛 = 2.5) データの集計 データの分類 * 一意コード * 一次データ * 二次データ * 補足データ (ID・連番など、重複がない) (未編集の生データ) (変換や計算後の値) (単位やコメントなど) 変数のタイプ * 質的変数 * 量的変数 (名義尺度,分類) (連続量,離散量,順位数) 一次データでは,元の精度を保持すること (四捨五入、測定感度以下を0にする、などをしない) 欠損値の情報では理由を区別する (測定せず、検出されず、測定範囲外、無効値など) 統計処理前にはデータ浄化 (エラーチェック,表現・単位の統一,データの圧縮,など) 一意コード 質的変数 量的変数 一次データ:TP, ALB, ZTT, CRP, WBC, St, Seg, Lym 二次データ:GLB, T.Neu, T.Lym 離散量:年齢 データのブラウジング:分布を見る 正規分布 対数正規分布 べき変換分布 正規分布を前提とした統計処理の場合、 正規分布に適合可能な分布は 前処理としてデータ変換を行う Box-Cox変換 (𝑥 𝜆 −1) 𝑥′ = 𝜆 𝑥 ′ = 𝑙𝑜𝑔 𝑥 𝜆≠0 𝜆=0 データのブラウジング:箱ヒゲ図で見る 4分位偏差による表現 10 0 95%点など 75%点 50 中央値 25%点 0 5%点など AST(U/L) → 正規分布化(対数変換) → → データの関連性のブラウジング:相関散布図 2. 平均の差の検定 プロローグ そもそも2群の平均の差は明白 (ある男女対抗の競技大会で,平均点の高いチームの勝ちにする,というような場合) 知りたいのは,普遍的な事実 - 母集団での差 (この競技における平均点は男女どちらが高いのか,という一般的な問題を解く場合) 「部分的な事実」を用いて、「普遍的な事実」を知るためには,確 率論に基づく統計学を利用する。この場合、 「部分的な事実」は、母 集団から無作為に取り出した標本であるとの前提(標本理論)が必要 さらに、標本は,比較したいもの以外の因子がすべてランダム化され ているかマッチングされていることが前提 (例えば、若い男性と高齢の女性との間で性差は論じられない) ランダム化<保証がない>よりはマッチングのほうが現実的? 平均の差の検定 – 方法の原理 標本の平均値間には差があるが,母集団でも差があるとは限 らない(大小が逆かもしれない。そもそも分からない) ので、確率的に「差がない」という可能性を否定することに よって、逆に、観察されている差は一般化できると主張する 差がない可能性を完全に否定することはできないが、一定の 基準(危険率)を設定して、それより小さい場合には,差が あるということを受け入れ、それ以上では,差がないという 可能性は捨てないでおこう(有意差なし)とします 危険率をどう決めるかは自由で、研究方法で明記すればいいが、多くの場合、5% 以下とすれば受け入れられるでしょう(内容次第ですが) 注意すべきは、 「有意差なし」が、「差がない」ということではない! ということ 平均の差の検定 – 具体的な方法 平均値の差がその誤差の95%を含む区間よりも大きければ, 5%未満の危険率で差があると判定 差の誤差は、それぞれの平均値の分散を加算し(𝑆𝐸𝐴 2 + 𝑆𝐸𝐵 2)、その平方根 をとって求める。 有意差=平均値の差が誤差の95%を含む区間(誤差の1.96倍)よりも大 有意差が成立する不等式 𝜇𝐴 − 𝜇𝐵 > 𝑆𝐸𝐴 2 + 𝑆𝐸𝐵 2 × 1.96 標本を用いる場合は、誤差のある標本平均値𝑥を2つ用いているので、自由度 𝑛 − 2の t 分布となる。 有意差が成立する不等式 |𝑥𝐴 − 𝑥𝐵 | > 𝑆𝐸𝐴 2 + 𝑆𝐸𝐵 2 × 𝑡 平均の差の検定 – 具体的な方法(つづき) 実際のt検定 対応なしで、母分散が等しい(分散比で判定 → これは怪しい)とき 不偏分散は 𝑆𝑥𝑥𝐴 +𝑆𝑥𝑥𝐵 𝑛𝐴 +𝑛𝐵 −2 有意差の式は |𝑥𝐴 − 𝑥𝐵 | > 自由度は 𝑛𝐴 + 𝑛𝐵 − 2 𝑆𝑥𝑥 +𝑆𝑥𝑥𝐵 𝐴 𝑛𝐴 +𝑛𝐵 −2 𝑛𝐴 + 𝑆𝑥𝑥 +𝑆𝑥𝑥𝐵 𝐴 𝑛𝐴 +𝑛𝐵 −2 𝑛𝐵 ×𝑡 対応なしで、母分散が等しくない(不明の)とき(Welch法) 式は 自由度を近似 |𝑥𝐴 − 𝑥𝐵 | > (𝑆𝐸𝐴 2 +𝑆𝐸𝐵 2 )2 (𝑆𝐸𝐴 2 )2 (𝑆𝐸𝐵 2 )2 + 𝑛 −1 𝑛𝐴 −1 𝐵 𝑆𝐸𝐴 2 + 𝑆𝐸𝐵 2 × 𝑡 (有効自由度) 対応のある場合、 式は |𝑥(𝐴−𝐵) | > 自由度は 𝑛−1 𝑆𝐸(𝐴−𝐵) 2 × 𝑡 平均の差の検定 - 解釈 𝑆𝑥𝑥 𝑆 分散 𝑛𝑥𝑥 は例数が増えてもあまり変わらないが,平均値の分散 𝑛𝑛 は分散を さらにnで割っているため、例数を増やしていけばどんどん減っていく つまり、 例数を増やせば p値もどんどん小さくなっていく。 差がないという可能性もどんどん減っていく。 逆に例数が少なすぎても(偶然に)有意差は出やすくなる。 有意差が得られただけでは、単に「差がある」とは言えても、 「意味のある差がある」とまでは言えていない。 したがって、「意味のある差がある」ことを言いたいのであれば、 * どの程度の差を「意味あるもの」と考えるのか * そのためにはどれだけのサンプル数が適当なのか ということを予め考えておくことが必要 平均の差の検定 – 有意かつ意味のある差 どの程度の差を意味あるもの(医学的な有意性)とするのかを決める 効果量 d = 意味ある平均の差 / 標準偏差の平均 を設定し、 𝛼 = 0.05 (第一種過誤確率) 、𝛽 = 0.2 (第二種過誤確率)<検出力 1 − 𝛽 = 0.8 >の時、 適当なサンプル数は, 𝛼 2 ( のときの𝑧値 + 𝛽のときの𝑧値) 𝑛1 𝑛1 = (1 + ) × 2 𝑛2 𝑑2 𝛼 2 (𝑛2 ≥ 𝑛1 ,片側検定では → 𝛼にする) たとえばコレステロ−ル20mg/dLの差を意味あるものとし,標準偏差が30mg/dLと 20 𝑛 50mg/dLの集団を同数用いる場合,𝑑 = 40 = 0.5,𝑛1 = 1 2 ここで,α = 0.05 の場合の例数は, n = (1 + 1) (1.96 + 0.84)2 / 0.52 = 2 7.84 / 0.25 = 62.7 したがって63人ずつがよいということになる → この場合、有意差がなければ差がない(同等)と判断してよい 検出力の設定は研究の目的によって変わるが、 0.8(効果重視=通常はこれ), 0.5(中), 0.2(低=僅かな差でも重視) 群分けによる変動 補足:分散分析 データ全体を複数の群に分けた時に、群分けによる変動が、それ以外の誤差による変動 よりも大きいかどうかを検定する方法 方法: 分散比の検定(F検定) 分母は、誤差の分散(群ごとに平均偏差平方和を求めてすべて加え、全データ数-群の 数=自由度で割ったもの) 分子は、群分けの分散(各群の平均値を用いて偏差平方和を求め、群の数-1=自由度 で割ったもの) 平均値に差がなければ分散は等しくなる 3. 相関と回帰 複数の数値をセットでもつものをベクトルという ベクトルは固有の方向を持つ ベクトル間の方向の関係を相関性という 正相関(同方向) 逆相関(逆方向) 無相関(直交) 通常は相関する成分と無相関の成分に分けられる 相関する成分が多いほどベクトルどうしの関連性は強い 相関 まずひとつの数値だけを含む数(ふつうの数)どうしで考えると、 かけ合わせたものが+になれば同方向、-になれば逆方向、0になれば直交 それぞれ、正相関、負相関、無相関、に対応する 複数の数値の集まりではベクトルどうしのかけ合せで、結果の意味は同じなので ベクトル間の掛け算(内積)で相関性を評価できる 𝒙 = [𝒙𝟏, 𝒙𝟐, 𝒙𝟑,∙∙∙, 𝒙𝒏 ] 𝒚 = [𝒚𝟏, 𝒚𝟐, 𝒚𝟑,∙∙∙, 𝒚𝒏 ] 𝒙 ∙ 𝒚 = 𝒙𝟏 ∙ 𝒚𝟏 + 𝒙𝟐 ∙ 𝒚𝟐 + 𝒙𝟑 ∙ 𝒚𝟑 +∙∙∙ +𝒙𝒏 ∙ 𝒚𝒏 = |𝒙||𝒚| cos 𝜽 ベクトルの方向が同じとき内積は+となる ベクトルの方向が逆のとき内積は-となる ベクトルが直交していると内積は0となる 正相関(全く同じときは 負相関(完全に逆向きは 無相関(cos𝜽 = 0 ) cos𝜽 = 1) cos𝜽 = −1 ) 内積を絶対値の積で標準化したもの(ベクトル間の余弦) 𝒙∙𝒚 𝑥 |𝑦| = cos 𝜃 は要素が偏差値の場合に相関係数を表す 𝒙 = [(𝒙𝟏 −𝒙), (𝒙𝟐 − 𝒙), (𝒙𝟑 −𝒙), ⋯ , (𝒙𝒏 −𝒙)] 𝒚 = [(𝒚𝟏 −𝒚), (𝒚𝟐 − 𝒚), (𝒚𝟑 −𝒚), ⋯ , (𝒚𝒏 −𝒚)] 相関分析について - 方法と検定 母集団のモデルを正規分布とする − 標本の分布も正規性が必要 𝑆𝑥𝑦 Σ(𝑥𝑖 −𝑥)(𝑦𝑖 −𝑦) 標本相関係数は r = = 2 2 𝑆𝑥𝑥 × 𝑆𝑦𝑦 <r = Σ(𝑥𝑖 −𝑥) × Σ(𝑦𝑖 −𝑦) 𝑥と𝑦の共分散 𝑥の標準偏差 × 𝑦の標準偏差 > 分母と分子でnが消えています 相関係数検定方法の例: 無相関 0 の信頼限界より外に r があるかどうかを調べる 有意差となる不等式 𝑟> (1−𝑟 2 ) ×𝑡 𝑛−2 標本平均値がxとyに計2つあるので、自由度は𝑛 − 2となる 相関分析について - 回帰式 𝑦 = 𝑎𝑥 + 𝑏 (𝑎 = 𝑆𝑥𝑦 𝑆𝑥𝑥 , 𝑏 = 𝑦 − 𝑎𝑥) 一次線形回帰式とは,xに対応するyが,xの変化に対して直 線的に変化するというモデルで, 説明変数 x と応答変数 y (因果関係)が区別されていなけ ればならない 年齢と体重の回帰式をつくる場合,年齢を応答変数にすることはできないのは 自明。 一方,学力試験で国語と数学の成績の関係をみるような場合は,相関関係は あっても、どちらが説明変数でどちらが応答変数ということは言えない 応答変数を変動させる成分の中で説明変数が寄与する割合 は,決定係数 = r2 で表現される(r=0.5 なら0.25が寄与率で、 xはyの変動の25%に寄与していることとなる) 回帰式 ― 注意点1 回帰式を一般化する場合の注意 * 回帰式に代入されて得た値 𝑦の信頼区間は平均値前後で最小となり, 平均値をはずれるほど広がっていく。 1 𝑛 𝑦 ± 𝑡 × (1 + + (𝑥𝑖 −𝑥)2 )× 𝑆𝑥𝑥 𝑉𝑒 (信頼区間95%ではtは自由度n-1,α=0.05の時の値,Ve:残差の不偏分散 ) * 回帰式の作成に用いたデータ域をはずれた部分にまで回帰式が有効で あるとは限らない(定義域内でのみ使用すべき) * 回帰式の作成に用いたデータに対する過剰適合が生じている 回帰式で逆推定する場合の注意 例えば,濃度別の吸光度を測定した回帰式(検量線)では,吸光度yか ら濃度xを求める(逆推定)作業が予定される 𝑦 −𝑏 * 𝑥 = 𝑖𝑎 として求めるのは,𝑟 = 1.0の時以外は正しくない * 正確にはy の信頼区間についての下式をxについて解いてxの区間推定 を行う 1 𝑛 |𝑦𝑖 − 𝑎𝑥 − 𝑏 | ≤ 𝑡 × (1 + + (𝑥𝑖 −𝑥)2 ) × 𝑉𝑒 𝑆𝑥𝑥 体重( kg) 散布図 と回帰直線 95% 信頼区間 100 90 80 70 60 50 150 160 誤差はy軸方向のみ (xとyに互換性はない) 信頼区間は 周辺で広がる 170 180 190 身長( cm ) 切片は最大化される (過剰適合) 回帰式 ― 多変量解析への発展 2つ以上の説明変数がある場合、応答変数のベクトルは,互いに独立な (軸上にある)ベクトルの一次結合で表現できる → 重回帰式 𝑦 = 𝑎1 × 𝑥1 + 𝑎2 × 𝑥2 + 𝑎3 × 𝑥3 + 𝑎4 ただし、 𝑥1 ∙ 𝑥2 = 0 𝑥2 ∙ 𝑥3 = 0 𝑥1 ∙ 𝑥3 = 0 例えば、 赤血球数,フィブリノゲン,γ-globulinの変動が互いに独立とすると 血沈 = -0.2×赤血球数 + 0.17×フィブリノゲン + 20×γ-globulin+ 40 赤血球 γ-globulin フィブリノゲン 血沈 多変量解析のいろいろ supervised ― 学習系 重回帰分析 複数の説明変数の組み合わせによって応答変数を説明 <応答変数は量的変数> 判別分析 複数の説明変数を組み合わせて判別・分類のための式を作成する <応答変数はカテゴリーなどの質的変数> unsupervised ― 探索系 主成分分析 既知の変数を用いて(隠された)未知の応答変数を求める 因子分析 既知の変数に対して未知の説明変数(因子)による回帰を求める 因子分析(斜交解パターン行列) 因子1 因子2 因子3 Albumin -0.295 -0.278 0.476 Globulin 0.896 0.092 0.063 ZTT 0.921 -0.178 0.000 CRP 0.019 0.777 -0.175 Neutrophil -0.092 0.774 0.192 Lymphocyte 0.166 0.132 0.884 クラスター分析 複数の変数を関連性の強さ(距離など)によってカテゴリーに分類する <データセットに分類結果は未知で与えられていない> 回帰式 ― 関数線形回帰 変数 → 関数 線形基底関数モデル 𝜔𝑖 φ𝑖 (𝑥) 𝑦𝑖 = 𝑖=0 φ𝑖 (𝑥):基底関数(多項式、ガウシアン、三角関数、Wavelet、など) 多項基底の場合 φ𝑖 𝑥 = 𝑥 𝑖 𝑦𝑖 = 𝜔0 + 𝜔1 𝑥 + 𝜔2 𝑥 2 + ⋯ 係数の設定法:最小二乗法、最尤推定法 過剰適合の防止:正則化項(ペナルティ項)の追加 Lasso回帰、など 一般化線形モデル(GLM) 正規分布以外の分布も扱える線形回帰モデル(ロジスティック回帰、ポアソン回帰など) 多重ロジスティック回帰 線形回帰を確率(0~1の値域)で表現する 𝑝= 1 1 + 𝑒 − 𝛽0 +𝛽1 𝑥1 +𝛽2 𝑥2+∙∙∙+𝛽𝑛𝑥𝑛 量的変数・質的変数・交差変数(𝑥1 × 𝑥2 など)が混在できる! 多項ロジスティック回帰 応答変数が多群(3値以上)の場合 一般化線形混合モデル サンプルごとに異なる値をとるランダム効果の関数𝛾を加えたモデル 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 +∙∙∙ +𝛽𝑛 𝑥𝑛 + 𝛾1 + 𝛾2 +∙∙∙ 4. その他の知識 ①正規分布モデルが利用できない時 データが少なくて分布が不明 データが離散的で分布を当てはめ難い、などの場合 → ノンパラメトリック法を用いる データの数値をそのまま使用せず、順位をつけて、順位数を用いた擬似的な正規分布に より検定する方法 比率の差のχ2検定 t検定 の代わりに Wilcoxsonの順位和検定・U検定 分散分析(ANOVA) の代わりに Kruskal-Wallis順位和検定 Pearson相関係数 の代わりに SpearmanまたはKendallの順位相関係数 パラメーター(平均、分散)で処理できるものをパラメトリック法として区別する ブートストラップ法とジャックナイフ法について 標本から再サンプリングし、分布のパラメーターを推定する方法 ブートストラップ法は重複を許した同じケース数の復元サンプリングを繰り返す ジャックナイフ法はケースを除きながらサンプリングを繰り返す ②モデルの最適化(最尤推定法と情報量基準) 尤度:観測されたデータの確率モデルへの適合度 各観測データの確率モデルにおける確率の積で計算 最尤推定:尤度を最大にするようなモデル(確率分布)とそのパラメーターを求めること 尤度関数 𝐿 𝜃 = 𝑓 𝑥𝑖 𝜃 を最大にする𝜃を求めること(データ𝑥𝑖 は定数扱い) 実際の計算では、両辺の自然対数をとって𝑙𝑛 𝐿 𝜃 = 𝑙𝑛 𝑓(𝑥𝑖 |𝜃) 最尤推定は、対数尤度関数を最大(≦0)にする𝜃を求めることと等価 解析的には対数尤度関数を偏微分した式を0とおいて𝜃を求める モデルが正規分布の場合(𝜃は2つ)、最尤推定値は観測データの平均と分散になる 数値計算的には、Newton-Raphson法、EMアルゴリズム、MCMC法など 参考)ベイズ推定は事前確率を尤度で補正して事後確率を求める 最適モデルの選択: 赤池の情報量基準𝐴𝐼𝐶 = −2 × (𝑙𝑛 𝐿 − 𝑝)、𝑙𝑛 𝐿は最大対数尤度、𝑝は自由パラメーターの数 (平均対数尤度の近似値、尤度とパラメーター数のトレードオフで最適なモデルを評価) 𝐴𝐼𝐶が小さい値を示すほうのモデルを選ぶ 応用例 重回帰式の変数選択、統計モデルの比較、など ③ベイズ推論による臨床診断 Bayesの公式の確率𝑝をオッズ 𝑜 = 𝑝 1−𝑝 にして式を書きかえると 例1:胸痛患者が心筋梗塞である確率 事前確率 0.1(胸痛患者における心筋梗塞の確率)の時、Odds ≒ 0.11 <事前確率の情報がなければ主観的確率でもよい> 所見 LR+ LR男性 あり 1.3 60才以上 50才 0.8 刺すような痛み なし 1.3 胸壁の圧痛 なし 1.3 ニトログリセン効果 なし 1.1 発汗 なし 0.7 頸動脈の怒張 なし 0.9 第III音聴取 なし 0.9 ECG:ST上昇 なし 0.6 ECG:ST低下 あり 4.5 ECG:非特異的ST変化 なし 1.5 ECG:T波の逆転 あり 2.2 <各LR値はMcGee, Evidence-Based Physical Diagnosisによる> 事前Odds(=0.11)× ∏LR(=9.77) = 1.0747(事後オッズ) 事後確率は、Odds/(1+Odds) = 0.518となる 例2:意識障害が脳病変によるものかそれ以外(代謝性など)か 事前確率0.5とし、血圧が120以下の場合LR-は0.2なので、事後確率は0.17で脳病変は否定的 ④傾向スコア ランダムな割り当てができない状況で、関心ある変数の差を検討する場合(観察研究)に 複数の共変量(交絡因子)を1変数に集約し、この変数を用いて、マッチング・層化・重み づけを行う Ex. ある薬の投与群と非投与群において、差を検討する場合、 割り当て変数z(投与群=1と非投与群=0) 年齢・性別・体重・・・・・などの複数の共変量xiでzを説明するモデルを作成し、 例ごとの傾向スコアを得る → ロジスティック回帰がよく用いられる マッチング 2つの群で傾向スコアの等しいまたは近いペアで差を求め、その平均を検定する (傾向スコアの差の合計を最小化するように設定する、例数の少ない方は重複使用する) 層化 傾向スコアを複数の層(5など)に分類し、そのクラス間で平均の差を検定する 重みづけ 傾向スコアの逆数で補正する