Comments
Description
Transcript
中級者による初心者のための 「ロジスティック回帰分析」
中級者による初心者のための 「ロジスティック回帰分析」 奥村泰之 国立精神・神経医療研究センター 精神保健研究所 社会精神保健研究部 第1回 心理・医学系研究者のためのデータ解析環境Rによる統計学の研究会 2011/6/25 15:30~18:00 東京医科歯科大学 話題 ロジスティック回帰分析 (LR) の特徴 (3 min) ロジスティック回帰分析 (LR) の適正報告調査 (2 min) 適正報告調査の項目詳細 (20 min) 落ち葉拾い (5 min) Rによるロジスティック回帰分析 (LR) (0 min) 中級者向けの推薦文献 (0 min) 2 ロジスティック回帰分析 (LR) の特徴 英語表記 • (Multivariable/Multivariate) Logistic regression analysis/model • Binomial/Binary logit analysis/model 3 ロジスティック回帰分析 (LR) の特徴 独立変数と従属変数の尺度水準 1つの従属変数 • 名義尺度 (2水準) – 生きている/死んでいる、はい/いいえ 1つ以上の独立変数 • 名義尺度、順序尺度、間隔尺度、比尺度なんでもOK 2つの使用目的 「説明」と「予測」 4 ロジスティック回帰分析 (LR) の特徴 LRの使用目的が「説明」の場合 目的 • 他の要因を統制した場合に、ある従属変数とある独立変数 の関連が、どの程度あるかを求める 事例 • 目的 – 高校生のインターネット依存の関連要因を検討する • 従属変数 – インターネット依存か否か • 独立変数 – 性別、人種、健康の指標 (物質使用障害、うつ病、攻撃性) • 結果 – 人口統計学的指標を統制しても、物質使用障害などが関連する! Liu et al: J Clin Psychiatry: in press 5 ロジスティック回帰分析 (LR) の特徴 LRの使用目的が「予測」の場合 目的 • 特定の独立変数の値を想定した場合に、あるイベントが生じ る確率を求める 事例 • 目的 – 未治療の糖尿病をスクリーニングするための質問項目を作成 • 従属変数 – 未治療の糖尿病か否か (空腹時血糖 ≥ 126mg/dL かつ未診断) • 独立変数 – 年齢、性別、親族の糖尿病の有無、高血圧・肥満の有無、身体活動量 • 予測モデル – 独立変数の値が一定以上であると、未治療の糖尿病のリスクがX%! Bang et al: Ann Intern Med151:775-783, 2009 6 ロジスティック回帰分析 (LR) の特徴 統計モデル 一般化線形モデル • 変量効果はなし – 反復測定のデータやペアデータなど、階層性のあるものは対象外 • 連結関数はロジット (logit) – プロビット (probit) の方が精度が良いが、オッズ比が求められなく なるためか使用率は低い 7 話題 ロジスティック回帰分析 (LR) の特徴 (3 min) ロジスティック回帰分析 (LR) の適正報告調査 (2 min) 適正報告調査の項目詳細 (20 min) 落ち葉拾い (5 min) Rによるロジスティック回帰分析 (LR) (0 min) 中級者向けの推薦文献 (0 min) 8 ロジスティック回帰分析 (LR) の適正報告調査 LRの適正報告調査とは 特徴 • LRの適正報告に関する基準を10個程度作成 • LRを使用した論文を系統的に検索・収集 • LRの適正報告に関する基準を満たしているか評定 論文 • Bagley et al: Logistic regression in the medical literature: standards for use and reporting, with particular attention to one medical domain (J Clin Epidemiol 54: 979985, 2001) • Moss et al: An appraisal of multivariable logistic models in the pulmonary and critical care literature (Chest 123: 923-928, 2003) • Ottenbacher et al: A review of two journals found that articles using multivariable logistic regression frequently did not report commonly recommended assumptions (J Clin Epidemiol 57: 1147-1152, 2004) • Mikolajczyk et al: Evaluation of logistic regression reporting in current obstetrics and gynecology literature (Obstet Gynecol 111: 413-419, 2008) 9 ロジスティック回帰分析 (LR) の適正報告調査 事例 研究法 • LRの適正報告に関する基準を13個作成 • 論文を手作業で検索 – 呼吸器と救急医療に関する主要な5雑誌 – 2000年7月~12月に出版 – LRを使用 • 2人の研究者が基準に満たしているかを独立に評定 Moss et al: Chest 123: 923-928, 2003 10 ロジスティック回帰分析 (LR) の適正報告調査 事例 結果 後 述 報告すべき点 報告率 報告すべき点 報告率 1. オッズ比 79% (64/81) 11. 適合度 80% (4/5) 2. 信頼区間 74% (60/81) 12. 交差妥当化 60% (3/5) 3. 変数投入法 27% (22/81) 13. 条件付モデル 80% (4/5) 4. ソフトウェア 69% (56/81) 5. コード化 65% (53/81) 6. 交互作用 12% (10/81) 7. 多重共線性 1% (1/81) 8. 過剰適合 39% (22/57) 9. 線形性 15% (6/39) 10. 変数の合理性 23% (19/81) 予測モデルの構築が 目的の場合 症例対照研究の場合 注) 赤字は報告率が50%未満を示す Moss et al: Chest 123: 923-928, 2003 11 話題 ロジスティック回帰分析 (LR) の特徴 (3 min) ロジスティック回帰分析 (LR) の適正報告調査 (2 min) 適正報告調査の項目詳細 (20 min) 落ち葉拾い (5 min) Rによるロジスティック回帰分析 (LR) (0 min) 中級者向けの推薦文献 (0 min) 12 適正報告調査の項目詳細 ①オッズ比、②オッズ比の信頼区間 基準 • 少なくとも主要な独立変数の、①オッズ比と②オッズ比の信 頼区間を報告すること 事例 – 結果の節 Bang et al: Ann Intern Med151:775-783, 2009 13 適正報告調査の項目詳細 ③変数投入法 基準 • 変数投入法を明記すること 変数投入法とは • 複数の独立変数をモデルに投入する順序に関する方法 14 適正報告調査の項目詳細 ③変数投入法 種類 • 強制投入法 (simultaneous/collective/direct) – 複数の独立変数を同時にモデルに投入 – 独立変数の重要性の順序などについて仮説がない場合に使用 • 逐次投入法 (sequential/hierarchical) – 因果関係などが先行する独立変数群を作成し、順にモデルに投入 – 先行研究や理論的な観点を大切にする方法で、最も好まれる • 変数選択法 – 統計学的な観点から自動的に重要度の高い独立変数を選択する – 変数増加法、変数減少法、ステップワイズ法、総当たり法の4種類 – すべての変数選択法は、その有用性について疑いが持たれている Tabachnick BG, Fidell LS: Using multivariate statistics. Pearson Education, 2007 15 適正報告調査の項目詳細 ③変数投入法 事例 • 強制投入法 (simultaneous/collective/direct) – 方法の節 » Two outcomes were examined: an estimated GFR decrease of 30 mL/min per 1.73 m2 or greater and an estimated GFR decrease of 30% or greater. Multivariate logistic regression was used to calculate ORs and 95% confidence intervals (95% CIs) after controlling simultaneously for potential confounders. Variables considered in the models were age (continuous), weight (continuous), ...後略. Curhan et al: Arch Intern Med 164:1519-1524, 2004 16 適正報告調査の項目詳細 ③変数投入法 事例 • 逐次投入法 (sequential/hierarchical) – 方法の節 » We used multivariate logistic regression modeling to examine the association between geriatric conditions (numbers of conditions/individual conditions) and the probability of having 1 or more ADL dependencies. Then, we sequentially introduced groups of variables into the model, first demographic variables and then chronic disease variables, because these are known to be associated with ADL dependencies. Cigolle et al: Ann Intern Med147:156-164, 2007 17 適正報告調査の項目詳細 ③変数投入法 事例 • 逐次投入法 (sequential/hierarchical) – 結果の節 老人性の症状の数 (失禁や転倒) 主 要 な 独 立 変 数 Model 1 + 慢性疾患の数 + 6つの人口統計学的変数 Model 1 + 慢性疾患の種類 + 6つの人口統計学的変数 Model 1 + 6つの人口統計学的変数 各モデルで調整した変数 Cigolle et al: Ann Intern Med147:156-164, 2007 18 適正報告調査の項目詳細 ④ソフトウェア 基準 • 使用したソフトウェアを明記すること 事例 – 方法の節 » We conducted all analyses using R version 2.1.0.37 – 文献の節 » 37. R Development Core Team. R: a language and environment for statistical computing. Vienna, Austria: R Foundation for Statistical Computing; 2005. http://www.Rproject.org. Accessed October 2005. Cowling et al: Arch Intern Med 166:1505-1511, 2006 19 適正報告調査の項目詳細 ⑤コード化 基準 • 独立変数のコード化について明記すること 説明 • 質的変数の場合 – (水準数 - 1) の数だけ偏回帰係数が求められる – 任意の水準の偏回帰係数を0とする (reference) – referenceのオッズ比は1となる » オッズ比は、exp(偏回帰係数)で求められる (exp(0) = 1) • 量的変数の場合 – ある独立変数が1単位上がるごとのオッズ比が求められる – 量的変数の幅が大きいと、1単位の増分は無意味なことが多い – 1SD上がるごと、意味のある単位ごと、などのオッズ比を求める » オッズ比は、exp(偏回帰係数×任意の単位) で求められる 20 適正報告調査の項目詳細 ⑤コード化 事例 量的変数 (増分を明記) – 結果の節 質的変数 (referenceを明記) Limaye et al: JAMA 300: 413-422, 2008 21 適正報告調査の項目詳細 ⑥交互作用 基準 • 交互作用について明記すること 交互作用とは • 従属変数Yと独立変数Xとの関係が、独立変数Zの値によっ て異なること 22 適正報告調査の項目詳細 ⑥交互作用 解釈例 • 母親の年齢が高くなるにつれて、母親の体重が50kg以上 の人と比較し、50kg未満の人の方が、未熟児を出生するオ ッズが上がる – 従属変数Y: 出生児の体重が2,500g未満 (未熟児) になるか否か – 独立変数X: 母親の出産前の体重が50kg未満か否か – 独立変数Z: 母親の年齢 母親の年齢 オッズ比 (95% CI) 15 1.04 (0.29, 3.79) 20 2.01 (0.91, 4.44) 25 3.90 (1.71, 8.88) 30 7.55 (1.95, 29.19) 注) 値が高いほど、未熟児を出生する オッズが高いことを意味する Hosmer DW, Lemeshow S: Applied logistic regresssion. Wiley, 2000 23 適正報告調査の項目詳細 ⑥交互作用 検討法 • 独立変数間の積 (X×Z) を独立変数としてモデルに投入 – 量的変数の場合は、平均値で引いた値 (センタリング) の積をモデ ルに投入する流派がある • 交互作用項が「あるモデル」と「ないモデル」を比較 (交互作用がある場合の) 対処法 • 独立変数Zの層別にLRを行い、層別にオッズ比を報告 • 予測値を報告 • 交互作用を考慮したオッズ比を報告 – テクニカルなので説明/解析例は省略。詳細は、成書を参照のこと。 (Hosmer DW, Lemeshow S: Applied logistic regresssion. Wiley, 2000) 24 適正報告調査の項目詳細 ⑥交互作用 事例 • 独立変数Zの層別にLRを行い、層別にオッズ比を報告 – 方法の節 » Because of the known influence of sex and estrogen use on serum levels of CRP and the sex differences in the prevalence of major depression, all analyses were stratified by sex. Tests for a statistical interaction between sex and depression categories were conducted by entering an interaction term for sex and measures of depression in multivariate models. Ford et al: Arch Intern Med164:1010-1014, 2004 25 適正報告調査の項目詳細 ⑥交互作用 事例 • 独立変数Zの層別にLRを行い、層別にオッズ比を報告 – 結果の節 層別 (性別) に オッズ比を報告 交互作用の検定結果を 脚注に明記 Ford et al: Arch Intern Med164:1010-1014, 2004 26 適正報告調査の項目詳細 ⑥交互作用 事例 • 予測値を報告 – 方法の節 » We conducted logistic regression models separately by sex for the main binary outcome measure, percentage of adults identified as needing weight-loss treatment. The predictor variables were ethnicity, years of education (continuous and centered at 12 years); and the first-order interaction term (ethnicity ×education). Kiernan et al: Arch Intern Med160:2169-2176, 2000 27 適正報告調査の項目詳細 ⑥交互作用 事例 • 予測値を報告 – 結果の節 » Although less education was associated with a higher percentage of both Mexican American and white women needing weight-loss treatment, having more than a high school education was associated with a lower percentage identified for treatment for white women only (interaction effect of ethnicity×education, Mexican American) Kiernan et al: Arch Intern Med160:2169-2176, 2000 28 適正報告調査の項目詳細 ⑦多重共線性 基準 • 多重共線性について説明すること 多重共線性とは • 独立変数間に (強い) 線形関係があること – 独立変数間の相関が異常に高い » 「本日の体重」と「昨日の体重」の2つを独立変数とする – 線形従属になっている » 体重、身長、BMIの3つを独立変数とする • 多重共線性が生じていると結果が信頼できなくなる 29 適正報告調査の項目詳細 ⑦多重共線性 検討法 • 分散拡大係数 (Variance Inflation Factors) – VIF ≥ 10...重大な多重共線性の恐れあり – 行動科学では、より低い値 (6や7) を基準とすることもある • 基礎的な方法 – 散布図 – 2変量解析と多変量解析の結果の相違を比較 対処法 • 当該独立変数を削除 • 次元縮小 (主成分分析) Cohen J et al: Applied multiple regression/correlation analysis for the behavioral sciences. Lawrence, 2003 30 適正報告調査の項目詳細 ⑦多重共線性 事例 – 方法の節 » Multicollinearity was assessed by using the variance inflation factor (31). A variance inflation factor exceeding 10 is regarded as indicating serious multicollinearity, and values greater than 4.0 may be a cause for concern(31). – 結果の節 » Correlation coefficients between intra-abdominal fat area and BMI, total fat area, abdominal subcutaneous fat area, total subcutaneous fat area, or waist circumference were 0.665, 0.581, 0.491, 0.398, and 0.745, respectively; however, evidence for multicollinearity was absent because the variance inflation factor for independent variables in all models in Table 3 was less than 4.0. Hayashi et al: Ann Intern Med140:992-1000, 2004 31 適正報告調査の項目詳細 ⑧過剰適合 基準 • 過剰適合の可能性を除外すること 過剰適合とは • 独立変数の数が過剰であり、従属変数のイベント数 (標本 サイズが小さい方の水準の標本サイズ) が過少である場合 に、結果が信頼できなくなること 検討法 • 従属変数のイベント数/独立変数の数 ≥ 10 を保つ Peduzzi et al: J Clin Epidemiol 49:1373-1379, 1996 32 適正報告調査の項目詳細 ⑧過剰適合 事例 – 方法の節 » We based sample size on an estimated 25 variables for multivariable logistic regression analysis. For reliable analysis, we required at least 10 events of the primary outcome measure per variable, that is, 250 events for 25 variables(22). Given an incidence of traumatic findings on CT of 8% to 10%, we needed to include 3125 patients. Smits et al: Ann Intern Med146:397-405, 2007 33 適正報告調査の項目詳細 ⑨線形性 基準 • 線形性の仮定を満たしているかを検討すること 線形性の仮定とは • 量的な独立変数とロジット変換後の従属変数の関係が線形 であるという仮定 log(p/(1-p)) 非線形 log(p/(1-p)) 線形 0 5 10 15 x 20 25 30 0 5 10 15 20 25 30 x 34 適正報告調査の項目詳細 ⑨線形性 検討法 • 散布図 – 量的な独立変数を (なるべく細かく) 数段階にカテゴリ化 – カテゴリごとに独立変数と従属変数の平均値を算出 – ロジット変換後の従属変数をy軸、量的変数をx軸として散布図描画 • 量的な独立変数をカテゴリ化 – 量的変数な独立変数を4段階ほどにカテゴリ化 – カテゴリ化した独立変数をモデルに投入 – 偏回帰係数 (or オッズ比) が線形に上昇しているかを確認 • 一般化加法モデル – ノンパラメトリックな解析法を使用 35 適正報告調査の項目詳細 ⑨線形性 対処法 • 量的な独立変数を変換 – カテゴリ化 – 対数変換 – 自乗項を加える 36 適正報告調査の項目詳細 ⑨線形性 事例 – 方法の節 » Continuous variables were not categorized for regression studies. Conformity to a linear gradient was graphically checked, and polynomial or logarithmic transformations were performed when necessary. (Hypertension 53: 605-610, 2009) » Pack-years of cigarette smoking was categorized (0, < 10, 10-20, and > 20 pack-years) because linearity on the logit scale could not be achieved with this continuous covariate. (Arch Intern Med165:2032-2036, 2005) 37 適正報告調査の項目詳細 ⑩変数の合理性 基準 • 独立変数の合理性 (選択理由) を述べること 合理性の種類 • 先行研究で示された関連 • 臨床的/生物学的な有用性 • 今回の2変量解析で示された関連 38 適正報告調査の項目詳細 ⑩変数の合理性 事例 – 方法の節 » The primary outcome was the combined end point of inhospital mortality, discharge to hospice, or...後略 » The variables included in the risk adjustment model were based on a priori clinical judgment and the existing literature and included (1) age; (2) comorbidity based on medical history (Charlson score)13 ...後略 Bravata et al: Arch Intern Med 70:804-810, 2010 39 話題 ロジスティック回帰分析 (LR) の特徴 (3 min) ロジスティック回帰分析 (LR) の適正報告調査 (2 min) 適正報告調査の項目詳細 (20 min) 落ち葉拾い (5 min) Rによるロジスティック回帰分析 (LR) (0 min) 中級者向けの推薦文献 (0 min) 40 落ち葉拾い ①ゼロセルの注意 ②粗オッズ比の報告 ③オッズ比の大きさの解釈 41 落ち葉拾い ①ゼロセルの注意 説明 • 従属変数と質的な独立変数の2元分割表のセルサイズが ゼロにならないように注意すること 数値例 心不全の重症度 生存 死亡 オッズ 比 (95% CI) NYHA (IV) 7 13 reference NYHA (III) 12 8 2.79 (0.79, 10.52) NYHA (II) 20 0 Inf 注) 値が高いほど、生存するオッズが高いことを示す Hosmer DW, Lemeshow S: Applied logistic regresssion. Wiley, 2000 42 落ち葉拾い ①ゼロセルの注意 検討法 • 従属変数と質的な独立変数の2元分割表を求める • 偏回帰係数 (or オッズ比) の信頼区間を求める – 信頼区間の値が異常に広くなる or 求められない 対処法 • セルサイズがゼロの水準を、他の水準と合併 – NYHA (II) とNYHA (III) を合併 • セルサイズがゼロの水準を除外する – NYHA (II) の回答者を除外 • 順序尺度以上の場合、量的変数と「みなして」モデルに投入 – 「NYHA (II) → 1; NYHA (III) → 2; NYHA (IV) → 3」 とコード化 Hosmer DW, Lemeshow S: Applied logistic regresssion. Wiley, 2000 43 落ち葉拾い ②粗オッズ比の報告 基準 • 調整前の推定値 (i.e., オッズ比) を報告すること – by STROBE声明 Vandenbroucke et al: Ann Intern Med 147: W163-194, 2007 44 落ち葉拾い ②粗オッズ比の報告 事例 – 結果の節 粗オッズ比 従属変数の水準ごとの 度数と百分率 Sonis et al: JAMA 302: 527-536, 2009 45 落ち葉拾い ③オッズ比の大きさの解釈 特徴 • 効果量の指標の一種 • 得点可能範囲 – [0~1~Inf] (1が基準) • 計算式 – (A/B)/(C/D) = (AD)/(BC) 独立変数 従属変数水準1 従属変数水準2 水準1 A B 水準2 C D 心疾患あり 心疾患なし 喫煙者 78 59 非喫煙者 42 61 喫煙の状態 Kline RB: Beyond significance testing. APA, 2004 オッズ 比 (95% CI) 1.92 (1.14, 3.32) 46 落ち葉拾い ③オッズ比の大きさの解釈 解釈例 • 心疾患ありのオッズ – 心疾患を有するオッズは、非喫煙者と比べて、喫煙者の方が約2倍 高い • 心疾患なしのオッズ – 1/OR = 0.52 (0.31, 0.88) – 心疾患を有さないオッズは、非喫煙者と比べ、喫煙者の方が約 48%低い 47 落ち葉拾い – d = 0.2...小さな差 – d = 0.5...中程度の差 – d = 0.8...大きな差 • 操作的定義とオッズ比の対応 – – – – d = 0; OR = 1 d = 0.2; OR =1.44; OR = 0.70 d = 0.5; OR = 2.48; OR = 0.40 d = 0.8; OR = 4.27; OR = 0.23 0.6 0.4 • d値の大きさの操作的定義 0.2 – (log(OR)×√3 )/π – OR = 粗オッズ比 0.0 • Cohenのd値 (log(OR) * sqrt(3))/pi 操作的な解釈のための変換 0.8 ③オッズ比の大きさの解釈 1 Cooper H et al: The handbook of research synthesis and meta-analysis. SAGE, 2009 2 3 4 5 OR 48 落ち葉拾い ③オッズ比の大きさの解釈 臨床的な解釈のための変換 • Number Needed to be Exposed for one additional person to be Harmed/Benefit (NNEH/NNEB) 1 OR NNEH OR 1 UER OR 1 1 UER – OR = 調整後のオッズ比 – UER = unexposed event rate » 質的な独立変数のreferenceとなる水準のイベント発生率 – NNEHは、値が低いほど、独立変数の影響が強いことを意味する • NNEHの算出条件 – 研究法は、前向きクローズド・コホート研究、無作為化比較試験 – 独立変数は、名義尺度 (2水準) Bender, Blettner: J Clin Epidemiol 55: 525-530, 2002 49 落ち葉拾い ③オッズ比の大きさの解釈 臨床的な解釈のための変換 • 解釈例 – – – – – 喫煙の状態 調査対象: 1型糖尿病 研究法: 前向きクローズド・コホート研究 追跡期間: 6年間 従属変数: 糖尿性網膜症の発生の有無 独立変数: 喫煙状態 糖尿病性 網膜症あり 糖尿病性 網膜症なし オッズ 比 (95% CI) 喫煙者 128 (39.4%) 197 (60.6%) 1.515 (1.004, 2.285) 非喫煙者 97 (33.7%) 191 (66.3%) reference 注) 値が高いほど、網膜症の発生するオッズが高いことを示す。その他の独立変数 は、糖尿病の罹病期間、罹病期間の自乗項、HbA1c、空腹時血糖の4つである。 Bender, Blettner: J Clin Epidemiol 55: 525-530, 2002 50 落ち葉拾い ③オッズ比の大きさの解釈 臨床的な解釈のための変換 • 解釈例 1 1.515 NNEH 10.2 1.515 1 0.337 1.515 1 1 0.337 – 非喫煙者よりも、1人余分に、 6年間以内に糖尿病性網膜症を発症 するためには、平均的に10人の喫煙者が必要である Bender, Blettner: J Clin Epidemiol 55: 525-530, 2002 51 話題 ロジスティック回帰分析 (LR) の特徴 (3 min) ロジスティック回帰分析 (LR) の適正報告調査 (2 min) 適正報告調査の項目詳細 (20 min) 落ち葉拾い (5 min) Rによるロジスティック回帰分析 (LR) (0 min) 中級者向けの推薦文献 (0 min) 52 Rによるロジスティック回帰分析 (LR) LR関係の主要なRパッケージと関数 library(stats) • glm()...一般化線形モデルの関数 • confint()...95%信頼区間 library(epicalc) • logistic.display()...粗オッズ比の算出 library(effects) • allEffects()...交互作用の予測値の算出 53 Rによるロジスティック回帰分析 (LR) LR関係の主要なRパッケージと関数 library(mgcv) • gam()...一般化加法モデル library(rpsychi) • groupSummary()...群別の記述統計量 library(car) • vif()...分散拡大係数の算出 • scatterplotMatrix()...多変量散布図 • scatterplot()...2変量散布図 54 Rによるロジスティック回帰分析 (LR) 説明用データセット data(Mroz) • 既婚女性の所得動向パネル調査 – 1976年に実施された横断研究 – library(car) の組み込みデータ 変数名 説明 コード 役割 lfp 就業状況 質的変数 (No、Yes) 従属 k5 5歳以下の子供の数 量的変数 独立 k618 6歳から18歳の子供の数 量的変数 独立 age 年齢 量的変数 独立 wc 大卒か否か 質的変数 (No、Yes) 独立 hc 夫が大卒か否か 質的変数 (No、Yes) 独立 lwg 妻の期待される所得の対数 量的変数 未使用 inc 妻の所得を除く世帯所得 量的変数 未使用 55 Rによるロジスティック回帰分析 (LR) 説明用データセット 研究目的 • 既婚女性の不就労の関連要因を検討する モデル • 従属変数 – 就業状況 (不就労のオッズを求める) • 主要な独立変数 – 年齢 (年代) • その他の独立変数 – 「5歳以下の子供の数」と「6歳から18歳の子供の数」 or 「子供の数」 – 「大卒か否か」と「夫が大卒か否か」 56 Rによるロジスティック回帰分析 (LR) 説明用データセット 逐次投入法 • モデル0 – 年齢 (年代) • モデル1 – 「年齢 (年代)」「5歳以下の子供の数」「6歳から18歳の子供の数」 「大卒か否か」「夫が大卒か否か」 • モデル2 – 「年齢 (年代)」 「子供の数」 「大卒か否か」「夫が大卒か否か」 57 Rによるロジスティック回帰分析 (LR) 分析の流れ ①分析データセットの作成と従属変数の基準の確認 ②2変量解析 • 群別の要約統計量 • 粗オッズ比 ③多重共線性の検討 • 分散拡大係数 • 多変量散布図 ④線形性の検討 • 年齢を平滑化した一般化加法モデル • 散布図 • 年齢をカテゴリ化 58 Rによるロジスティック回帰分析 (LR) 分析の流れ ⑤交互作用の検討 • 「年代」と「大卒か否か」の交互作用の検定 • 予測値の算出 • 「大卒か否か」で層別して、ロジスティック回帰分析を実施 ⑥最終的な報告用のモデルを整形 • モデル0 – 年代 • モデル1 – 「年代」「5歳以下の子供の数」「6歳から18歳の子供の数」 「大卒か否か」「夫が大卒か否か」 • モデル2 – 「年代」 「子供の数」 「大卒か否か」「夫が大卒か否か」 – 子供の数は、2人増えるごとの不就労のオッズも求める 59 Rによるロジスティック回帰分析 (LR) ①分析データセットの作成と従属変数の基準の確認 60 Rによるロジスティック回帰分析 (LR) ①分析データセットの作成と従属変数の基準の確認 levels(因子型ベクトル) • 因子型ベクトルの水準を確認する関数 – 従属変数の場合は、1番目の水準がreference (基準)、2番目の水 準になるオッズを求める – 独立変数の場合は、1番目の水準がreference (基準) となる relevel(因子型ベクトル, ref=“基準となる水準名”) • 因子型ベクトルの基準を変更する関数 61 Rによるロジスティック回帰分析 (LR) ②2変量解析 (群別の要約統計量) groupSummary(data, group=“因子型の変数名”) • 因子型の変数の水準ごとに要約統計量を算出する関数 – data = データフレーム 結果抜粋 – 不就労者の年齢は43.28歳、標準偏差は8.46歳 – 就労者の大卒率は34%、不就労者の大卒率は21% 62 Rによるロジスティック回帰分析 (LR) ②2変量解析 (粗オッズ比) glm(formula, family=binomial(logit), data) • 一般化線形モデルの関数 – formula = 従属変数 ~ 独立変数 » チルダ[~]の左側に1つの従属変数の変数名 » チルダ[~]の右側に1つ以上の独立変数の変数名 » 独立変数の変数名はプラス[+]でつなぐ » 独立変数の変数名をコロン[:]でつなぐと交互作用 » 独立変数の変数名をアスタリスク[*]でつなぐとコロンとプラスの 簡略表記 – 例① (モデル式: y = x1 + x2 + x3) » y ~ x1 + x2 + x3 – 例② (モデル式: y = x + z + x×z) » y ~ x + z + x:z »y~x*z 63 Rによるロジスティック回帰分析 (LR) ②2変量解析 (粗オッズ比) glm(formula, family=binomial(logit), data) • 一般化線形モデルの関数 – family = binomial(logit) » 連結関数がロジットであるという指定 » (logit)は省略可→family = binomial – data= データフレーム logistic.display(logistic.model) • ロジスティック回帰分析の結果表示用関数 – logistic.model = glm()の結果を保存したオブジェクト名 64 Rによるロジスティック回帰分析 (LR) ②2変量解析 (粗オッズ比) 結果抜粋 • 既婚者女性が不就労であるオッズは、年齢が1歳上がるごとに2%上が る (OR: 1.02, 95% CI: 1.10, 1.04)。 65 Rによるロジスティック回帰分析 (LR) ③多重共線性 (分散拡大係数) vif(mod) • 分散拡大係数の算出用関数 – mod = glm()の結果を保存したオブジェクト名 結果抜粋 • すべての独立変数の分散拡大係数は2未満であり、多重共 線性は認められなかった。 66 Rによるロジスティック回帰分析 (LR) ③多重共線性 (多変量散布図) scatterplotMatrix(x) • 多変量散布図の関数 – x = データフレーム 67 Rによるロジスティック回帰分析 (LR) ④線形性 (一般化加法モデル) gam(formula, family=binomial(logit), data) • 一般化加法モデルの関数 – formula = 従属変数 ~ 独立変数 » チルダ[~]の左側に1つの従属変数の変数名 » チルダ[~]の右側に1つ以上の独立変数の変数名 » s(独立変数の変数名) で平滑化 (smoothing) したい変数を指 定 – family = binomial(logit) » 連結関数がロジットであるという指定 – data= データフレーム 68 Rによるロジスティック回帰分析 (LR) ④線形性 (一般化加法モデル) plot(x) • 平滑化した変数の線形性を図示する関数 – x = gam()の結果を保存したオブジェクト名 69 Rによるロジスティック回帰分析 (LR) ④線形性 (散布図) scatterplot(y~x) • 2変量散布図の関数 – y = 従属変数 – x = 独立変数 70 Rによるロジスティック回帰分析 (LR) ④線形性 (カテゴリ化) 71 Rによるロジスティック回帰分析 (LR) ④線形性 結果抜粋 • 一般化加法モデル、散布図、年齢をカテゴリ化した時のオッズ比を検討 した結果、年齢は線形性の仮定を満たしていないことが推察された。 • そのため、以後の分析では、年齢を4分位でカテゴリ化した変数を、独 立変数として用いた。 72 Rによるロジスティック回帰分析 (LR) ⑤交互作用 (検定) anova(model1, model2, test=“Chisq”) • 複数のモデルの比較をする関数 – model1 = glm()の結果を保存したオブジェクト名 – model2 = glm()の結果を保存したオブジェクト名 – test = “Chisq” » 尤度比検定 • 結果抜粋 – 尤度比検定の結果、 「年代」と「大卒か否か」の交互作用が 0であるという帰無仮説は、 棄却されなかった (p = .08)。 73 Rによるロジスティック回帰分析 (LR) ⑤交互作用 (検定) モデル比較の注意 • model1はmodel2にネストしている必要がある – model2の一部に制約 (e.g., 交互作用項を0と置く) を加えることで model1を表現可能 • モデルの例 – M1: y=β0+β1x1+β2x2 – M2: y=β0+β1x1+β2x2+β3x3 – M3: y=β0+β1x1+β2x2 + β4x4 • ネストの判定例 – M1はM2のβ3を0と制約することで表現可能 (M1はM2にネストしている) – M1はM3にネストしている – M2はM3にネストしていない、 M3はM2にネストしていない Long JS: Regression models for categorical and limited dependent variables. SAGE, 1997 74 Rによるロジスティック回帰分析 (LR) ⑤交互作用 (予測値) allEffects (mod, xlevels=list()) • 他の変数を平均値に固定したときの、個々の独立変数 の予測値を算出する関数 – mod = glm()の結果を保存したオブジェクト名 – xlevels= list()に量的な独立変数の範囲を指定できる 75 Rによるロジスティック回帰分析 (LR) ⑤交互作用 (予測値) plot(x, ask=TRUE, row=行数, col=列数) • 予測値を図示する関数 – x = allEffects()の結果を保存したオブジェクト名 – ask = 独立変数を指定するか否か 76 Rによるロジスティック回帰分析 (LR) ⑤交互作用 (予測値) 結果抜粋 • 子供の数 (M= 1.591) と夫の大卒率 (M = 40%) が平均的である時、 – 大卒ではない既婚女性の不就労率は、30歳前半では40%であるのが、 30歳後半で35%ほどに下がり、40歳以降は50%を超えて上昇する。 – 大卒の既婚女性の不就労率は、30歳前半では28%であるのが、30歳 後半で32%ほどに上がり、40歳台で23%程に下がるものの、50歳台で は40%程に上がる。 77 Rによるロジスティック回帰分析 (LR) ⑤交互作用 (層別解析) オッズ 比 (95% CI) 年齢 大卒ではない 大卒 30-36 reference reference 37-43 0.77 (0.48, 1.25) 1.23 (0.56,2.68) 44-49 1.50 (0.91, 2.50) 0.88 (0.37,2.12) 50-60 2.68 (1.52,4.72) 2.22 (0.84,5.84) 注) 値が高いほど、不就労のオッズが高いことを示す 78 Rによるロジスティック回帰分析 (LR) ⑥最終的な報告用のモデルを整形 coef(object) • 偏回帰係数を取り出す関数 – object = glm()の結果を保存したオブジェクト名 confint(object) • 信頼区間を求める関数 – object = glm()の結果を保存したオブジェクト名 79 Rによるロジスティック回帰分析 (LR) ⑥最終的な報告用のモデルを整形 注意 • スライド「④線形性 (カテゴリ化)」で示しているlogistic.display() で、 すでに報告用のモデルの結果は得られている。 整形が必要な場合 • 量的変数の増分を変更する必要があるとき • アウトプットのレイアウトを細かく修正したいとき 80 Rによるロジスティック回帰分析 (LR) ⑥最終的な報告用のモデルを整形 結果抜粋 • 既婚女性が不就労であるオッズは、他の要因を統制しても、30-36歳と 比べて、50-60歳の方が、約2.6倍高かった (モデル2)。 • 既婚女性が不就労であるオッズは、他の要因を統制しても、5歳以下の 子供が1人増えると、約4.2倍上がることが示された (モデル1)。 変数 オッズ 比 (95% CI) 年齢 モデル0 モデル1 モデル2 30-36 reference reference reference 37-43 0.90 (0.60-1.34) 1.50 (0.94-2.41) 0.87 (0.58-1.32) 44-49 1.02 (0.69-1.52) 2.28 (1.41-3.73) 1.35 (0.88-2.08) 50-60 1.60 (1.07-2.40) 4.16 (2.47-7.12) 2.55 (1.58-4.16) 5歳以下の子供数 ― 4.02 (2.78-5.96) ― 6-18歳の子供数 ― 1.12 (0.98-1.28) ― 子供の数 ― ― 1.28 (1.14-1.46) 注) 値が高いほど、不就労のオッズが高いことを示す 81 話題 ロジスティック回帰分析 (LR) の特徴 (3 min) ロジスティック回帰分析 (LR) の適正報告調査 (2 min) 適正報告調査の項目詳細 (20 min) 落ち葉拾い (5 min) Rによるロジスティック回帰分析 (LR) (0 min) 中級者向けの推薦文献 (0 min) 82 中級者向けの推薦文献 教科書 • Regression Models for Categorical and Limited Dependent Variables – – – – http://www.amazon.co.jp/dp/0803973748 制限のある従属変数の分析の成書 派生モデル (多項ロジットなど) の解説も詳しい オッズ比以外の解釈の方法が詳しく理解できる • Applied Logistic Regression – – – – http://www.amazon.co.jp/dp/0471356328 ロジスティック回帰分析の成書 おそらく、最も代表的な教科書 細かい点で困ったときに、大抵の答えが書いてある 83