Comments
Description
Transcript
1. 分割表 - Math工房
Stata11 whitepapers mwp-085 疫学系テーブルの分析 疫学の分野では分割表(クロス表)に基づく分析が統計的推論の基盤となります。Stata にはそれを支援する ための機能が epitab 系コマンドとして一式用意されていますが、本 whitepaper ではそれらのコマンドを使 用して行く上で前提となる基本的事項について、情報を整理しておきます。 1. 分割表 2. Fisher の正確検定 3. カイ 2 乗検定 4. 層化データ 5. 回帰モデル 補足1 補足2 1. 分割表 epitab 系コマンドとしては cs, ir, cc 等、10 種類ほどのコマンドが用意されているわけですが、いずれの場 合においても分析対象となるのは分割表 (contingency table) あるいはクロス表(cross tabulation) と呼ばれ るテーブルです。前提となる研究スタイルによって異なった形式のテーブルが用いられるわけですが、基本と なるのは次の 3 種類です。 (1) リスクデータ分析用の分割表 [ コホート研究 ] (2) 罹患率データ分析用の分割表 [ コホート研究 ] (3) 症例対照データ分析用の分割表 [ 症例対照研究 ] なお以下においては、最も基本となる 2 × 2 分割表を前提に説明を行って行きます。 c Copyright Math 工房; ⃝ c Copyright StataCorp LP (used with permission) 一部 ⃝ 1 Stata11 whitepapers (1) リスクデータ この場合、分析対象となる分割表は表 1 の形式となります。 表 1 リスクデータ分析用の分割表 リスク因子 曝露 非曝露 計 症例 a b a+b 非症例 c d c+d n1 n0 n 計 特定のリスク因子に関してあらかじめ曝露群 (exposed group) と非曝露群 (unexposed group) を設定した上 で、症例 (cases) の発生を追跡し計測する形となるので、研究スタイルとしてはコホート研究 (cohort study) に区分されます。セルに含まれる数値は人数を表します。従って、n(= a + b + c + d) 人全員が同一の期間観 察されること、すなわち途中打切り (censoring) が発生しないことが前提となる点に注意してください。 Stata ではこの形式のデータを累積罹患データ (cumulative incidence data) と呼んでいますが、この形式の データの場合、効果の判定に用いられる指標はリスクです。すなわち曝露群の場合には の場合には b b n0 (= b+d ) a a n1 (= a+c )、非曝露群 という値(確率)がリスクとなるわけで、これらの値に基づき曝露の効果が評価され ます。表 1 の形式のデータを分析する場合には cs/csi コマンドが用いられるわけですが、その用法について は mwp-012 をご参照ください。 (2) 罹患率データ 一般にコホート研究の場合には疾病の発生を追跡するために、対象者 (subjects) を長期にわたって観察する ことが必要になります。このため途中打切りという事態を許容した分析手法が求められます。 表 2 罹患率データ分析用の分割表 リスク因子 曝露 非曝露 計 症例 a b a+b 人時 pt1 pt0 pt 表 2 の場合、曝露群と非曝露群について症例の人数 a, b を計測するまでは表 1 と変りませんが、分母として用 いられる情報が単なる人数ではなく人時 (person-time) である点に注意してください。pt1 も pt0 も対象者ご との観察時間を累計したものです。これによって対象者ごとに観察時間が異なっても定量的な評価が問題なく 行えるようになります。 この場合、曝露効果の評価に使用される指標は a pt1 や b pt0 といった値であり、発生率あるいは罹患率 (incidence- rate) と呼ばれます。表 2 の形式のデータを分析する場合には ir/iri コマンドが用いられるわけですが、そ の用法については mwp-011 をご参照ください。 2 Stata11 whitepapers (3) 症例対照データ コホート研究を遂行するためには一般的に多くの時間と費用が伴います。これに対し症例対照研究の場合に は、通常、症例が確認できた時点で対照 (control) を選び出すというアプローチを取るため、比較的簡便に研 究が行えるというメリットがあります。 表 3 症例対照データ分析用の分割表 リスク因子 曝露 非曝露 計 症例 a b a+b 対照 c d c+d ここで本質となるのは“対照”という標本をいかに適正に抽出するかにあります。今、仮に (1) のタイプのリス クデータを念頭に置いて、その代りとなる対照を抽出するプロセスを考えます。この場合、適正な標本という のは c : d = n1 : n0 となるものを言います(n0 , n1 については表 1 を参照)。本来、表 1 のようなコホート研 究のデータであればリスク比 (risk ratio) RR は RR = R1 a/n1 a n0 = = · R0 b/n0 b n1 (1) のように算出されます。それを今、表 3 のような症例対照データで代用しようというわけですが、標本抽出が 適正に行われていれば n0 n1 = d c が期待できますから、(1) 式は次のように変形できます。 RR = a n0 a d a/c = · = · = OR b n1 b c b/d (2) これは表 3 におけるオッズ比 (odds ratio) OR がコホート研究におけるリスク比 RR の代用となることを示 しています。 同様に (2) のタイプの罹患率データを念頭に置くのであれば、c : d = pt1 : pt0 となるように標本抽出を行い ます(pt0 , pt1 については表 2 を参照) 。このとき、罹患率比 (incidence-rate ratio) IR は IR = これに対し標本抽出が適正に行われていれば IR = I1 a/pt1 a pt0 = = · I0 b/pt0 b pt1 pt0 pt1 = d c (3) が期待できますから、(3) 式は次のように変形できます。 a pt0 a d a/c · = · = = OR b pt1 b c b/d (4) このことは表 3 におけるオッズ比が表 2 の罹患率比 IR の代用となることを示しています。 このような事情から症例対照データの場合にはオッズ比が算出され、それが曝露効果を評価するための指標と して用いられます。表 3 の形式のデータを分析する場合には cc/cci コマンドが用いられるわけですが、その 用法については mwp-013 をご参照ください。 3 Stata11 whitepapers 2. Fisher の正確検定 評価版では割愛しています。 3. カイ 2 乗検定 評価版では割愛しています。 4. 層化データ 評価版では割愛しています。 5. 回帰モデル 評価版では割愛しています。 補足1 – 超幾何分布の確率関数値の算出 評価版では割愛しています。 補足 2 – グラフ作成コマンド操作 評価版では割愛しています。 ¥ 4