Comments
Description
Transcript
Vol.2 - 九州歯科大学
1 2016年 11 月2日 九州歯科大学歯学部2年次生保健医療統計学講義 評価方法(Ⅰ) 九州歯科大学 地域健康開発歯学分野 邵 仁浩 1.はじめに “学問における偉大な進歩は、すべて、物事を定量的に測ろうとした人の努力によると ころが大きい。 ”-J. Maxwell (物理学者、1831 –1879 年) “目的とするものを測定し、それを数値で表現できて初めて,それが何であるかを知る ことができる。逆に測定できなければ、知識はまだ十分であるとは言えない。 ”-L. Kelvin (工学者、数学者、物理者、1824-1907 年) ① 疫学では患者とは診断基準などで定義するものである。 ② 曝露の測定も定義するものである。 ③ 同一の曝露でも測定方法は複数であることが多い。 ④ 危険因子である曝露の変化=予防。 中村好一 著『基礎から学ぶ 楽しい疫学 第3版』医学書院より 測定(measurement:検査や質問)は、現象を統計学的に処理可能な数値に変換する プロセスである。研究の妥当性(validity)は、用いる変数(variable)が、 「目的とする 現象」 (phenomenon of interest)をどれほど的確に反映できているかにかかっている。 例えば、生活習慣に関するアンケートの質問項目が、普段の生活習慣を、どれほど的確 に反映しうるかといったことである。 本講義は、まず、測定に用いる尺度(スケール)の選び方によって、測定内容がどの ような影響を受けるかを解説する。次に、測定誤差を減らす、すなわち、いかに精度 (precision:偶然誤差の少なさの程度=測定の安定性)と真度(accuracy:系統誤差の 少なさの程度=測定の的確性)の高い測定をデザインし、目的とする現象に対して妥当性 の高い推論が得られるようにするかということを解説する。 2.尺度(スケール) 事物や事象などの観測対象に、定められた操作に基づいて数値を割り当てることを「測 2 定」といい、測定によって割り当てられた数値を測定値という。測定によって数値を割 り当てる規則を「尺度 I という。スチーブンス(Stevens、1951)は尺度の性質を以下の 4 つの水準に分類した。 (1)質的尺度 ①名義尺度(nominal scale):名目尺度ともいい、対象の区別をするために数字を 割り当てる。名称や識別記号と同等である。名義尺度では個々の対象の分類ができれ ばよいために、分類に支障がない範囲で数値を任意に変換できる。例:スポーツ選手 の背番号、郵便番号、商品番号など。許される意味のある計算-計数、割合 ②順序尺度(ordinal scale) :序数尺度ともいい、対象の量の大小や強弱の順序関係 を区別する。例:クラス順位、モースの硬度、星の明るさの等級など。許される意味 のある計算-計数、割合、中央値 (2)量的尺度 ①間隔尺度(interval scale) :特性がない状態である絶対 O 点を定義できない。例: 摂氏温度、標準テストの点数、位置エネルギー、西暦年号など。許される意味のある 計算-計数、割合、中央値、平均値、和・差の演算 ②比率尺度(ratio scale) :比尺度とか比例尺度とも呼ばれ、特性がない状態である 絶対 O 点が存在する。例:重さ、長さ、絶対温度、時間など。許される意味のある計 算-計数、割合、中央値、平均値、四則演算 【補充①】 測定に用いるスケールの簡単な分類とそれぞれが表す情報を示した(表1) 。この分類 で重要なことは、変数のタイプによって、統計学的情報量が異なり、したがって、統計 学的パワー(検出力) (=必要なサンプルサイズ)が異なるということである。 『医学研究のデザイン-研究の質を高める疫学的アプローチ-第4版』 表1 測定のスケール(尺度) 統計学的 変数の種類 変数の特徴 例 記述統計 パワー カテゴリー変数 2区分変数 2 つのカテゴリ一 人口統計(生存/死亡) 計数、割合 低い 名義変数 大小関係なし 人種、血液型 計数、割合 低い 順序変数 大小関係あり(ただ 痛みの程度、社会階級 計数、割合、中 中程度 し間隔は非定量的) 央値 数量変数 連続変数 1 離散変数 間隔は定量的 体重 計数、割合、中 1 日の喫煙本数 央値、平均値、 高い 標準偏差 1 連続変数とは体重などのように値が連続の数であり、離散変数とは 1 日の喫煙本数など飛び飛びの値で与えられる変数であ る。 3 (1)連続変数 数値変数(numeric variable)とは、量やカウント数を数値で表現する変数のこと を言う。連続変数(continuous variable)とは、体重計で得られる体重値のように、 理論的に無限の値を取る変数で、最も情報量に富む変数である。これに対し、測定値 が、たとえば 1 日の歯磨き回数のように、決まったユニット(一般には整数)で与えられ る変数を、離散変数(discrete variable)と呼ぶ。離散変数が非常に多くの値をとる とき、離散変数は統計学的に連続変数に近い性格のものとなり、研究デザイン上は、 連続変数とほぼ同等のものとみなすことができる。 (2)力テコリー変数:2 区分変数、名義変数、順序変数 量的に表現しにくい現象にはカテゴリ一変数(categorical variable)が用いられる。 カテゴリー(区分)が 2 つの場合(例:生/死)を、2 区分変数(dichotomous variable) と呼び、それ以上の多くの区分を持つ場合は、多区分変数(polychotomous variable) と呼ぶ。カテゴリ一変数は、含まれる情報の種類によって、名義変数(名目変数)と順序 変数に分けられる。名義変数(nominal variable)とは、単に区分の名称を表わす変 数(例:ABO 式血液型)で、変数聞に大小関係(順序)はない。名義変数は、質的な情 報を表し、定義が比較的明確で測定も比較的簡単という利点がある。これに対し順序 変数(ordinal variable)とは、大小関係のあるカテゴリ一変数で、たとえば痛みを、 強い、中くらい、弱いなどに分類するのがその例である。順序変数は、順序があると いう点で名義変数より情報量の多い変数であるが、区分間の量的違いが明確でない(例 強い痛みは、弱い痛みの3倍とは言えない) 点で、情報量としては離散変数や連続変 数に劣る。 (3)スケールの選び方 一般的には、情報量が多く統計学的に有利という意味で、連続的な数値が得られる ようなスケールを選ぶのがよいと考えられる。たとえば、複数の降圧薬の治療効果を 比較する場合、血圧を mmHg という連続値で表せば、治療効果を量的に評価すること ができますが、2 区分スケール(高血圧、正常血圧)にすると、観察のきめが粗くなり、 変化を捉えにくくる。連続変数は情報量が多いために統計学的に有利で、統計学的パ ワーが大きく、サンプルサイズが小さくて済むというメリットがある。 連続変数は、アウトカムとの関連のパターンが複雑な場合などに、カテゴリ一変数 よりも柔軟性が高いという利点がある。たとえば、ビタミン D とがん死亡率との聞に は、U 型の関連(ビタミン D が低値と髙値の場合に死亡率が高く、中間値では死亡率 が低いという関係)があるため、それを捉えるためには、ピタミン D を連続変数で測 定しておかねばならない。また、低体重児出生の予測因子に関する研究では、2500 g という標準体重閾値より大きいか小さいかではなく、実際の出生体重を記録しておく 必要がある。それによって、分析の選択肢が広がり、「低体重」の基準値を変更するこ と も 、 い く つ か の 体 重 区 分 を 表 す 順 序 変 数 ( 例 : > 2500g 、 2000 - 2499g 、 4 1500-1999g、<1500g)を作成することもできる。同じように、食べ物の好き嫌 いに関する質問のように、選択肢に順序変数を用いることができる場合には、選択肢 を「非常にきらい」から「非常に好き」までの6段階のカテゴリーに分類しておくと 便利である。なぜなら、後から「きらい」か「好き」かの 2 区分変数に仕立てること ができるからである。しかし、その逆は不可能である。 カテゴリーや数値で表すことの難しい現象も少なくない。症状(例:痛み)やライ フスタイルに関わるもの(例:生活の質[QOL])は特にそうである。しかし、これら の現象も、診断や治療の決定上重要なことが多く、これらを測定することは、科学的 アプローチにとって不可欠である。よく知られたものとしては、QOL 測定の標準的ス ケールである SF-36 がある。このような標準的スケールの利用は、それが適切なもの であれば、知識の客観性を高め、バイアスを減らし、また研究相互の比較が可能とな るというメリットがある。 3.評価方法 (1)質的データの評価方法 本講義では、代表的な質的データの評価方法であるχ2 検定を含むクロス集計表の分 析を取り上げる。 〈χ2 検定(独立性の検定)について〉 親子歯科健診受診別にみたう蝕有病状況(3歳児時点) う蝕の有無 無 親受診有 親受診無 計 有 444 126 570 77.9% 22.1% 100.0% 1800 767 2567 29.9% 100.0% 70.1% p=0.000 カイ二乗検定 2つの属性(親受診の有無)によって分類した分割表(クロス集計表)から,これ らの分類が独立(無関係)かどうか調べるものは、独立性の検定と呼ばれる。表1の ような分割表(クロス集計表)が得られたとき,2つの属性が独立(無関係)かどう か・・・親受診の有無に差異があるかどうかを判断するには 表1 親受診有 親受診無 う蝕有 444 1800 2244 う蝕無 126 767 893 570 2567 3137 ① 集計表の周辺和(行小計,列小計)の比率で割り出した期待度数(表 2:A,B,C, D)を求める。→表3(親受診の有無がう蝕の有無に影響しないと想定した場合) 5 表2 親受診有 親受診無 う蝕有 A C 2244 う蝕無 B D 893 570 2567 3137 A=2244× 570/3137 B=893× 570/3137 C=2244×2567/3137 D=893×2567/3137 表3 親受診有 親受診無 う蝕有 408 1836 2244 う蝕無 162 731 893 570 2567 3137 ② 表1(観測値)と表3(期待値)からχ2 値を計算する: X 2 =(444-408)2/408 + (126-162)2/162 + (1800-1836)2/1836 + (767-731)2/731=13.・・・ ③ m×nの分割表では,自由度は(m-1)(n-1)となるので、2×2の分割表では自 由度は1 ④ χ2 分布表により、多くの場合、有意水準 5%のχ2 値と比較し、これよりも大き ければ帰無仮説を棄却して有意差ありとし、そうでなければ有意差なしとする。 χ2 分布表 自由度\p 0.995 0.975 0.05 0.025 0.01 0.005 1 0.000 0.001 3.841 5.024 6.635 7.879 2 0.010 0.051 5.991 7.378 9.210 10.597 3 0.072 0.216 7.815 9.348 11.345 12.838 4 0.207 0.484 9.488 11.143 13.277 14.860 5 0.412 0.831 11.070 12.832 15.086 16.750 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 6 自由度1のχ2 分布 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0.0 2.0 4.0 6.0 8.0 右側 5%点:3.841 実現値:13.843 (2)量的データの評価方法 本講義では、代表的な量的データの評価方法である独立した2群のt検定を取り上 げる。 ① Welch の t 検定 2群間に差はあるのか? T 統計量を求めて比較する。 T = XA − XB S A / n A + S B / nB 2 2 XA : A 群の平均値 XB : B 群の平均値 SA : A 群の標準偏差 SB : B 群の標準偏差 nA : A 群の例数 nB : B 群の例数 (利用条件の確認) ・計量データであるか? ・A 群・B 群とも正規分布であるか?→正規性の検定 ② Student の t 検定 2群間に差はあるのか? T 統計量を求めて比較する。 XA − XB T = S 1 / n A + 1 / nB XA : A 群の平均値 XB : B 群の平均値 S : A 群及び B 群の標準偏差 (分散は等しい) nA : A 群の例数 (利用条件の確認) nB : B 群の例数 ・計量データであるか? ・分散は等しいか?(SA/SB≒1)→等分散性の検定=F 検定 7 *等分散なので、先程の Welch のt検定で SA=SB=S(共通の分散)とする ・A 群・B 群とも正規分布であるか?→正規性の検定 【補充②】 2 つの平均値・割合の比較 (1)統計学的検定 平均値・割合の差がバラツキによるか否か (2)推定値と誤差 平均値・割合の差の推定とその確からしさ 〈統計学的検定について〉 ① 帰無仮説 (null hypothesis)の設定 ② 帰無仮説 にもとづく統計量 ③ 計算された統計量のおこる確率(P-値) ④ P-値が小さいと帰無仮説は棄却され、対立仮説が採択される。「統計学的有意差 がある」との判断がされる。 慣例的に、P<0.05 または P<0.01 で帰無仮説が棄却される。 帰無仮説 を棄却する P-値を有意水準、危険度、あるいは第1種の過誤 (type I error) と言う。 母集団 A 母集団 B 比較 標本 A 比較 標本 B 検定の概念 【参考文献】 1)「基礎から学ぶ楽しい疫学 第3版」 P7-14 中村好一 著 医学書院 2)「医学研究のデザイン-研究の質を高める疫学的アプローチ-第4版」 P37-39 スティーブン B. ハリーほか 著 木原雅子、木原正博 訳 メディカル・サイエンス・インターナショナル