Comments
Description
Transcript
CRCのための生物統計
CRCのための生物統計(大橋靖雄) 第2回CSPOR・CRCセミナー(2001/1/14∼16) (生物)統計学は難し いか? CRCのための生物統計(入門になるか?) 東京大学医学系研究科 生物統計 大橋靖雄 数式を 使う − そもそも数学が嫌い…アレルギー 概 念の 話は 数式無し でも 可能 ではあ る、し かし 正 確 な理 解・実 際の応 用は 困難、ただし 良い パ ッケージ の登 場が 状況 を変 えた、しかし ブラ ックボ ック スとしての統 計手 法の誤 用・ 悪用 統計学は難しいか? なぜ統計学が必要か? がん臨床試験プロトコルを 読むために 生存時間解析入門 補足 応用の学問である − (良い仕事には)応用分野の知識が必要 コミ ュニケ ーショ ン効 率の 問題: 臨床・統 計の 共同 作業必 要 背 景の 理解 無しでは研 究仮説 の妥 当性 が判断 できない 分 野毎 の応 用手法 のくせ( 習慣、 伝統 )があ る 1 2 統計学は難し いか?(続き) (生物)統計学は難し いか?(続き) 帰納(経験)の学問である − 結構、経験がものを 言う 常識の学問である − 専門ばかでは困る 数学、(理論)統計学、応用統計学、生物統計学 現 実から 問題 を整 理する 、現実 的解 答を 導くことが仕 事 反 例が 一つあれ ば否 定される 純粋 数学 では ない バ ラン ス、 センスの必 要性 統 計専 門家とし て既に 12年も 働いていたにもかか わらず スイ スの製 薬企業 で 働 きだしたときに、 私はい かに多くのこと を更に 学ば ねば なら ないか 知っ て 驚いた もの である 。それも、 医学 、薬学 、新 薬開発といった ことででは なく、 専 門の 統計 学を である 。 Senn, S(1997), Statistical Issues in Drug Development,Wiley : preface 統計学者とは、自分を一流の統計学者と思っている2級の数学者であり、...生物統計 学者とは、自分を一流の生物統計学者と思っている2級のサイエンティストのことで ある。 Yuh, Lianng(1999), somewhere 教育の問題 シ ステ ム(コー ス)、 教科 書、教 師 3 なぜ統計学が必要か? (補足)臨床試験の統計学 数 理統 計学と応 用統 計学 の違い さらに 他の応 用統 計学 の分野と の違い 対 象の 多様 性 実 験 ラ ンダム化 倫理 臨 床試 験方 法論 ラ ンダム化と 割り付け 中 間解 析の 方法論 生 存時 間解 析 継 時データ解 析 …… 4 バラツキの存在下での判断 例題:5円玉と1円玉はどち らが重いか? SCLCで(CPT11+CDDP)と(VP-16+CDDP)の どちらの予後が良いか? 最近10-15年間 で急速な展開 SCLC: 小細胞肺癌 CPT11:塩酸イリノテカン CDDP:シスプラチン、 VP16:エトポシド 具 体的 手法につい てはここ では省 略 5 使用目的を研究者の自己学習用に限り、その他への転用を禁じる 6 1 CRCのための生物統計(大橋靖雄) 第2回CSPOR・CRCセミナー(2001/1/14∼16) バラツキの存在下での判断 バラツキの存在下での判断(続き) なぜ「5円玉の方が1円玉より重い」と判断するか? なぜ「5円玉の方が1円玉より重い」と判断するか? ともにバラツイてはいる :「分布」の概念の導入 バ ラツキ を客 観的・ 定量 的に扱 うために「 確率論 」を 応用 先験的な知識・常識(externalな証拠)の活用と一般化 実際の測定値の分布の比較 internalな証拠 比 較し てよい か、不 公平 な比 較 では ないか 5 円玉 「日 本中5 円玉 、1円 玉は どれ も同じ」 SCLC 選 択に偏 り ?しかし 無作 為(ラ ンダム) 抽出したとみ なし て良い 同じ 測定方 法 ランダ ム化 同じ測 定・ 追跡方 法 5円 玉 こ れま での「持った 感じ」 SCLC 第 II相 の結 先験情 報 果? 対象選 択 「日 本中 5円玉 、1 円玉は ど れも同じ」 一般化 無作 為(ラ ンダム) 抽出したとみ なし て良い 確 率的 な不確実さ があるも のの 可能 選択に 偏 り? × ? 群 内の バラツ キと群間 の違い を比 較: シグナ ルとノ イズの 比較 7 8 このスライドは前回 のセミナー( 2000May)で提示 精密度と正確度 Precision and accuracy (補足)一般化可能性のため に 観測値 = 真の値+バイアス+誤差的バラツキ observed true bias error 患 者背 景の 解析 結 果の 差異 の説明 部 分集 団の 解析 部 分集 団における 効果 の差、 交互 作用 の検討 accuracy precision 再 試験 FDAの 方 針 ○ ○ メ タアナ リシ ス 複 数の 独立 な研 究結 果の 統計的 併合 ○ × 緩い 選択 条件 large-scale-rando mized-evide nce × ○ ITT( Inte nt(io n)-to-treat)解 析 : 割付け 後に起 きた事 象(有 害事象 ・ コ ン プ ライア ンス など )によ る解 析除外 を行 わ ない × × true value 9 10 類似スライドを前 回のセミナー( 2000May)で提示 研究(計画・実施)に要求さ れる条件 統計手法・試験統計家の役割 (ICH E9) Clarity minimizing (random) error バラツキを小さくすること(精度を高くすること) 症 例数 増加、 感度 の高い エ ンドポイ ント、 統計 解析、 プ ロトコル 遵守、 データ管 理 偏り (バイアス)を小さくすること Comparability minimizing bias internal validity内的妥当性 ラ ンダム化 、評価 の マスク、統 計解 析、 プロトコ ル遵 守、データ 管理 Generalizability 11 external validity 外的妥当性 追 試、 メタアナ リシ ス;患 者背 景( ログ)検 討、サ ブグル ープ 解析、 施設 差の 解析 12 使用目的を研究者の自己学習用に限り、その他への転用を禁じる 2 CRCのための生物統計(大橋靖雄) 第2回CSPOR・CRCセミナー(2001/1/14∼16) がん臨床試験プロ トコルを読む ため に NSAS-BCから がん臨床試験プロ トコルを読む ため に これを理 解できれば完 璧! 試験計画とくに割り付け方法 7-3-1(p.21)層別化因子に基づいて動的割り付け法を用いて割り付ける。 症例数の設定根拠 15-1-1(p.46) 同等とみなせる幅Δ これをハザード比に換算して 1.30 割り付け方法 必要性 具体的手法(おおよ そ) 解析集団 集団の違いによるバイ アス、ITTの考え方 統計的推測の方法 推 定・ 検定そし て信頼 区間 の概 念 α 、β、 検出 力 具 体的 手法( どこ ま で?) α、β、Shoenfeld-Richterの式(正規近似) 統計解析 15-6(pp.50-51) 群間の均衡性について、..分割表χ2検定、Wilcoxon検定、 Mantel検定 intent-to-treat principleに基づきKaplan-Meier法により無再発率を推定し、 log-rank検定を適用..信頼区間の計算にはGreenwoodの公式..予後因子の 影響の調整と治療効果の推定のためCoxの比例ハザードモデル... 中間解析 15-7(p.52) Lan&DeMetsの方法で多重性を調整..ベイズ流予想確率13 優 越性 か非 劣性か 、その他 か( 選択、 用量 反応の 解析 など) 生 存時 間解 析の「 3種の 神器」 Kaplan-Meier推 定 、 Log-rank検 定 、 Cox回 帰(比 例ハ ザード モデ ル) 症例設定の根拠 中間解析 原理 必要性 多重性の必要性 14 生存時間解析入門 準備のため の質問 死 亡率 の英 語は? 比 率にあたる 英語 rate ratio proportion の 使い分け は? 40才 の 死亡 率の定 義は ? 死 亡率 が一 定の場 合、 生存割 合( 累積生 存率) は どう 減少す るか ? 15 16 打ち切り ハザード 発症率 罹患率 死亡率 event, failure: 目標の事象 打ち 切りcensoring 観測打ち切り termination of follow-up 脱落 drop-out, lost-to-follow up morbidity, incidence rate mortality, death rate × ともにこ れま で起き てい ない事 象(イベ ント) が新たに起 きる スピードとし て × ハザード hazard とが 用いられ る *打 ち 切りはラ ンダムか ? non-informative censoring 打ち切 りとその 後の予 後が 独立 informative censoring 17 使用目的を研究者の自己学習用に限り、その他への転用を禁じる 18 3 CRCのための生物統計(大橋靖雄) 第2回CSPOR・CRCセミナー(2001/1/14∼16) ハザードとその推定 発症率、死亡率 ハザードhazard 物理 的 な単 位は [time]-1 単 位時 間あたりの新た なイベ ント の発生 ハザードの直接推定(保険統計法) actuarial method 国 の人 口動 態統計 など 初期故障型 摩耗故障型 time 偶然故障型 time time hazard = 臨床では、サンプルサイズ不足のため(累積)生存率推定 number of deaths size of risk set - 0.5(deaths+dropout s) 19 20 生存関数の推定と比較 ハザードと(累積)生存率 ハザードと(累積)生存率の関連 hazard vs survival function 一定 生存関数の推定 打 ち切 り無けれ ば単純 で生存割 合を プ ロット 指 数 exponential関 数 λ(t)= λ 1 打 ち切 りあ れば Kaplan-Meier法 誤 差は Greenwoodの 公 式 生存関数の比較 S(t) = exp(- λt) 打 ち切 り無ければ ふつ うの連 続データの 解析 2倍になれば ただし歪 み大き いの で変 換、 ないしノ ンパラ メト リック検 定 2乗 0.9 -> 0.81 0.8 -> 0.64 0.6 -> 0.36 3年 、 5年 等の 生存 割合の 比較 時 点選 択の 問題、 情報 のロ ス 微分方程式 微分と積分の関係 速度と到達距離の関連 数学的には1:1であるが統計的に は? 21 ハ ザー ドの比 較 順 位を 用いる ノ ンパラ メト リック検定 22 e:オイラー乗数 2 71828 グラ フの見方: (念のため)グラフが上にある方が生存成績が良い 右端の方は信頼性が低い グラ フの下の面積が平均生存期間 MSTは50%の線と交わる時点 Kaplan-Meier法:積極限product-limit法 打ち切りはヒゲで示すことが多い death1 10 1 9 1× (1 -1/1 0) death1 censor1 death1 8 7 1× (1 -1/10 )× (1 -1/9 ) Median S urvival Time(MST) 6 1× (1-1 /10 )× (1-1 /9)× ( 1-1 /7) 23 使用目的を研究者の自己学習用に限り、その他への転用を禁じる 24 4 CRCのための生物統計(大橋靖雄) 第2回CSPOR・CRCセミナー(2001/1/14∼16) ハザードの違いのノン パラメトリック検定 ハザードの違いのノン パラメトリック検定 time 群1 2 10 death 1 death 1 10 death 1 検定統計量 群1 2 死 1 0 1 生存 9 10 19 10 10 20 群1 2 死 1 0 1 生存 8 10 18 χ2 = (∑ weight (O − E )) 2 Variance これが大きくなればなるほど群間差あり Variance分散の式は省略 3.84より大のとき5%有意 9 10 19 ハザード等しければ O-E = 1 - 1×10/20 1- 1×9/19 0- 1×10/20 0- 1×10/19 重み 1 risk-setの大きさ Log-rank検定 Generalized Wilcoxon検定 O: observed, E: expected 25 26 出力 Output 出力 Output Covariance Matrix for the Log-Rank Statistics Testing Homogeneity of Survival Curves over Strata Time Variable WEEK DRUG 6-MP CONTROL Rank Statistics DRUG 6-MP CONTROL Log-Rank Wilcoxon -10.251 10.251 -271.00 271.00 6-MP CONTROL 6.25696 -6.25696 -6.25696 6.25696 Covariance Matrix for the Wilcoxon Statistics DRUG 6-MP CONTROL 6-MP CONTROL 5457.11 -5457.11 -5457.11 5457.11 27 28 比例ハザードモデ ル Proportional hazard model Cox 回帰 regression 出力 Output hazard (t , x) = hazard ( t ) × f ( x) Test of Equality over Strata Test Chi-Square Pr > DF Chi-Square Log-Rank Wilcoxon 16.7929 13.4579 1 1 0.0001 0.0002 -2Log(LR) 16.4852 1 0.0001 f ( x) = exp( β 1 x1 + β2 x2 + ...β k xk ) 29 使用目的を研究者の自己学習用に限り、その他への転用を禁じる x :共 変量 covariates 人口 学的変 数( 性、年 齢)、 患 者特 性( PSなど)、 手 術・ 病理・ 他の腫 瘍の 特性、 検査 結果( 時系 列でも可) 、 治 療、 環境( 時代、 施設 )、 … コー ド化: 数 値そのもの 、 0-1など β :回 帰係数 ( 重み) : データ から推 定 もし x=1 (試 験治 療) x=0 (標 準治 療)とコー ド化し てあれ ば β >0 試験 でリスク高く なる <0 リスク低く なる =0 差 無し (β /標準 誤差 )2 > 1.962 統計 的に有 意(に Oと異 なる) それぞ れの 変数 の影響 が掛け 算 で効い てくる ( 乗法 モデル ) 30 5 CRCのための生物統計(大橋靖雄) 第2回CSPOR・CRCセミナー(2001/1/14∼16) 補足 補足 割り付け方法 割り付け方法(続き) 目的・目標 実際に用いられている方法 既知の因子はもちろん、未知の因子についても群間で均衡 盲検可能な治験の場合 偏りの防止、感度の向上 盲検化できない場合には予見性を小さくする 一方で過度に複雑な手続きは避けたい 施設毎の置換ブロック法 permuted-block 2群ブロックの大きさ4の場合、AAPP,… PPAAの6通りを 施設毎にランダムに順次発生 ブロックの大きさはプロトコルに通常記載しない 盲検を行わないがん臨床試験の場合 層別を行うこともあり 通常は2-4程度の因子を用いた動的割り付け法 どの時点でもバランス取れるように割り付け確率変化させる 施設は因子に含める場合とアンバランス程度の制約を与える 場合あり(Zelenの方法) 具体的手法 盲検下をどこまで 中央登録かそれ以外か(封筒法は一般には×) 層別するか 背景因子を考慮した動的割り付けを行うか 施設をどうするか 割り付け比率は? 2群なら通常は1:1、ときに2:1など 31 32 補足 補足 ITT?(ワイス:医療の疫学第 4章) ランダム化比較試験 化学療法 50名 手術療法 50名 ITT? 古今東西喧嘩のたね 全員治療 36名治療 9名拒否で化学療法 5名悪化で化学療法 臨床家 気持ち が悪い 医学的に意味がない どの群とど の群とを 比較すべきか? 50 vs 36, 59 vs 36, 64 vs 36, 50 vs 50 …. 統計家 その通り そうかもしれない しかし統計的にValid そもそもなぜラン ダム化したの か? 33 34 補足 補足 ITT? 何を評価するのか ITT? 処方しようとする意思 実際の処方 服薬 血中濃度 組織内濃度 治療しようとする意思に基づく解析 割付け後、何が起きようともその群として解析 実は人によって異なるいくつかのレベル、曖昧 なぜ? 解析対象選択に伴うバイ アス避ける ラン ダム化によ って保証される comparability保つ 統計解析の基礎(p値の根拠)を作る 35 使用目的を研究者の自己学習用に限り、その他への転用を禁じる ITT per-protocol PK-guided study 環境(副作用軽減対策などの)変化によって ITTの意義が薄れる こともあり 36 6 CRCのための生物統計(大橋靖雄) 第2回CSPOR・CRCセミナー(2001/1/14∼16) 補足 補足 ITT? 有名な実例 解析対象集団 Analysis Sets Coron ary Drug Project Researc h Group (19 80) NE JM 30 3 1038-10 41 ALL 5-years cumulative mortality Compliance > 80% < 80% FAS(最大の解析対象集団)とPPS(プロトコル遵守例) CONSORT(Consolidated Standard of Reporting of Trials)に 従った流れ図 ラ ン ダム化した全 症例 Clofibrate 18.0% 15.7% 22.5% Placebo 19.5 16.4 25.8 明 らか な組 み入れ 違反 例 組 み入 れ基 準適合 例 未 投与 例、投 与後 未観 測例 最 大の 解析 対象集 団 違反 例、 脱落例 試 験計 画適 合例 37 38 補足 補足 信頼区間 Confidence interval 仮説検定testの原理:一種の背理法 帰無仮説「新薬は効かない、標準薬と同等かそれ以下」 1/5 ≠ 4/20 ≠ 20/100 ≠ 200/1000 情報量(precision)の差 95% 信頼区間 confidence interval そのもとで、 現実に得られたデータ以上に新薬に有利な結果 が得られる 確率を 計算 (正確な計算あるいは正規近似) 1/5: 0.005-0.72 p ± 196 . × p( 1 − p ) / n 4/20: 0.06-0.44 正規近似 20/100: 0.12-0.28 200/1000: 0.18-0.22 P値 例 :新 薬とプラ セボ のクロ スオーヴァ ー 2重 盲検比 較試 験 エ ン ドポイ ント :どちら が効いた か? 患者の 選択 10人 中 10人が 新薬 選択 P値 は ( 1/2) 10=1/1024=0.00 098 9人 なら 10人と 9人の分 を加 えて ( 1/2) 10+10 ( 1/2) 10=0.011 39 40 補足 補足 仮説検定の原理:一種の背理法 p値が基準の値(5%)以下なら 帰無仮説を棄却する (「新薬は効く」と判断する ) 対立仮説を選択する あるいは 何かインチキ? と判断する GCP(品質保証)による排除 工業における 抜き取り検査sampling inspectionの抽象化 繰り返しプロ セスにおける 平均的特性の確保 (Neyman-Pearson) それは科学か? ( Fisherの批判) 41 仮説検定の原理 治療Aと治療Bの反応率の比較 A B 反応あ り なし mA nA-mA mB nB -mB 計 nA nB 帰無仮説のもとでは反応は固定している と考えてよい 並べ替えによ って、現実のデータ以上に極端なパ ターン が得られる 確率を 計算 design-based: Fisherの直接確率 反応率 p=n/mによ って母集団の反応率を 推定、差の正規近似 model-based: Zあるいはχ2乗検定 使用目的を研究者の自己学習用に限り、その他への転用を禁じる 42 7 CRCのための生物統計(大橋靖雄) 第2回CSPOR・CRCセミナー(2001/1/14∼16) 補足 仮説検定と2種類の過誤 α(第1種 )と β (第2種) 補足 優越性試験と非劣性試験 治 療効 果の 差と信頼 区間 : Test-Control (95% or 90%) 事実 新薬 は効く 効か ない 優 越性 : Superior 意思 決定 承認 (仮 説を 捨てる) 1-β 検 出力 power α false-positive 非 劣性 : Non-inferior sensitivity 承認し ない β false-negative 同 等: Equivalent 1-α specificity Lower:Δ ( 仮説 を捨 てない) 行 政側 : α の維持 スホ ゚ン サー:資 源の 制約 下でβを 小さく ( 症例 数増や す、誤 差的 バラツキ 小さく) (upper:通常0) 試験治療優れる Δをどう選択するか? Smallest effect size There is little published experience 多 エ ンドポイ ント、 サ ブグルー プ解 析、症 例の 除外 :αの 増加 43 補足 補足 症例数設定 中間解析Interim analysis 検定(非劣性の場合には信頼区間の下限が1-β以上の 確率で閾値を超える )をもとに行うのが普通 検定の条件 interim monitoring: 主 に試 験管 理の目 的、スホ ゚ ンサー主 導・調 整委 員会 登録状 況、 プロ トコル 遵守状 況、( 両群 合わせた )エンドポ イ ント interim analysis: 主 に倫 理性 、独立モニ タリ ング委 員会、 群別 解析 重篤 な有 害事 象、予 想以 上の頻 度の 発生 既に有 効性に関 する 強い証拠 が出 てい る場 合の有 効中 止 こ れ以 上続け ても仮 説が 検証 でき ない 場合( futility)の 無効 中止 α :通 常は両 側 0.05、 非劣 性の場 合には 片側もあ り β : 0.20か 、 0.10が ふつう 意 味のあ る差 δ(非 劣性 の場 合には前 述の Δ) エンドホ ゚イ ントが イベント 発生の 場合に は、求 ま るの は必要 イベント 数 ベース(対 照群 )の発 生率 、登録 のスヒ ゚ード、脱 落率 優 越性 試験:こ れ以 上続け ても 標準 治療に勝 りそ うも ない、 あ るいは 劣る 可能 性が 高い 非 劣性 試験:こ れ以 上続け ても 非劣 性は証 明 できそう もない 、 あ るいは 劣る 可能 性が 高い か ら登録 期間 /登 録例数 が定 ま る 目的 意味のある 差δをどう設定するか 臨 床的に 意味 のある( 最小 の)差 期 待 でき る差、 期待したい 差、(可 能 な症 例数か らの逆 算) 45 使用目的を研究者の自己学習用に限り、その他への転用を禁じる 有効性中止の基準 繰 り返し検定に よ るαの 増加 46 ) 厳しい 基準 を採 用して全体 のα を制御 ( Lan-DeMetsの 方 法が 標準 8