...

CRCのための生物統計

by user

on
Category: Documents
29

views

Report

Comments

Transcript

CRCのための生物統計
CRCのための生物統計(大橋靖雄)
第2回CSPOR・CRCセミナー(2001/1/14∼16)
(生物)統計学は難し いか?
CRCのための生物統計(入門になるか?)
‹
東京大学医学系研究科 生物統計
大橋靖雄
数式を 使う
− そもそも数学が嫌い…アレルギー
概 念の 話は 数式無し でも 可能 ではあ る、し かし
正 確 な理 解・実 際の応 用は 困難、ただし
良い パ ッケージ の登 場が 状況 を変 えた、しかし
ブラ ックボ ック スとしての統 計手 法の誤 用・ 悪用
統計学は難しいか?
なぜ統計学が必要か?
がん臨床試験プロトコルを 読むために
生存時間解析入門
補足
‹
応用の学問である − (良い仕事には)応用分野の知識が必要
コミ ュニケ ーショ ン効 率の 問題: 臨床・統 計の 共同 作業必 要
背 景の 理解 無しでは研 究仮説 の妥 当性 が判断 できない
分 野毎 の応 用手法 のくせ( 習慣、 伝統 )があ る
1
2
統計学は難し いか?(続き)
(生物)統計学は難し いか?(続き)
‹
‹
‹
帰納(経験)の学問である − 結構、経験がものを 言う
常識の学問である
− 専門ばかでは困る
数学、(理論)統計学、応用統計学、生物統計学
現 実から 問題 を整 理する 、現実 的解 答を 導くことが仕 事
反 例が 一つあれ ば否 定される 純粋 数学 では ない
バ ラン ス、 センスの必 要性
統 計専 門家とし て既に 12年も 働いていたにもかか わらず スイ スの製 薬企業 で
働 きだしたときに、 私はい かに多くのこと を更に 学ば ねば なら ないか 知っ て
驚いた もの である 。それも、 医学 、薬学 、新 薬開発といった ことででは なく、
専 門の 統計 学を である 。
Senn, S(1997), Statistical Issues in Drug Development,Wiley : preface
統計学者とは、自分を一流の統計学者と思っている2級の数学者であり、...生物統計
学者とは、自分を一流の生物統計学者と思っている2級のサイエンティストのことで
ある。
Yuh, Lianng(1999), somewhere
‹
教育の問題
シ ステ ム(コー ス)、 教科 書、教 師
3
なぜ統計学が必要か?
(補足)臨床試験の統計学
数 理統 計学と応 用統 計学 の違い
さらに 他の応 用統 計学 の分野と の違い
対 象の 多様 性
実 験 ラ ンダム化
倫理
臨 床試 験方 法論
ラ ンダム化と 割り付け
中 間解 析の 方法論
生 存時 間解 析
継 時データ解 析 ……
4
バラツキの存在下での判断
例題:5円玉と1円玉はどち らが重いか?
SCLCで(CPT11+CDDP)と(VP-16+CDDP)の
どちらの予後が良いか?
最近10-15年間
で急速な展開
SCLC: 小細胞肺癌
CPT11:塩酸イリノテカン
CDDP:シスプラチン、 VP16:エトポシド
具 体的 手法につい てはここ では省 略
5
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
6
1
CRCのための生物統計(大橋靖雄)
‹
第2回CSPOR・CRCセミナー(2001/1/14∼16)
バラツキの存在下での判断
バラツキの存在下での判断(続き)
なぜ「5円玉の方が1円玉より重い」と判断するか?
なぜ「5円玉の方が1円玉より重い」と判断するか?
ともにバラツイてはいる :「分布」の概念の導入
バ ラツキ を客 観的・ 定量 的に扱 うために「 確率論 」を 応用
‹
‹
先験的な知識・常識(externalな証拠)の活用と一般化
実際の測定値の分布の比較 internalな証拠
比 較し てよい か、不 公平 な比 較 では ないか
5 円玉
「日 本中5 円玉 、1円 玉は どれ も同じ」
SCLC
選 択に偏 り ?しかし
無作 為(ラ ンダム) 抽出したとみ なし て良い
同じ 測定方 法
ランダ ム化
同じ測 定・ 追跡方 法
5円 玉
こ れま での「持った 感じ」
SCLC
第 II相 の結
先験情 報
果?
対象選 択
「日 本中 5円玉 、1 円玉は ど れも同じ」
一般化
無作 為(ラ ンダム) 抽出したとみ なし て良い
確 率的 な不確実さ があるも のの 可能
選択に 偏 り?
×
?
群 内の バラツ キと群間 の違い を比 較: シグナ ルとノ イズの 比較
7
8
このスライドは前回 のセミナー( 2000May)で提示
精密度と正確度 Precision and accuracy
(補足)一般化可能性のため に
観測値 = 真の値+バイアス+誤差的バラツキ
observed
true
bias
error
‹
患 者背 景の 解析
結 果の 差異 の説明
‹
部 分集 団の 解析
部 分集 団における 効果 の差、 交互 作用 の検討
accuracy
precision
‹
再 試験
FDAの 方 針
○
○
‹
メ タアナ リシ ス
複 数の 独立 な研 究結 果の 統計的 併合
○
×
‹
緩い 選択 条件
large-scale-rando mized-evide nce
×
○
‹
ITT( Inte nt(io n)-to-treat)解 析 : 割付け 後に起 きた事 象(有 害事象 ・
コ ン プ ライア ンス など )によ る解 析除外 を行 わ ない
×
×
true value
9
10
類似スライドを前 回のセミナー( 2000May)で提示
研究(計画・実施)に要求さ れる条件
統計手法・試験統計家の役割 (ICH E9)
Clarity
minimizing (random) error
‹ バラツキを小さくすること(精度を高くすること)
症 例数 増加、 感度 の高い エ ンドポイ ント、 統計 解析、 プ ロトコル 遵守、 データ管 理
‹ 偏り (バイアス)を小さくすること
Comparability
minimizing bias
internal validity内的妥当性
ラ ンダム化 、評価 の マスク、統 計解 析、 プロトコ ル遵 守、データ 管理
Generalizability
11
external validity 外的妥当性
追 試、 メタアナ リシ ス;患 者背 景( ログ)検 討、サ ブグル ープ 解析、 施設 差の
解析
12
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
2
CRCのための生物統計(大橋靖雄)
第2回CSPOR・CRCセミナー(2001/1/14∼16)
がん臨床試験プロ トコルを読む ため に
NSAS-BCから
‹
がん臨床試験プロ トコルを読む ため に
これを理 解できれば完 璧!
試験計画とくに割り付け方法
7-3-1(p.21)層別化因子に基づいて動的割り付け法を用いて割り付ける。
‹
症例数の設定根拠
‹
‹
‹
15-1-1(p.46) 同等とみなせる幅Δ これをハザード比に換算して 1.30
割り付け方法
必要性 具体的手法(おおよ そ)
解析集団
集団の違いによるバイ アス、ITTの考え方
統計的推測の方法
推 定・ 検定そし て信頼 区間 の概 念
α 、β、 検出 力
具 体的 手法( どこ ま で?)
α、β、Shoenfeld-Richterの式(正規近似)
‹
統計解析
15-6(pp.50-51) 群間の均衡性について、..分割表χ2検定、Wilcoxon検定、
Mantel検定
intent-to-treat principleに基づきKaplan-Meier法により無再発率を推定し、
log-rank検定を適用..信頼区間の計算にはGreenwoodの公式..予後因子の
影響の調整と治療効果の推定のためCoxの比例ハザードモデル...
‹
中間解析
15-7(p.52) Lan&DeMetsの方法で多重性を調整..ベイズ流予想確率13
優 越性 か非 劣性か 、その他 か( 選択、 用量 反応の 解析 など)
生 存時 間解 析の「 3種の 神器」
Kaplan-Meier推 定 、 Log-rank検 定 、 Cox回 帰(比 例ハ ザード モデ ル)
‹
‹
症例設定の根拠
中間解析
原理
必要性 多重性の必要性
14
生存時間解析入門
準備のため の質問
‹
死 亡率 の英 語は?
‹
比 率にあたる 英語
rate
ratio
proportion
‹
の 使い分け は?
40才 の 死亡 率の定 義は ?
‹
死 亡率 が一 定の場 合、 生存割 合( 累積生 存率) は どう 減少す るか ?
15
16
打ち切り
ハザード
‹
‹
発症率 罹患率
死亡率
event, failure: 目標の事象
打ち 切りcensoring 観測打ち切り termination of follow-up
脱落 drop-out, lost-to-follow up
morbidity, incidence rate
mortality, death rate
×
ともにこ れま で起き てい ない事 象(イベ ント) が新たに起 きる スピードとし て
‹
×
ハザード hazard
とが 用いられ る
*打 ち 切りはラ ンダムか ?
non-informative censoring
打ち切 りとその 後の予 後が 独立
informative censoring
17
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
18
3
CRCのための生物統計(大橋靖雄)
第2回CSPOR・CRCセミナー(2001/1/14∼16)
ハザードとその推定
‹
発症率、死亡率
ハザードhazard
物理 的 な単 位は [time]-1
単 位時 間あたりの新た なイベ ント の発生
‹
ハザードの直接推定(保険統計法) actuarial method
国 の人 口動 態統計 など
初期故障型
摩耗故障型
time
‹
偶然故障型
time
time
hazard =
臨床では、サンプルサイズ不足のため(累積)生存率推定
number of deaths
size of risk set - 0.5(deaths+dropout s)
19
20
生存関数の推定と比較
ハザードと(累積)生存率
ハザードと(累積)生存率の関連 hazard vs survival function
一定
生存関数の推定
打 ち切 り無けれ ば単純 で生存割 合を プ ロット
指 数 exponential関 数
λ(t)= λ
1
打 ち切 りあ れば Kaplan-Meier法 誤 差は Greenwoodの 公 式
生存関数の比較
S(t) = exp(- λt)
打 ち切 り無ければ ふつ うの連 続データの 解析
2倍になれば
ただし歪 み大き いの で変 換、 ないしノ ンパラ メト リック検 定
2乗
0.9 -> 0.81
0.8 -> 0.64
0.6 -> 0.36
3年 、 5年 等の 生存 割合の 比較
時 点選 択の 問題、 情報 のロ ス
微分方程式
微分と積分の関係
速度と到達距離の関連 数学的には1:1であるが統計的に
は?
21
ハ ザー ドの比 較
順 位を 用いる ノ ンパラ メト リック検定
22
e:オイラー乗数 2 71828
グラ フの見方:
(念のため)グラフが上にある方が生存成績が良い
右端の方は信頼性が低い
グラ フの下の面積が平均生存期間
MSTは50%の線と交わる時点
Kaplan-Meier法:積極限product-limit法
打ち切りはヒゲで示すことが多い
death1
10
1
9
1× (1 -1/1 0)
death1
censor1 death1
8
7
1× (1 -1/10 )× (1 -1/9 )
Median S urvival Time(MST)
6
1× (1-1 /10 )× (1-1 /9)× ( 1-1 /7)
23
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
24
4
CRCのための生物統計(大橋靖雄)
第2回CSPOR・CRCセミナー(2001/1/14∼16)
ハザードの違いのノン パラメトリック検定
ハザードの違いのノン パラメトリック検定
time
群1
2
10
death 1
death 1
10
death 1
検定統計量
群1
2
死
1
0
1
生存
9
10
19
10
10
20
群1
2
死
1
0
1
生存
8
10
18
χ2 =
(∑ weight (O − E )) 2
Variance
これが大きくなればなるほど群間差あり
Variance分散の式は省略
3.84より大のとき5%有意
9
10
19
ハザード等しければ
O-E = 1 - 1×10/20
1- 1×9/19
0- 1×10/20
0- 1×10/19
重み 1
risk-setの大きさ
Log-rank検定
Generalized Wilcoxon検定
O: observed, E: expected
25
26
出力 Output
出力 Output
Covariance Matrix for the Log-Rank Statistics
Testing Homogeneity of Survival Curves over Strata
Time Variable WEEK
DRUG
6-MP
CONTROL
Rank Statistics
DRUG
6-MP
CONTROL
Log-Rank
Wilcoxon
-10.251
10.251
-271.00
271.00
6-MP
CONTROL
6.25696
-6.25696
-6.25696
6.25696
Covariance Matrix for the Wilcoxon Statistics
DRUG
6-MP
CONTROL
6-MP
CONTROL
5457.11
-5457.11
-5457.11
5457.11
27
28
比例ハザードモデ ル Proportional hazard model
Cox 回帰 regression
出力 Output
hazard (t , x) = hazard ( t ) × f ( x)
Test of Equality over Strata
Test
Chi-Square
Pr >
DF Chi-Square
Log-Rank
Wilcoxon
16.7929
13.4579
1
1
0.0001
0.0002
-2Log(LR)
16.4852
1
0.0001
f ( x) = exp( β 1 x1 + β2 x2 + ...β k xk )
29
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
x :共 変量 covariates 人口 学的変 数( 性、年 齢)、 患 者特 性( PSなど)、
手 術・ 病理・ 他の腫 瘍の 特性、 検査 結果( 時系 列でも可) 、
治 療、 環境( 時代、 施設 )、 …
コー ド化: 数 値そのもの 、 0-1など
β :回 帰係数 ( 重み) : データ から推 定
もし x=1 (試 験治 療) x=0 (標 準治 療)とコー ド化し てあれ ば
β >0 試験 でリスク高く なる <0 リスク低く なる =0 差 無し
(β /標準 誤差 )2 > 1.962 統計 的に有 意(に Oと異 なる)
それぞ れの 変数 の影響 が掛け 算 で効い てくる ( 乗法 モデル )
30
5
CRCのための生物統計(大橋靖雄)
第2回CSPOR・CRCセミナー(2001/1/14∼16)
補足
補足
割り付け方法
‹
‹
割り付け方法(続き)
目的・目標
‹
実際に用いられている方法
既知の因子はもちろん、未知の因子についても群間で均衡
盲検可能な治験の場合
偏りの防止、感度の向上
盲検化できない場合には予見性を小さくする
一方で過度に複雑な手続きは避けたい
施設毎の置換ブロック法 permuted-block
2群ブロックの大きさ4の場合、AAPP,… PPAAの6通りを
施設毎にランダムに順次発生
ブロックの大きさはプロトコルに通常記載しない
盲検を行わないがん臨床試験の場合
層別を行うこともあり
通常は2-4程度の因子を用いた動的割り付け法
どの時点でもバランス取れるように割り付け確率変化させる
施設は因子に含める場合とアンバランス程度の制約を与える
場合あり(Zelenの方法)
具体的手法
盲検下をどこまで
中央登録かそれ以外か(封筒法は一般には×)
層別するか
背景因子を考慮した動的割り付けを行うか
施設をどうするか
割り付け比率は?
2群なら通常は1:1、ときに2:1など
31
32
補足
補足
ITT?(ワイス:医療の疫学第 4章)
ランダム化比較試験
化学療法 50名
手術療法 50名
ITT?
古今東西喧嘩のたね
全員治療
36名治療
9名拒否で化学療法
5名悪化で化学療法
臨床家
気持ち が悪い
医学的に意味がない
どの群とど の群とを 比較すべきか?
50 vs 36, 59 vs 36, 64 vs 36, 50 vs 50 ….
統計家
その通り
そうかもしれない
しかし統計的にValid
そもそもなぜラン ダム化したの
か?
33
34
補足
補足
ITT? 何を評価するのか
ITT?
処方しようとする意思
実際の処方
服薬
血中濃度
組織内濃度
治療しようとする意思に基づく解析
割付け後、何が起きようともその群として解析
実は人によって異なるいくつかのレベル、曖昧
なぜ? 解析対象選択に伴うバイ アス避ける
ラン ダム化によ って保証される comparability保つ
統計解析の基礎(p値の根拠)を作る
35
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
ITT
per-protocol
PK-guided study
環境(副作用軽減対策などの)変化によって
ITTの意義が薄れる こともあり
36
6
CRCのための生物統計(大橋靖雄)
第2回CSPOR・CRCセミナー(2001/1/14∼16)
補足
補足
ITT? 有名な実例
解析対象集団 Analysis Sets
Coron ary Drug Project Researc h Group (19 80) NE JM 30 3 1038-10 41
‹
‹
ALL
5-years cumulative mortality
Compliance > 80%
< 80%
FAS(最大の解析対象集団)とPPS(プロトコル遵守例)
CONSORT(Consolidated Standard of Reporting of Trials)に
従った流れ図
ラ ン ダム化した全 症例
Clofibrate
18.0%
15.7%
22.5%
Placebo
19.5
16.4
25.8
明 らか な組 み入れ 違反 例
組 み入 れ基 準適合 例
未 投与 例、投 与後 未観 測例
最 大の 解析 対象集 団
違反 例、 脱落例
試 験計 画適 合例
37
38
補足
補足
信頼区間 Confidence interval
仮説検定testの原理:一種の背理法
帰無仮説「新薬は効かない、標準薬と同等かそれ以下」
1/5 ≠ 4/20 ≠ 20/100 ≠ 200/1000
情報量(precision)の差
95% 信頼区間 confidence interval
そのもとで、
現実に得られたデータ以上に新薬に有利な結果
が得られる 確率を 計算
(正確な計算あるいは正規近似)
1/5:
0.005-0.72
p ± 196
. × p( 1 − p ) / n
4/20:
0.06-0.44
正規近似
20/100:
0.12-0.28
200/1000: 0.18-0.22
P値
例 :新 薬とプラ セボ のクロ スオーヴァ ー 2重 盲検比 較試 験
エ ン ドポイ ント :どちら が効いた か? 患者の 選択
10人 中 10人が 新薬 選択 P値 は ( 1/2) 10=1/1024=0.00 098
9人 なら 10人と 9人の分 を加 えて ( 1/2) 10+10 ( 1/2) 10=0.011
39
40
補足
補足
仮説検定の原理:一種の背理法
p値が基準の値(5%)以下なら
帰無仮説を棄却する (「新薬は効く」と判断する )
対立仮説を選択する
あるいは 何かインチキ? と判断する
GCP(品質保証)による排除
工業における 抜き取り検査sampling inspectionの抽象化
繰り返しプロ セスにおける 平均的特性の確保
(Neyman-Pearson)
それは科学か? ( Fisherの批判)
41
仮説検定の原理
治療Aと治療Bの反応率の比較
A
B
反応あ り なし
mA
nA-mA
mB
nB -mB
計
nA
nB
帰無仮説のもとでは反応は固定している と考えてよい
並べ替えによ って、現実のデータ以上に極端なパ
ターン が得られる 確率を 計算
design-based: Fisherの直接確率
反応率 p=n/mによ って母集団の反応率を 推定、差の正規近似
model-based: Zあるいはχ2乗検定
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
42
7
CRCのための生物統計(大橋靖雄)
第2回CSPOR・CRCセミナー(2001/1/14∼16)
補足
仮説検定と2種類の過誤
α(第1種 )と β (第2種)
補足
優越性試験と非劣性試験
治 療効 果の 差と信頼 区間 : Test-Control (95% or 90%)
事実
新薬 は効く
効か ない
優 越性 : Superior
意思 決定
承認
(仮 説を 捨てる)
1-β
検 出力 power
α
false-positive
非 劣性 : Non-inferior
sensitivity
承認し ない
β
false-negative
同 等: Equivalent
1-α
specificity
Lower:Δ
( 仮説 を捨 てない)
行 政側 : α の維持
スホ ゚ン サー:資 源の 制約 下でβを 小さく ( 症例 数増や す、誤 差的 バラツキ 小さく)
(upper:通常0)
試験治療優れる
Δをどう選択するか?
Smallest effect size
There is little published experience
多 エ ンドポイ ント、 サ ブグルー プ解 析、症 例の 除外 :αの 増加
43
補足
補足
症例数設定
‹
‹
中間解析Interim analysis
検定(非劣性の場合には信頼区間の下限が1-β以上の
確率で閾値を超える )をもとに行うのが普通
検定の条件
‹
interim monitoring: 主 に試 験管 理の目 的、スホ ゚ ンサー主 導・調 整委 員会
登録状 況、 プロ トコル 遵守状 況、( 両群 合わせた )エンドポ イ ント
interim analysis: 主 に倫 理性 、独立モニ タリ ング委 員会、 群別 解析
重篤 な有 害事 象、予 想以 上の頻 度の 発生
既に有 効性に関 する 強い証拠 が出 てい る場 合の有 効中 止
こ れ以 上続け ても仮 説が 検証 でき ない 場合( futility)の 無効 中止
α :通 常は両 側 0.05、 非劣 性の場 合には 片側もあ り
β : 0.20か 、 0.10が ふつう
意 味のあ る差 δ(非 劣性 の場 合には前 述の Δ)
エンドホ ゚イ ントが イベント 発生の 場合に は、求 ま るの は必要 イベント 数
ベース(対 照群 )の発 生率 、登録 のスヒ ゚ード、脱 落率
優 越性 試験:こ れ以 上続け ても 標準 治療に勝 りそ うも ない、
あ るいは 劣る 可能 性が 高い
非 劣性 試験:こ れ以 上続け ても 非劣 性は証 明 できそう もない 、
あ るいは 劣る 可能 性が 高い
か ら登録 期間 /登 録例数 が定 ま る
‹
目的
意味のある 差δをどう設定するか
臨 床的に 意味 のある( 最小 の)差
期 待 でき る差、 期待したい 差、(可 能 な症 例数か らの逆 算)
‹
45
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
有効性中止の基準
繰 り返し検定に よ るαの 増加
46 )
厳しい 基準 を採 用して全体 のα を制御 ( Lan-DeMetsの 方 法が 標準
8
Fly UP