CRCのための生物統計

by user

on 28-03-2017

Category: Documents

>> Downloads: 5

views

Report

Comments

Description

Download CRCのための生物統計

Transcript

CRCのための生物統計

CRCのための生物統計（大橋靖雄）
第2回CSPOR･CRCｾﾐﾅｰ（2001/1/14∼16）
(生物）統計学は難しいか？
CRCのための生物統計（入門になるか？）

東京大学医学系研究科生物統計
大橋靖雄
数式を使う
− そもそも数学が嫌い…アレルギー
概念の話は数式無しでも可能ではある、しかし
正確な理解・実際の応用は困難、ただし
良いパッケージの登場が状況を変えた、しかし
ブラックボックスとしての統計手法の誤用・悪用
統計学は難しいか？
なぜ統計学が必要か？
がん臨床試験プロトコルを読むために
生存時間解析入門
補足

応用の学問である − （良い仕事には）応用分野の知識が必要
コミュニケーション効率の問題：臨床･統計の共同作業必要
背景の理解無しでは研究仮説の妥当性が判断できない
分野毎の応用手法のくせ（習慣、伝統）がある
1
2
統計学は難しいか？（続き）
(生物）統計学は難しいか？（続き）

帰納（経験）の学問である − 結構、経験がものを言う
常識の学問である
− 専門ばかでは困る
数学、（理論）統計学、応用統計学、生物統計学
現実から問題を整理する、現実的解答を導くことが仕事
反例が一つあれば否定される純粋数学ではない
バランス、センスの必要性
統計専門家として既に 12年も働いていたにもかかわらずスイスの製薬企業で
働きだしたときに、私はいかに多くのことを更に学ばねばならないか知って
驚いたものである。それも、医学、薬学、新薬開発といったことでではなく、
専門の統計学をである。
Senn, S(1997), Statistical Issues in Drug Development,Wiley : preface
統計学者とは、自分を一流の統計学者と思っている２級の数学者であり、...生物統計
学者とは、自分を一流の生物統計学者と思っている２級のサイエンティストのことで
ある。
Yuh, Lianng(1999), somewhere

教育の問題
システム（コース）、教科書、教師
3
なぜ統計学が必要か？
（補足）臨床試験の統計学
数理統計学と応用統計学の違い
さらに他の応用統計学の分野との違い
対象の多様性
実験ランダム化
倫理
臨床試験方法論
ランダム化と割り付け
中間解析の方法論
生存時間解析
継時データ解析 ……
4
バラツキの存在下での判断
例題：５円玉と１円玉はどちらが重いか？
SCLCで（CPT11+CDDP）と（VP-16+CDDP）の
どちらの予後が良いか？
最近10-15年間
で急速な展開
SCLC: 小細胞肺癌
CPT11:塩酸イリノテカン
CDDP:シスプラチン、 VP16:エトポシド
具体的手法についてはここでは省略
5
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
6
1
CRCのための生物統計（大橋靖雄）

第2回CSPOR･CRCｾﾐﾅｰ（2001/1/14∼16）
バラツキの存在下での判断
バラツキの存在下での判断（続き）
なぜ「5円玉の方が１円玉より重い」と判断するか？
なぜ「5円玉の方が１円玉より重い」と判断するか？
ともにバラツイてはいる：「分布」の概念の導入
バラツキを客観的・定量的に扱うために「確率論」を応用

先験的な知識・常識（externalな証拠）の活用と一般化
実際の測定値の分布の比較 internalな証拠
比較してよいか、不公平な比較ではないか
５円玉
「日本中５円玉、１円玉はどれも同じ」
SCLC
選択に偏り？しかし
無作為（ランダム）抽出したとみなして良い
同じ測定方法
ランダム化
同じ測定・追跡方法
５円玉
これまでの「持った感じ」
SCLC
第 II相の結
先験情報
果？
対象選択
「日本中５円玉、１円玉はどれも同じ」
一般化
無作為（ランダム）抽出したとみなして良い
確率的な不確実さがあるものの可能
選択に偏り？
×
？
群内のバラツキと群間の違いを比較：シグナルとノイズの比較
7
8
このスライドは前回のセミナー（ 2000May)で提示
精密度と正確度 Precision and accuracy
（補足）一般化可能性のために
観測値＝真の値＋バイアス＋誤差的バラツキ
observed
true
bias
error

患者背景の解析
結果の差異の説明

部分集団の解析
部分集団における効果の差、交互作用の検討
accuracy
precision

再試験
FDAの方針
○
○

メタアナリシス
複数の独立な研究結果の統計的併合
○
×

緩い選択条件
large-scale-rando mized-evide nce
×
○

ITT（ Inte nt(io n)-to-treat)解析：割付け後に起きた事象（有害事象・
ｺﾝﾌﾟﾗｲｱﾝｽなど）による解析除外を行わない
×
×
true value
9
10
類似スライドを前回のセミナー（ 2000May)で提示
研究(計画・実施）に要求される条件
統計手法・試験統計家の役割（ICH E9）
Clarity
minimizing (random) error
バラツキを小さくすること（精度を高くすること）
症例数増加、感度の高いエンドポイント、統計解析、プロトコル遵守、データ管理
偏り (バイアス）を小さくすること
Comparability
minimizing bias
internal validity内的妥当性
ランダム化、評価のマスク、統計解析、プロトコル遵守、データ管理
Generalizability
11
external validity 外的妥当性
追試、メタアナリシス；患者背景（ログ）検討、サブグループ解析、施設差の
解析
12
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
2
CRCのための生物統計（大橋靖雄）
第2回CSPOR･CRCｾﾐﾅｰ（2001/1/14∼16）
がん臨床試験プロトコルを読むために
NSAS-BCから

がん臨床試験プロトコルを読むために
これを理解できれば完璧！
試験計画とくに割り付け方法
7-3-1(p.21)層別化因子に基づいて動的割り付け法を用いて割り付ける。

症例数の設定根拠

15-1-1(p.46）同等とみなせる幅Δ これをハザード比に換算して 1.30
割り付け方法
必要性具体的手法（おおよそ）
解析集団
集団の違いによるバイアス、ITTの考え方
統計的推測の方法
推定・検定そして信頼区間の概念
α 、β、検出力
具体的手法（どこまで？）
α、β、Shoenfeld-Richterの式（正規近似）

統計解析
15-6(pp.50-51）群間の均衡性について、..分割表χ2検定、Wilcoxon検定、
Mantel検定
intent-to-treat principleに基づきKaplan-Meier法により無再発率を推定し、
log-rank検定を適用..信頼区間の計算にはGreenwoodの公式..予後因子の
影響の調整と治療効果の推定のためCoxの比例ハザードモデル...

中間解析
15-7(p.52） Lan&DeMetsの方法で多重性を調整..ベイズ流予想確率13
優越性か非劣性か、その他か（選択、用量反応の解析など）
生存時間解析の「 3種の神器」
Kaplan-Meier推定、 Log-rank検定、 Cox回帰（比例ハザードモデル）

症例設定の根拠
中間解析
原理
必要性多重性の必要性
14
生存時間解析入門
準備のための質問

死亡率の英語は？

比率にあたる英語
rate
ratio
proportion

の使い分けは？
40才の死亡率の定義は？

死亡率が一定の場合、生存割合（累積生存率）はどう減少するか？
15
16
打ち切り
ハザード

発症率罹患率
死亡率
event, failure：目標の事象
打ち切りcensoring 観測打ち切り termination of follow-up
脱落 drop-out, lost-to-follow up
morbidity, incidence rate
mortality, death rate
×
ともにこれまで起きていない事象（イベント）が新たに起きるスピードとして

×
ハザード hazard
とが用いられる
*打ち切りはランダムか？
non-informative censoring
打ち切りとその後の予後が独立
informative censoring
17
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
18
3
CRCのための生物統計（大橋靖雄）
第2回CSPOR･CRCｾﾐﾅｰ（2001/1/14∼16）
ハザードとその推定

発症率、死亡率
ハザードhazard
物理的な単位は [time]-1
単位時間あたりの新たなイベントの発生

ハザードの直接推定（保険統計法） actuarial method
国の人口動態統計など
初期故障型
摩耗故障型
time

偶然故障型
time
time
hazard =
臨床では、サンプルサイズ不足のため（累積）生存率推定
number of deaths
size of risk set - 0.5(deaths+dropout s)
19
20
生存関数の推定と比較
ハザードと（累積）生存率
ハザードと(累積）生存率の関連 hazard vs survival function
一定
生存関数の推定
打ち切り無ければ単純で生存割合をプロット
指数 exponential関数
λ(t)= λ
1
打ち切りあれば Kaplan-Meier法誤差は Greenwoodの公式
生存関数の比較
S(t) = exp(- λt)
打ち切り無ければふつうの連続データの解析
2倍になれば
ただし歪み大きいので変換、ないしノンパラメトリック検定
2乗
0.9 -> 0.81
0.8 -> 0.64
0.6 -> 0.36
3年、 5年等の生存割合の比較
時点選択の問題、情報のロス
微分方程式
微分と積分の関係
速度と到達距離の関連数学的には１：１であるが統計的に
は？
21
ハザードの比較
順位を用いるノンパラメトリック検定
22
e：オイラー乗数 2 71828
グラフの見方：
(念のため）グラフが上にある方が生存成績が良い
右端の方は信頼性が低い
グラフの下の面積が平均生存期間
MSTは50%の線と交わる時点
Kaplan-Meier法：積極限product-limit法
打ち切りはヒゲで示すことが多い
death1
10
1
9
1× (1 -1/1 0)
death1
censor1 death1
8
7
1× (1 -1/10 )× (1 -1/9 )
Median S urvival Time(MST)
6
1× (1-1 /10 )× (1-1 /9)× ( 1-1 /7)
23
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
24
4
CRCのための生物統計（大橋靖雄）
第2回CSPOR･CRCｾﾐﾅｰ（2001/1/14∼16）
ハザードの違いのノンパラメトリック検定
ハザードの違いのノンパラメトリック検定
time
群１
2
10
death 1
death 1
10
death 1
検定統計量
群1
2
死
1
0
1
生存
9
10
19
10
10
20
群1
2
死
1
0
1
生存
8
10
18
χ2 =
(∑ weight (O − E )) 2
Variance
これが大きくなればなるほど群間差あり
Variance分散の式は省略
3.84より大のとき5%有意
9
10
19
ハザード等しければ
O-E = 1 - 1×10/20
1- 1×9/19
0- 1×10/20
0- 1×10/19
重み 1
risk-setの大きさ
Log-rank検定
Generalized Wilcoxon検定
O: observed, E: expected
25
26
出力 Output
出力 Output
Covariance Matrix for the Log-Rank Statistics
Testing Homogeneity of Survival Curves over Strata
Time Variable WEEK
DRUG
6-MP
CONTROL
Rank Statistics
DRUG
6-MP
CONTROL
Log-Rank
Wilcoxon
-10.251
10.251
-271.00
271.00
6-MP
CONTROL
6.25696
-6.25696
-6.25696
6.25696
Covariance Matrix for the Wilcoxon Statistics
DRUG
6-MP
CONTROL
6-MP
CONTROL
5457.11
-5457.11
-5457.11
5457.11
27
28
比例ハザードモデル Proportional hazard model
Cox 回帰 regression
出力 Output
hazard (t , x) = hazard ( t ) × f ( x)
Test of Equality over Strata
Test
Chi-Square
Pr >
DF Chi-Square
Log-Rank
Wilcoxon
16.7929
13.4579
1
1
0.0001
0.0002
-2Log(LR)
16.4852
1
0.0001
f ( x) = exp( β 1 x1 + β2 x2 + ...β k xk )
29
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
x ：共変量 covariates 人口学的変数（性、年齢）、患者特性（ PSなど）、
手術・病理・他の腫瘍の特性、検査結果（時系列でも可）、
治療、環境（時代、施設 )、 …
コード化：数値そのもの、 0-1など
β ：回帰係数（重み）：データから推定
もし x=1 （試験治療） x=0 （標準治療）とコード化してあれば
β >0 試験でリスク高くなる <0 リスク低くなる =0 差無し
(β /標準誤差 )2 > 1.962 統計的に有意（に Oと異なる）
それぞれの変数の影響が掛け算で効いてくる（乗法モデル）
30
5
CRCのための生物統計（大橋靖雄）
第2回CSPOR･CRCｾﾐﾅｰ（2001/1/14∼16）
補足
補足
割り付け方法

割り付け方法（続き）
目的・目標

実際に用いられている方法
既知の因子はもちろん、未知の因子についても群間で均衡
盲検可能な治験の場合
偏りの防止、感度の向上
盲検化できない場合には予見性を小さくする
一方で過度に複雑な手続きは避けたい
施設毎の置換ブロック法 permuted-block
2群ブロックの大きさ4の場合、AAPP,… PPAAの６通りを
施設毎にランダムに順次発生
ブロックの大きさはプロトコルに通常記載しない
盲検を行わないがん臨床試験の場合
層別を行うこともあり
通常は2-4程度の因子を用いた動的割り付け法
どの時点でもバランス取れるように割り付け確率変化させる
施設は因子に含める場合とアンバランス程度の制約を与える
場合あり（Zelenの方法）
具体的手法
盲検下をどこまで
中央登録かそれ以外か（封筒法は一般には×）
層別するか
背景因子を考慮した動的割り付けを行うか
施設をどうするか
割り付け比率は？
2群なら通常は1:1、ときに2:1など
31
32
補足
補足
ITT?（ワイス：医療の疫学第 4章）
ランダム化比較試験
化学療法 50名
手術療法 50名
ITT?
古今東西喧嘩のたね
全員治療
36名治療
9名拒否で化学療法
5名悪化で化学療法
臨床家
気持ちが悪い
医学的に意味がない
どの群とどの群とを比較すべきか？
50 vs 36, 59 vs 36, 64 vs 36, 50 vs 50 ….
統計家
その通り
そうかもしれない
しかし統計的にValid
そもそもなぜランダム化したの
か？
33
34
補足
補足
ITT? 何を評価するのか
ITT?
処方しようとする意思
実際の処方
服薬
血中濃度
組織内濃度
治療しようとする意思に基づく解析
割付け後、何が起きようともその群として解析
実は人によって異なるいくつかのレベル、曖昧
なぜ？解析対象選択に伴うバイアス避ける
ランダム化によって保証される comparability保つ
統計解析の基礎（ｐ値の根拠）を作る
35
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
ITT
per-protocol
PK-guided study
環境（副作用軽減対策などの）変化によって
ITTの意義が薄れることもあり
36
6
CRCのための生物統計（大橋靖雄）
第2回CSPOR･CRCｾﾐﾅｰ（2001/1/14∼16）
補足
補足
ITT? 有名な実例
解析対象集団 Analysis Sets
Coron ary Drug Project Researc h Group (19 80) NE JM 30 3 1038-10 41

ALL
5-years cumulative mortality
Compliance > 80%
< 80%
FAS（最大の解析対象集団）とPPS（プロトコル遵守例）
CONSORT（Consolidated Standard of Reporting of Trials）に
従った流れ図
ﾗﾝﾀﾞﾑ化した全症例
Clofibrate
18.0%
15.7%
22.5%
Placebo
19.5
16.4
25.8
明らかな組み入れ違反例
組み入れ基準適合例
未投与例、投与後未観測例
最大の解析対象集団
違反例、脱落例
試験計画適合例
37
38
補足
補足
信頼区間 Confidence interval
仮説検定testの原理：一種の背理法
帰無仮説「新薬は効かない、標準薬と同等かそれ以下」
1/5 ≠ 4/20 ≠ 20/100 ≠ 200/1000
情報量（precision）の差
95% 信頼区間 confidence interval
そのもとで、
現実に得られたデータ以上に新薬に有利な結果
が得られる確率を計算
(正確な計算あるいは正規近似)
1/5:
0.005-0.72
p ± 196
. × p( 1 − p ) / n
4/20:
0.06-0.44
正規近似
20/100:
0.12-0.28
200/1000: 0.18-0.22
Ｐ値
例：新薬とプラセボのクロスオーヴァー 2重盲検比較試験
エンドポイント :どちらが効いたか？患者の選択
10人中 10人が新薬選択Ｐ値は（ 1/2） 10=1/1024=0.00 098
9人なら 10人と 9人の分を加えて（ 1/2） 10+10 （ 1/2） 10=0.011
39
40
補足
補足
仮説検定の原理：一種の背理法
p値が基準の値（5%）以下なら
帰無仮説を棄却する（「新薬は効く」と判断する）
対立仮説を選択する
あるいは何かインチキ？と判断する
ＧＣＰ（品質保証）による排除
工業における抜き取り検査sampling inspectionの抽象化
繰り返しプロセスにおける平均的特性の確保
(Neyman-Pearson）
それは科学か？（ Fisherの批判）
41
仮説検定の原理
治療Aと治療Bの反応率の比較
A
B
反応ありなし
mA
nA-mA
mB
nB -mB
計
nA
nB
帰無仮説のもとでは反応は固定していると考えてよい
並べ替えによって、現実のデータ以上に極端なパ
ターンが得られる確率を計算
design-based： Fisherの直接確率
反応率 p=n/mによって母集団の反応率を推定、差の正規近似
model-based： Zあるいはχ２乗検定
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
42
7
CRCのための生物統計（大橋靖雄）
第2回CSPOR･CRCｾﾐﾅｰ（2001/1/14∼16）
補足
仮説検定と２種類の過誤
α(第１種 )と β (第2種）
補足
優越性試験と非劣性試験
治療効果の差と信頼区間 : Test-Control (95% or 90%)
事実
新薬は効く
効かない
優越性： Superior
意思決定
承認
（仮説を捨てる）
1-β
検出力 power
α
false-positive
非劣性： Non-inferior
sensitivity
承認しない
β
false-negative
同等： Equivalent
1-α
specificity
Lower:Δ
（仮説を捨てない）
行政側： α の維持
ｽﾎﾟﾝｻｰ：資源の制約下でβを小さく（症例数増やす、誤差的バラツキ小さく）
(upper：通常0)
試験治療優れる
Δをどう選択するか？
Smallest effect size
There is little published experience
多エンドポイント、サブグループ解析、症例の除外：αの増加
43
補足
補足
症例数設定

中間解析Interim analysis
検定（非劣性の場合には信頼区間の下限が1-β以上の
確率で閾値を超える）をもとに行うのが普通
検定の条件

interim monitoring：主に試験管理の目的、ｽﾎﾟﾝｻｰ主導・調整委員会
登録状況、プロトコル遵守状況、（両群合わせた）ｴﾝﾄﾞﾎﾟｲﾝﾄ
interim analysis：主に倫理性、独立ﾓﾆﾀﾘﾝｸﾞ委員会、群別解析
重篤な有害事象、予想以上の頻度の発生
既に有効性に関する強い証拠が出ている場合の有効中止
これ以上続けても仮説が検証できない場合（ futility）の無効中止
α ：通常は両側 0.05、非劣性の場合には片側もあり
β ： 0.20か、 0.10がふつう
意味のある差 δ（非劣性の場合には前述の Δ）
ｴﾝﾄﾞﾎﾟｲﾝﾄがｲﾍﾞﾝﾄ発生の場合には、求まるのは必要ｲﾍﾞﾝﾄ数
ﾍﾞｰｽ（対照群）の発生率、登録のｽﾋﾟｰﾄﾞ、脱落率
優越性試験：これ以上続けても標準治療に勝りそうもない、
あるいは劣る可能性が高い
非劣性試験：これ以上続けても非劣性は証明できそうもない、
あるいは劣る可能性が高い
から登録期間／登録例数が定まる

目的
意味のある差δをどう設定するか
臨床的に意味のある（最小の）差
期待できる差、期待したい差、（可能な症例数からの逆算）

45
使用目的を研究者の自己学習用に限り、その他への転用を禁じる
有効性中止の基準
繰り返し検定によるαの増加
46 ）
厳しい基準を採用して全体のα を制御（ Lan-DeMetsの方法が標準
8