...

メタ解析の読み方

by user

on
Category: Documents
27

views

Report

Comments

Transcript

メタ解析の読み方
メタ解析の読み方
慈恵ICU勉強会
2014/9/9
児島千里
JAMA. 2014; 312: 171-­‐179. Abstract
•  Clinical decisionは、個々のstudyの結果ではなく、最良のエビデンスに 基づいて行うべきである。 •  Systema1c ReviewやMeta-­‐analysisは非常に便利なツールである。 •  臨床医が結果を自身の患者に適応するとき、 Systema1c Reviewの質を評価できることがとても重要である。 •  今回Systema1c Reviewを読むにあたり、2つの分け方で評価 ① Credibility レビューの方法の信用性 ② Confidence 効果推定値の信頼性 •  1994年にJAMAユーザーズガイドでははっきり区別されていなかった 上記2項目が改定された。
Clinical Scenario
•  66-­‐year-­‐old man •  Undergoing Hip replacement •  Smoker, type2 DM, HT c
1
a
System
w
e
i
rev
Periopera1ve β-­‐blockers reduce the risk of postopera1ve cardiovascular complica1ons? Heart. 2014; 100: 456-­‐464.
・・・・How should you use this ? Introduc3on and Defini3ons
•  数多くのclinical ques1onを取り上げた膨大な数の研究の存在によって、
レビュー論文は関連するエビデンスを学ぶための有効な手段 •  Narra1ve Review 伝統的な文献レビューで、一次研究の 質評価や結果の要約に系統的な手法 をとることをしない •  Systema1c Review 焦点を絞ったclinical ques1onについて 系統的かつ再現可能な状態で検討する 研究のまとめ(バイアスを減らす努力あり) •  Meta-­‐analysis 同じアウトカムを測定した複数の研究 の結果を定量的に統合し、治療効果 などの単一の最良推定値を求めるための定量的統合のこと
Why Seek Systema3c Reviews and Meta-­‐analysis?
Reviewの種類
Narra1ve
主観的 客観的
文献ソフト 再現性
主観的 なし
(偉い先生の意見)
Systema1c
Meta-­‐
analysis
客観的
あり
質的 量的
統計的手法
なし
質的 (Qualita1ve)
量的 (Quan1ta1ve)
なしorあり
必ずあり
Systema3c Reviewの実施プロセス
1 疑問を明確に定義する
2 組み入れ基準と除外基準を決める
3 異質性を説明する仮説を事前にたてる
・・・どの研究をレビューに加えるか(PICO、研究デザイン)
妥当な結果をもたらす可能性が最も高い論文を選択するためのガイド
治療 ・患者はランダム割り付けされていたか ・追跡は終了しているか
4 文献を検索する
5 タイトルと抄録を同定する 6 基準を満たしたものは全文を読む 7 バイアスの可能性を調べる
8 データの抽出を行う
9 メタ解析を行う場合、 推定値とCIの要約、異質性の説明、効果推定値の精確さ
判断 ・サンプルとなった患者はその疾患の患者を代表していたか ・診断の妥当性が、研究での病歴・身体診察・検体検査・画像 検査に関する項目とは独立した信頼できる基準を使って評価 されていたか
害
・既知のすべてのアウトカム決定因子が揃っていることを示して いるか、または解析において相違に調整を加えたか ・追跡は十分に完了していたか
予後 ・患者サンプルが代表的なものだったか ・追跡は十分に完了していたか
Ann N Y Acad Sci. 1993; 703: 125-­‐133.
今回Systema1c Reviewを読むにあたり、2つの分け方で評価 •  不適当な適格基準 〈1〉 Credibility •  不十分な文献検索 レビューの方法の信用性 •  最適でない結果の要約 〈2〉 Confidence •  個々の研究のバイアス 効果推定値の信頼性 •  一貫性のない結果 •  小さなサンプルサイズ Judge
研究者 → レビュア → 臨床医 レビュー論文を利用するためのユーザーズガイドが有効!
レビューの結果を評価し臨床適応するために
Judge
First Judgement
Credibility:レビューの方法の信用性
①レビューが取り扱っている疑問が意味のあるものか
•  例: (1)あらゆる癌に対するあらゆる療法のあらゆる結果(癌の進行や死亡) (2)前立腺癌患者の化学療法による癌死亡率に対する効果 (3)手術抵抗性の前立腺癌患者へのドセタキセルによる癌死亡率に対する効果 (4)手術抵抗性の転移性前立腺癌患者へのドセタキセルによる癌死亡率に対する効果 •  疑問が広い/狭いとは:臨床医にとって期待に添ったものかどうか その範囲の患者にわたって同じ治療効果が得られるか •  レビュアが検討しようとする患者、暴露、アウトカム(PICO)がどの範囲のものかについて 精確に記載してるかどうか → レビューへの組み入れのための基準が提示されているか レビューへ組み入れられた基準が適切だったか
・組み込まれた患者の範囲(年齢・重症度)は全般を通して似たような結果だといえるか? ・研究の介入または暴露の範囲(投与量など)は似たような結果? ・アウトカムを測定するための方法の範囲(追跡期間)は? ・すべての研究が似たような結果だったか? Users’ Guides to the Medical Literature. A Manual for Evidence-­‐Based Clinical Prac1ce, Second Edi1on.
Clinical Scenario
Heart. 2014; 100: 456-­‐464.
✓PICOそれぞれについて明確な疑問設定がなされている Pa1ent:心血管以外の手術を受ける心血管リスクが平均より高い患者 Interven1on/Control: β-­‐blocker vs no β-­‐blocker Outcome:Primary outcomeは30日もしくは退院時までの死亡 Secondary outcomeは非致死的心筋梗塞、脳卒中、低血圧 ②関連する研究の検索は、詳細かつ網羅的か
•  入手可能な適格研究からのサンプルが、代表的なものでなければ、 レビューは誤った結果を示す危険性がある。 【最低限】1) MEDLINE(PubMed) EMBASE Cochrane Central Register of Controlled Trials 【さらに】 最新のデータベースを見る 専門家に直接コンタクトをとる 学会で最近発表された抄録を調べる 使用頻度の少ないデータベースを見る •  レビューに必要な文献は、MEDLINEだけでは55%、EMBASEだけでは49%しか 拾えない。2) •  42%のメタアナリシスでMEDLINEに表示されていない研究を最低1つは含む。3) •  関連する研究を特定するためにどんなことをしたかをレビュアが明らかにしない と、関連する研究がどれくらい見逃されたかを知ることは難しい。 1)Cochrane Handbook for Systema1c Reviews of Interven1ons.Version5.1.0 2)Cochrane Database Syst Rev. 2007; (2):MR000001. 3)Health Technol Assess. 2003; 7: 1-­‐76. Clinical Scenario
✓多大なデータベースとレジストリーで検索している Heart. 2014; 100: 456-­‐464.
③研究の選択と評価は再現可能か
レビューへ組み入れのた基準が適切だったか
・組み込まれた患者の範囲(年齢・重症度)は全般を通して似たような結果だといえるか? ・研究の介入または暴露の範囲(投与量など)は似たような結果? ・アウトカムを測定するための方法の範囲(追跡期間)は? ・すべての研究が似たような結果だったか? どの研究を組み入れるのか バイアスの危険性の評価 レビュアの判断(主観的) どのデータを抽出するのか •  判断に複数の人が関わると防げる •  統計学的にレビュア間で偶然を超える良い一致があれば、 そのプロセスはさらに信頼できる(κ)
エラー!
Clinical Scenario
✓2人の独立したレビュアが研究の選択をしているが、レビュア間の 一致についての記載はない •  結果の見方 1)
④結果は何か
Forest plot
点推定値、大きさは研究サイズ 統合した結果
信頼区間 Confidence Interval
真の治療効果が存在すると考えられる範囲。 サンプルサイズがより大きく、またそれに応じて イベント発生数がより多いほど、より精確な 信頼区間(より狭い信頼区間)が得られる。 RRが1.0を下回ることを実証する肯定的試験に
おいては、サンプルサイズが充分だったかどう
かを判断するためにCIの上限をみるとよい。 (逆に否定的試験では下限をみる)2) 生のデータの提示は絶対リスク(効果)の差や 治療必要数(NNT)を計算するのを容易にする 効果あり 効果なし
1)Heart. 2014; 100: 456-­‐464. 2)Users’ Guides to the Medical Literature. 2nd Edi1on.
④結果は何か
•  連続変数の結果(アウトカム)を連続のまま表記するのではなく、 よりわかりやすく提示する工夫がある。 •  ある尺度に分ける •  馴染みのある単位にする •  二値変数値 (100人に治療すると何人改善する・・・など) moderate large
small
Clinical Scenario
Heart. 2014; 100: 456-­‐464.
✓結果について理解しやすいように提示しているが、生のデータに ついては、rela1ve effectはあるがabsolute effectがない •  Baseline risk: 52 per 1000 (最もサイズの大きいstudyの生データから) Risk with interven1on: 52×0.73 = 38 per 1000 Absolute risk difference: 52-­‐38 = 14 (95%CI:6-­‐20) NNT = 72 1)Heart. 2014; 100: 456-­‐464. 2)Users’ Guides to the Medical Literature. A Manual for Evidence-­‐Based Clinical Prac1ce,Second Edi1on.
Second Judgement
Confidence:効果推定値の信頼性
GRADEシステムによるエビデンスの質 Grades of recommenda3on,assessment,development,and evalua3on1)
High 今後の研究によって効果推定値の確信性が変わる可能性は低い
Moderate 今後に研究によって効果推定値の確信性に重大な影響が及ぶ可能性が高く、 RCTに基づくエビデンス
推定値が変わる可能性がある Low 今後の研究によって効果推定値の確信性に重大な影響が及ぶ可能性が非常に高く、 推定値が変わる可能性が大きい
:複数の観察研究
Very low あらゆる効果推定値が不確実である
【エビデンスの質を下げうる原因】 ➊ 方法論的限界(バイアス) ➋ 結果の非一貫性 ➌ 結果の不精確さ ➍ エビデンスの非直接性 ➎ 出版バイアス
【エビデンスの質を上げうる原因】 ➏ 効果の程度が大きいetc ➊~➏を
Judge
1) J Clin Epidemiol. 2011; 64: 1312.
➊バイアスの可能性は大きいか
•  誤った結果を導く2つの原因:1. 系統誤差(バイアス) 2. ランダム誤差(偶然) •  バイアスは真実からの系統的な逸脱を引き起こす (誤差が何らかの方向性を持つ) •  Cochrane Risk of Bias Tool1) Selec1on bias
ランダムに割り付けられているか
Performance bias 研究過程が盲検化されているか
Detec1on bias
結果が盲検化されているか
Akri1on bias
未完成のデータ(脱落etc)
Repor1ng bias
報告バイアス
1)Cochrane Handbook for Systema1c Reviews of Interven1ons figure8.6a Clinical Scenario
•  11の研究のうち、9つはバイアスの回避を行っており、 Low risk of biasと言える。 •  2つがHigh risk of biasと考えられる。 原因は、盲検化していない 明らかな効果で早期中止 データの精確さの懸念 ✓バイアスの可能性は評価されている。 Heart. 2014; 100: 456-­‐464.
➋結果は研究同士で似ていたか
•  多少の異質性(ばらつき)は必ずある。 •  その異質性は、一連の研究の結果を統合して1つの要約効果を導き出すのにさしつかえる程度のものか? •  レビューは、臨床医がばらつきをチェックできるような方法で提示されている
1)
P<0.001, I2=95%
P=0.36, I2=6%
P=0.97, I2=0
研究結果のばらつきを評価する方法2)
ばらつきの視覚的評価 1 点推定値はどの程度似ているか 2 信頼区間の重なりはどの程度か
ばらつきを評価するための統計的検定 (異質性検定)
3 Cochran Q test(P値が低い:<0.1で疑惑を持つべき) 4 I 2検定(ばらつきの程度を%で。>50%は異質性大) ➋結果は研究同士で似ていたか
研究結果のばらつきを評価する方法
ばらつきの視覚的評価 1 点推定値はどの程度似ているか 2 信頼区間の重なりはどの程度か
ばらつきを評価するための統計的検定 (異質性検定)
3 Cochran Q test(P値が低い:<0.1で疑惑を持つべき) 4 I2検定(ばらつきの程度を%で。>50%は異質性大) •  研究間のばらつきが大きい場合はどうすべきか? ⇒異質性の原因を探すべきである。
異質性の原因を探す方法 ・サブグループ解析 交互作用の検定でのP値が低いほど、サブグループ間の違いは偶然ではない
・メタ回帰分析 1)Users’ Guides to the Medical Literature. A Manual for Evidence-­‐Based Clinical Prac1ce, Second Edi1on.図一部改訂
2)CMAJ. 2005; 172: 661-­‐665. Clinical Scenario
非致死的心筋梗塞 死亡
脳卒中
CI重なり多い
ばらつき大
I2=29%;P=.21 Interac1on test between groups, P=.22
I2=0%;P=.71 I2=30%;P=.16 Interac1on test between groups, P=.04 Interac1on test between groups, P=.75
✓異質性について十分評価されている ➌結果はどれくらい精確か
•  誤った結果を導く2つの原因:1. 系統誤差(バイアス) 2. ランダム誤差(偶然) •  ランダム誤差は、サンプルサイズが小さいとき(イベント発生数が少ないとき)に大きくなる。 •  サンプルサイズが小さいとより広い信頼区間となる。 •  信頼区間の上限と下限がRR1.0をまたいでしまうと結果は精確性が低下する。 効きますよ 無効です 1.0
1000人中 20人減らす CIの上限と下限が1.0をまたいでいる・・・
こちらをどうとらえるかは価値観の問題。
1000人中 6人減らす Clinical Scenario
非致死的心筋梗塞
死亡
脳卒中
信頼区間が1.0またいでる!
0.67(95%CI 0.47-­‐0.96)
0.94(95%CI 0.63-­‐1.40)
✓非致死性心筋梗塞では結果は精確である。 1.67(95%CI 1.00-­‐2.80)
➍結果は自分の患者にそのまま適応できるか
•  対象となる集団や介入やアウトカムが、関連する研究に含まれる集団や
介入やアウトカムと同様でない場合、エビデンスは弱くなる よくある例: 高齢の患者を除いた研究結果をもとに高齢の患者をケアしようとする!(対象集団が同様でない) J Clin Epidemiol. 2011; 64: 743-­‐748. (アウトカムが同様と言えない例) DMの患者で心配されるアウトカムは血管障害であるのに、HbA1cを代理アウトカムとして用いている。
•  非直接的な比較が行われている場合、エビデンスは弱くなる J Clin Endocrinol Metab. 2012; 97: 1871-­‐1880. 骨粗しょう症におけるアレンドロン酸とリセドロン酸の相対的有効性 非直接性の原因:非直接的な比較 それぞれとプラセボの比較を行うRCTは多数あるが、アレンドロン酸とリセドロン酸の比較を行った研究はない。
Clinical Scenario
•  レビューの研究の患者は50-­‐70歳、今回のシナリオは66歳。 •  研究の多くは心血管リスク因子のある、中リスクの手術を受ける患者を 含んでおり、今回の症例も高血圧、糖尿病、喫煙歴のある股関節置換 (中リスク)を受ける患者であり似ている。 •  薬剤の種類や投与量は個々の研究でさまざまであったが、一般的に適度 な量のβブロッカーを使用してもよいという結果であった。 •  心筋梗塞、脳卒中、死亡は患者にとって重要なアウトカムである。 ✓以上よりレビューは、研究に含まれる患者やアウトカムが今回のと同様で、 結果は直接適応できる。 ➎報告バイアスの心配はないか
•  著者が、結果の大きさ、方向性、統計的有意性に基づいて、偏った発表をする →この傾向から生じる系統誤差:報告バイアスrepor1ng bias •  Posi1ve studyが発表される確率はNega1ve studyの3倍も高い1) •  報告バイアスは、研究の計画、実行、公開のどの段階でも生じうる2)
Funnel plots
治療効果の 精確さ (サンプルサイズ)
3)
公開されなかった nega1ve study その他の非対称性の原因 ・より限定的な(つまり反応の良い) 集団であった場合 ・介入がより慎重に実行され、 その効果は本当に、小規模試験 でより大きい場合 0.1 0.5 1.0 2.0 10 治療効果の大きさ(オッズ比)
1)BJM. 1997; 315: 640-­‐645. 2) Users’ Guides to the Medical Literature. A Manual for Evidence-­‐Based Clinical Prac1ce, 2nd Edi1on.
3)Users’ Guides to the Medical Literature. A Manual for Evidence-­‐Based Clinical Prac1ce, Second Edi1on.図一部改変
Clinical Scenario
Heart. 2014; 100: 456-­‐464.
Repor1ng Bias •  レビュアはfunnel plotを検定し、非対称性は否定的である。 しかし、これで報告バイアスを否定できるものではない。※ ※報告バイアスを検出するための検定方法が 多々開発されているが、どれも限界があり、 funnel plotの対称性の検定に関しては 適切な検定方法は今のところないとされている。 BJM. 2006; 333: 597-­‐600. ➏エビデンスの質を上げる要因があるか
•  効果の程度が大きい場合 例:THAによる重症骨関節炎患者での運動制限の緩和 エピネフリンによるアナフィラキシー時の死亡率低下 インスリンによるDKA患者の死亡率低下 透析による末期腎不全患者の余命延長
•  考えうる全ての交絡が効果を下げる方向に働いている場合2) 例:比較的重症な患者のみが介入を受け、それでもなお改善が見られた場合は、 実際の介入の効果は、データによって示されるものより大きい可能性が高い。 •  用量反応勾配2) 例:INRが正常の患者において出血リスクが増加するという複数の観察研究結果が 得られている場合、INRが延長している患者と出血リスク増加との間に、 用量反応勾配がある。
2)Users’ Guides to the Medical Literature. A Manual for Evidence-­‐Based Clinical Prac1ce, Second Edi1on.
Clinical Scenario
Confidence in the Es1mates •  結局、信頼性の高いエビデンスは、心血管リスクのある患者では周術期
の非致死的心筋梗塞の発症を1000人中14人(6-­‐20人)減らす。 •  残念ながら、死亡と脳卒中のリスクを増加させ得る。 •  ほとんどの人が脳卒中と死亡を恐れるため、このエビデンスをみた患者
の多くはβ-­‐ブロッカーを周術期に服用することを避ける。 •  実際に今回の症例の男性は、エビデンスを提示されたときに、 服用しないことを選んだ。 結論
•  このユーザーズガイドはシステマティックレビューとメタアナリシスの 質を評価する手助けになる。 •  ① Credibility レビューの方法の信用性 ② Confidence 効果推定値の信頼性 •  この2つを評価してから結果を臨床適応していくことが重要。 
Fly UP