s 1 - Researchmap

by user

on 28 марта 2017

Category: Documents

>> Downloads: 5

views

Report

Comments

Description

Download s 1 - Researchmap

Transcript

s 1 - Researchmap

2013/08/24 日本行動療法学会第39回大会自主シンポジウム
「失敗しない研究計画入門: 観察研究、尺度研究、非薬物療法の
介入研究の研究報告の質向上のためのガイドラインの理解」
尺度研究の必須事項
土屋政雄
1
健康関連QOLの概念モデル
個人の特性
症状の
増幅
生物・生理
的変数
症状の
状態
心理的
支援
個人の
動機
価値・選好
機能の
状態
全般的
健康の
認知
社会的
経済的
支援
社会的
心理的支援
環境の特性
Wilson and Cleary(1995) JAMA; 273(1):59-65
全体的
生活の質
非医学的要因
2
既存の尺度作成ガイドライン
• the Scientific Advisory Committee of the
Medical Outcomes Trust (SAC-MOS)
• アメリカ心理学会（APA）
• Terweeらの基準
APAのガイドラインは心理・教育分野，SAC-MOSと
Terweeらの基準は多くの専門家によるコンセンサスなし
COSMIN
Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45.
3
[スライド引用+追加] 奥村泰之：COSMINチェックリストの概要と共通項目の理解
（http://blue.zero.jp/yokumura/Rhtml/session10.html）
英語表記
• COSMIN (COnsensus-based Standards for the selection of
health Measurement INstruments)
– 健康関連尺度の選択に関する合意に基づく指針
COSMIN (http://www.cosmin.nl/)
4
[スライド引用+追加] 奥村泰之：COSMINチェックリストの概要と共通項目の理解
（http://blue.zero.jp/yokumura/Rhtml/session10.html）
尺度特性の分類と関係性
信頼性
内的一貫性
信頼性
内容的
妥当性
表面的
妥当性
測定誤差
基準関連
妥当性
de Vet et al
(2011)
Measurement in
Medicine の
表紙画像
反応性
反応性
妥当性
構造的
妥当性
構成概念妥当性
異文化間
妥当性
仮説検定
解釈
可能性
5
Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45.
Take home message
•
•
•
•
•
データを取る前に必要な人数を決める
変化のない集団について再評価を行う
仮説を具体的に記述する
尺度翻訳は個人でなくチームで進める
臨床に役立つ尺度特性を示す
6
Take home message
•
•
•
•
•
データを取る前に必要な人数を決める
変化のない集団について再評価を行う
仮説を具体的に記述する
尺度翻訳は個人でなくチームで進める
臨床に役立つ尺度特性を示す
7
サンプルサイズ
何人からデータをと
ればよいですか？
尺度特性の種類に
よって推奨人数が
示されているよ
8
尺度特性の分類と関係性
信頼性
内的一貫性
信頼性
内容的
妥当性
表面的
妥当性
測定誤差
基準関連
妥当性
反応性
反応性
妥当性
構造的
妥当性
構成概念妥当性
異文化間
妥当性
仮説検定
解釈
可能性
9
Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45.
サンプルサイズ
• サンプルサイズとサンプルサイズ決定
プロセスの情報を示す[1]
– データを集める前の作業
[1] Wilkinson & the Task Force on Statistical Inference APA Board of Scientific Affairs, 10
(1999) Statistical Methods in Psychology Journals, American Psychologist.;54:594–604.
• general
サンプルサイズ
分析に用いられるサンプルサイズは適切か？
Excellent 十分なサンプルサイズ（≥100）
good
良好なサンプルサイズ（50-99）
fair
ほどほどのサンプルサイズ（30-49）
poor
少ないサンプルサイズ（<30）
• A. 内的一貫性
項目5：単一次元性の分析に用いられるサンプルサイズは適
切か？
Excellent 7*項目数かつ≥100
good
5*項目数かつ≥100 または6-7*項目数だが<100
fair
5*項目数だが<100
poor
<5*項目数
11
• E. 構造的妥当性
項目4：分析に用いられるサンプルサイズは適切か？
Excellent 7*項目数かつ≥100
good
5*項目数かつ≥100 または5-7*項目数だが<100
fair
5*項目数だが<100
poor
<5*項目数
• G. 異文化間妥当性
項目3：分析に用いられるサンプルサイズは適切か？
Excellent
古典的テスト理論（CTT）: 7*項目数かつ≥100
項目反応理論（IRT）: グループごとに≥200
good
CTT: 5*項目数かつ≥100 または5-7*項目数だが<100
IRT: 1グループが≥200でもう1グループが100-199
fair
CTT: 5*項目数だが<100
IRT: グループごとに100-199
poor
CTT: <5*項目数
IRT: 1つまたは両方のグループが<100
12
記載例1
（方法, 結果）
サンプルサイズ
• 方法：臨床測定的特性の検証
– 研究のサンプルサイズはTerweeらの推奨により
決定された[28]
– 構成概念妥当性，再テスト信頼性，天井／床効果
は少なくとも50名が必要で，内的一貫性の分析に
は約100名が必要であった
• 結果
– 全部で90名の患者が研究に参加した。61名が再
検査信頼性の研究に参加し，59名がCOMI得点
の両方の測定を完了した
Storheim et al. (2012): Eur Spine J 21:2539-2549
13
記載例2
（方法）
サンプルサイズ
• 方法
– サンプルサイズは上肢機能指標（ULFI）の先行研
究[7,8,26]から決定された。並存的妥当性，内的一
貫性，因子構造の検討に80%の検定力で行うた
め，15%の脱落を見込んで最低でも106名の患者
が必要であった（p<0.05）[46]。信頼性の検討には
最低でも29名が必要であった。
Cuesta-Vargas & Gabel. Health Qual Life Outcomes. 2013;11:126.
14
Take home message
•
•
•
•
•
データを取る前に必要な人数を決める
変化のない集団について再評価を行う
仮説を具体的に記述する
尺度翻訳は個人でなくチームで進める
臨床に役立つ尺度特性を示す
15
信頼性・測定誤差
再検査信頼性って
必要ですか？
必ずやりましょう。
きちんとした手続きで
16
尺度特性の分類と関係性
信頼性
内的一貫性
信頼性
内容的
妥当性
表面的
妥当性
測定誤差
基準関連
妥当性
反応性
反応性
妥当性
構造的
妥当性
構成概念妥当性
異文化間
妥当性
仮説検定
解釈
可能性
17
Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45.
信頼性・測定誤差
Box B. および Box C.
項目4：少なくとも2回の測定がなされたか？
項目5：測定の実施は独立か？
項目6：測定の間隔が述べられているか？
項目7：測定された構成概念について，期間中に患者
達は安定していたか？
項目8：測定の間隔は適切か？
項目9：測定条件は両方で同様か？
18
信頼性・測定誤差
• 短期の内に少なくとも2回は測定する
– 2週間程度が多い
– 対象者の内，一部のサンプルでよい
• アンカーを用いて変化のない集団を特定する
– global rating of change (GRC)
– global perceived effect (GPE)
– patient global impression of change
– transition ratings
– global scale
COSMIN Manual; Kamper et al. J Man Manip Ther. 2009;17(3):163-70.
19
信頼性・測定誤差
• アンカー尺度の例
あなたの打撲症に関して，発生直後に比べた今の状態に
ついて評価してください
-5
-4
-3
Very
much
Worse
とても悪くなった
-2
-1
0
1
Unchanged
変化なし
Kamper et al. J Man Manip Ther. 2009;17(3):163-70.
2
3
4
5
Completely
Recovered
すっかり回復した
20
信頼性・測定誤差
• アンカー尺度の例
研究の開始時から，私の全体的な状態は，
1
2
3
4
5
6
7
□
□
□
□
□
□
□
非常に改善した（Very Much Improved）
とても改善した（Much Improved）
わずかに回復した（Minimally Improved）
変化なし
わずかに悪化した（Minimally Worse）
とても悪化した（Much Worse）
非常に悪化した（Very Much Worse）
Farrar et al. Pain 2001; 94: 149-158.
21
記載例1
（方法）
信頼性・測定誤差
腰痛のコアアウトカム測定指数（COMI）
ノルウェー語版の妥当性と異文化間修正
• 対象
– ノルウェイ，オスロの3つの理学療法クリニック（プライマリケ
ア），1つの外来リハビリクリニック，1つのペインクリニック（
大学病院），1つの整形外科部署（大学病院）で募集された
腰痛の患者
• 測定ポイント
– 初回から次の受診時に回答。1週間が目標。
Storheim et al. (2012): Eur Spine J 21:2539-2549
22
記載例1
（方法）
信頼性・測定誤差
• 測定指標
– the Core Outcome Measures Index: COMI
• COMIは7つの質問から構成され，5つの領域を対象としている。
COMI指標得点（範囲0-10）は各領域からのコア項目を変換して平
均したものにより計算される。
– 全体的評定（global question）
• 6件法リッカート，期間中の腰痛の状態の変化を測定
• 再現性（Reproducibility）
– 主要な分析はテストと再テストに参加したすべての参加者
を対象に行った。追加的な分析は，テストから再テストにか
けて腰痛の状態が安定（変化なし）の患者に限定して行った
Storheim et al. (2012): Eur Spine J 21:2539-2549
23
記載例1
（結果）
信頼性・測定誤差
• 期間の長さ
– 初回から再検査までの期間の中央値は7日（範囲1-31日）
• 再現性
測定誤差
領域／コア
項目(n)
範囲
信頼性
初回の
再検査の
SEM MDC MDC(%) ICC(95%CI) Kappa W
平均（SD）平均（SD）
(95%CI)
Table 3の画像
Storheim et al. (2012): Eur Spine J 21:2539-2549
24
記載例1
（結果）
信頼性・測定誤差
• 感度分析
– 再検査時に全体的評定尺度で"変化なし"と回答した
34名の患者で感度分析を行ったところ，同様の結果が
得られた
– もう1つの感度分析では，再検査までの期間が短い（
<5日），また長い（>14日）者を除いて行ったが，結果
は変わらなかった
Storheim et al. (2012): Eur Spine J 21:2539-2549
25
記載例2
（方法）
信頼性・測定誤差
オランダ版下肢機能尺度は変形性股関節／
膝関節症の者において高い信頼性、妥当性、
反応性を持つ：妥当性研究
• 対象
– Sint Maartenskliniek病院で整形外科医により変形性股関
節／膝関節症の診断を受けた患者
• 測定ポイント
– 本研究の集団では、再検査信頼性の時間間隔として、3週
間が適切だと考えられた。
Hoogeboom et al. BMC Musculoskelet Disord. 2012;13:117
26
記載例2
（方法）
信頼性・測定誤差
• 測定指標
– 変形性関節症の機能評定
• LEFS
– 7件法の全体的評定尺度（global perceived effect:
GPE）
• 完全に回復した（completely recovered）
• かなり改善した（much improved）
• わずかに改善した（slightly improved）
• 変化なし（not changed）
• わずかに悪化した（slightly worse）
• かなり悪化した（much worse）
• 非常に悪化した（vastly worsened）
Hoogeboom et al. BMC Musculoskelet Disord. 2012;13:117
27
記載例2
（結果）
信頼性・測定誤差
• 信頼性とminimal detectable change
– 5名が改善(5%)(GPE=1-2)、3名が悪化(3%)(GPE=6-7)、
ほとんどが安定(92%)(GPE=3-5)
– 2要因の変量効果ANOVAによるオランダ版LEFSのICCは
全体で0.86であった。膝グループ（n=81）と股関節グループ
（n=25）のICCはそれぞれ0.87、0.78であった
– 測定の標準誤差は4.4ポイントであった
– LEFSのMDC90とMDC95はそれぞれ10ポイントと12ポイント
であった
Hoogeboom et al. BMC Musculoskelet Disord. 2012;13:117
28
Take home message
•
•
•
•
•
データを取る前に必要な人数を決める
変化のない集団について再評価を行う
仮説を具体的に記述する
尺度翻訳は個人でなくチームで進める
臨床に役立つ尺度特性を示す
29
仮説検証
この研究の仮説は
何ですか？
よく指摘されるけど、
実際どんな風に記述
したらよいのだろう・・・
30
尺度特性の分類と関係性
信頼性
内的一貫性
信頼性
内容的
妥当性
表面的
妥当性
測定誤差
基準関連
妥当性
反応性
反応性
妥当性
構造的
妥当性
構成概念妥当性
異文化間
妥当性
仮説検定
解釈
可能性
31
Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45.
仮説検証
Box F.
項目4：相関や平均値差についての仮説が事前に生成さ
れているか？（例：データ収集前から）
Excellent 多数の仮説が事前に生成されている
good
最低限の数の仮説が事前に生成されている
fair
poor
仮説があいまいか，生成されていないが何が
予期されているか推測できる
何が予期されているか不明
項目5：予期される相関や平均値差の方向は仮説
に含まれているか？
項目6：予期される相関や平均値差の強さは仮説に
含まれているか？
32
仮説と結果をTableに
まとめて表示
記載例
（結果）
COMIの
領域
仮説
相関の値
痛みの症状
痛み症状はBIPQとEQ-5Dの痛み/不快項
目が設問項目5（背部症状）と中程度から
高い相関を持つと予想される。RMDQ指
標は痛み関連の障害として異なる側面を
測定しているので，中程度の相関が予想
される
BIPQ:0.51
BIPQ: yes
EQ-5D pain: EQ-5D pain:
0.46
yes
RMDQ:
RMDQ: yes
0.51
(中略)
(中略)
COMI指数
仮説は検証
されたか？
COMI指数とEQ-5Dは共に様々な健康の EQ-5Dフル： EQ-5D：yes
RMDQ: no
側面が混在している尺度のため，高い相 -0.71
HSCL-25: no
関が予想される。RMDQとHSCLは，痛み RMDQ:
に関連した活動と心理的現象を測定する， 0.64
より「きれい」な尺度であり，COMI指数と HSCL-25:
0.68
の相関は中程度だと予想される
相関係数 0.3未満=低，0.3-0.6=中程度，0.6以上=高
BIPQ :短期疾病尺度; RMDQ: ローランド・モリス障害尺度；
EQ-5D: Euro-Qol-5次元指標; HSCL-25: ホプキンス症状チェックリスト
Storheim et al. (2012): Eur Spine J 21:2539-2549
33
相関係数とp値（ Nakagawa & Cuthill , 2007 ）
• p値が示せないもの
– 効果の不確実性
– 効果の方向
– 効果の強さ
p<0.0001 (n=20)
p<0.0001 (n=200)
p=0.05 (n=20)
p=0.05 (n=200)
p=0.06 (n=20)
p=0.06 (n=200)
p=0.5 (n=20)
p-p-!
p-p-!
p=0.5 (n=200)
-0.4 -0.2
0
0.2
0.4
0.6
0.8
相関係数
Fig 2より
34
Take home message
•
•
•
•
•
データを取る前に必要な人数を決める
変化のない集団について再評価を行う
仮説を具体的に記述する
尺度翻訳は個人でなくチームで進める
臨床に役立つ尺度特性を示す
35
尺度の翻訳
先生，尺度翻訳し
たいんですけど！
翻訳チームを作って
系統的に進めよう
36
尺度特性の分類と関係性
信頼性
内的一貫性
信頼性
内容的
妥当性
表面的
妥当性
測定誤差
基準関連
妥当性
反応性
反応性
妥当性
構造的
妥当性
構成概念妥当性
異文化間
妥当性
仮説検定
解釈
可能性
37
Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45.
異文化間妥当性（尺度の翻訳含む）
• 単純な翻訳だけでは不十分
– 適正な手続きは，複数回の順・逆方向の翻訳を少なくとも
それぞれのステップにおいて2名の翻訳者が行うことである
• 元にしている測定指標の翻訳と適合のための
既存のガイドライン
– International Quality of Life Assessment(IQOLA) [41]*
– the MAPI Research Institute [42]
– the European Organisation of Research and Treatment
of Cancer(EORTC) [43]
*文献番号はCOSMIN checklist manualのものによる
教科書では： Beaton et al. (2000). Spine (Phila Pa 1976) ;25(24):3186-91.
38
- 2名の翻訳者（T1 & T2）
ステージ1： - 順方向翻訳
- 目的を知っている+知らない
翻訳
- T1 & T2をT12に統合
それぞれのバージョンの報告
（ T1 & T2 ）
ステージ2： - 報告に基づき不一致を解決
統合
報告書
- 2名の英語を母国語とする者
それぞれのバー
ステージ3： - 測定指標について知らない
ジョンの報告
逆翻訳 - 2つの逆翻訳を作成
（ BT1 & BT2 ）
（BT1 & BT2）
-全ての報告書をレビュー
ステージ4： - 方法論者，開発者，
専門家委員言語の専門家，翻訳者達
報告
会のレビュー - 不一致について合意形成
- プレ最終バージョン作成
ステージ5：
事前テスト
Beaton et al., (2000) ;Spine 25, 2186-91
- n=30-40
- 質問票完成
- 項目の理解に
ついて確認
報告
開
発
者
／
委
員
会
に
よス
りテ
すー
べジ
て 6
の：
報
告
の
提
案
と
評
価
39
尺度の翻訳
Box G.
項目5：翻訳過程に参加した者の専門性が十分に記述されているか？
項目6：翻訳者達はお互いに独立して作業したか？
項目7：項目は順・逆方向に翻訳されたか？
項目8：原版と翻訳版の違いがどのように解消されたかについて十分な
記述があるか？
項目9：翻訳は委員会により精査されたか？（例：原版の作成者）？
項目10：解釈，翻訳についての文化的関連，読解力の容易さの確認の
ため，健康関連患者報告式アウトカム（HR-PRO）の事前テスト（例：認
知的インタビュー）は行われたか？
項目11：事前テストに用いられた対象者について十分な記述があるか？
項目12：対象者における言語と文化的背景以外の全ての特徴は同様
40
か？
記載例1
（方法）
翻訳過程
• 方法
– COMIの原版は，母国語がノルウェー語である独立した2
名の異なるプロフィールの訳者（臨床家と文献学者）によ
りノルウェー語に順方向の翻訳がなされた。ノルウェー語
翻訳版は，元の英語版を知らない，2名のネイティブの英
語話者が英語への逆方向翻訳を行う前に，合意を図った
– 翻訳者間の正式会議において，翻訳者達，1名の健康の
専門家，研究チームの研究者達が，全ての翻訳をレビュ
ーし，不一致の点につき最終的な合意が得られるまで議
論が行われた
– 最終的なノルウェー語版は，最初に研究に参加した患者
達によりレビューされた。ここで，読み，解釈，質問票への
記入に問題がなかったため，修正は行われなかった。
Storheim et al. (2012): Eur Spine J 21:2539-2549
41
記載例2
（方法）
翻訳過程
修正頸部疼痛尺度（NDI）のトルコ版翻訳
と臨床測定学的特性
• 研究の順序
– 本研究の実施は，同時期にAslanらがトルコ語版の尺度
を作成している情報を知らずに行われた。
• トルコ語版作成
– NDIの翻訳はback-forward法[30]が用いられ，COSMIN
の推奨[31]に従った。
Kesiktas et al. BMC Musculoskelet Disord. 2012;13:25.
42
記載例2
（方法）
翻訳過程
• トルコ語版作成（続き）
– まず項目はお互いに知らない2名のネイティブなトルコ語
話者によりトルコ語に翻訳された。翻訳は研究チームによ
り検討された（主な関心分野が，腰痛と頚痛である3名の
教授）。次に，尺度は1名のネイティブな英語話者により
再度トルコ語に翻訳された。トルコ語版尺度と英語の原版
の文章の同等性について，研究チームにより検討された
– 実践上の問題は，10名の小集団サンプルにより検討され
た。この集団で得られた結果により，修正が行われた
→次スライドの結果参照
Kesiktas et al. BMC Musculoskelet Disord. 2012;13:25.
43
記載例2
（結果）
翻訳過程
• 結果
– 翻訳におけるパイロット調査で，最初の項目の”痛みの強度”は
，”あなたの頸部の痛み”に修正された。3つ目の項目の「持ち
上げる」は，”頸部の痛みがない時に，持ち上げる際に重さを等
しくする”という文が，重い物を持ち上げる事について明確に目
的を伝えるために追加された。項目7で，「仕事」について，”も
し働いていなかったらオプションＧにチェックを入れてください”
が追加された。
– パイロット調査で参加者から最もよく質問されたのは，項目10
に関してであった。”レクリエーション”は”余暇時間の活動”とし
て理解できるので，こちらに修正した。パイロット調査の9名は
運転をしない者であったので，項目8の回答に問題があった。
働いてない者や余暇活動を行わない者がいたので，セクション
7，8，10に”行ったことがない”が追加された
Kesiktas et al. BMC Musculoskelet Disord. 2012;13:25.
44
記載例3
（方法）
翻訳過程
• パイロット調査の詳しい記述
– 最終的なオランダ語版について，平均年齢が65歳（範囲
は24歳から86歳）の24名の股関節変形性関節症または
人工股関節の患者（男性10名，女性14名）に対して理解
可能性の検討面接を健康の専門家が行った。
– オックスフォード股関節尺度に回答した後，患者は系統的
に質問を受け，質問に関して考えたこと，各質問項目の
言葉づかい，質問項目の理解のしやすさ，読みやすさ，
質問票への回答経験を述べた
Paulsen et al., Bone Joint Res. 2012 ;1(9):225-33.
45
Take home message
•
•
•
•
•
データを取る前に必要な人数を決める
変化のない集団について再評価を行う
仮説を具体的に記述する
尺度翻訳は個人でなくチームで進める
臨床に役立つ尺度特性を示す
46
臨床に役立つ尺度特性
介入の結果、尺度
の得点が5点も
変化しました！
その変化得点って
妥当なの？どのレベル
の改善度なの？
47
尺度特性の分類と関係性
信頼性
内的一貫性
信頼性
内容的
妥当性
表面的
妥当性
測定誤差
基準関連
妥当性
反応性
反応性
妥当性
構造的
妥当性
構成概念妥当性
異文化間
妥当性
仮説検定
解釈
可能性
48
Mokkink LB et al: J Clin Epidemiol. 2010 Jul;63(7):737-45.
反応性
• 定義
– 測定される構成概念における，時間経過に
よる変化を検出することについての患者
報告式アウトカムの能力
→変化得点の妥当性
• 必要な情報
– 変化の有無について確かめるために，
信頼性・測定誤差の部分で紹介した，
アンカーが用いられることが多い
COSMIN checklist manual
49
反応性
Box I.
項目4：少なくとも2回の測定による縦断デザインが用いられているか？
項目5：期間が述べられているか？
項目6：期間中に生じたことについて十分述べられているか？
（例：介入，他の関連イベント）
項目7：変化のあった患者の割合は示されたか（例：改善または悪化）？
確定基準（gold standard）がない場合
項目8：得点の変化についての仮説が事前に生成されているか（例：
データをとる前）
項目11：比較する尺度の十分な説明はあるか？
確定基準がある場合
項目15：変化の基準は確定基準として適切だとみなされるか？
50
縦断デザインの必要な箇所まとめ
ベ
ー
ス
ラ
イ
ン
信頼性・
測定誤差
2週間
程度
変化なし
反応性・
解釈可能性
介入・治療・イベント
数か月
～年
一定数の変化あり
51
記載例1
（方法）
反応性
慢性腰痛と変性椎間板疾患の患者におけるSF6D，
EQ5Dおよびoswestry disability indexの比較
• 対象
– 多施設無作為割付比較試験での172名の腰痛患者
• 測定ポイント
– ベースライン，2年後
• 指標
–
–
–
–
SF6D：0.29から1.00の範囲で，1.00が完全な健康
EQ5D：-0.59から1の範囲で，1が完全な健康
ODI：10項目，0から100で，100が完全に障害
7件法の全体評定（「受けている治療からどれ位の便益を得
られると思いますか」）
Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148.
52
記載例1
（方法）
反応性
• 反応性
– ODIと2年後の7段階評定尺度を確定基準として反
応性が評定された。
– まず，SF6D，EQ5D，ODIのベースラインから2年
後フォローアップ時点での変化得点についてスピア
マンの順位相関を算出
– 次に，SF6D，EQ5D，ODIと，全体評定の2区分（
1-3：改善，4-7：非改善）でROCの曲線化面積（
AUC）を算出
Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148.
53
記載例1
（結果）
反応性
• 尺度の変化得点と全体
評定カテゴリーのスピア
マンの順位相関は0.84
，0.55，0.76（それぞれ
ODI，EQ5D，SF6D）で
感
あった。
度
• ROC曲線下面積，つま
り患者を「改善」か「非
改善」正しく弁別する可
能性とその95%信頼区
間はそれぞれODIで
94%（87.5-97.6），
SF6Dで90%（82.194.6），EQ5Dで83%（
75-90）であった。
Fig4のROC曲線の画像
100-特異度
54
Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148.
記載例2
（方法）
反応性
オランダ版下肢機能尺度は変形性股関節／
再
膝関節症の者において高い信頼性、妥当性、
掲
反応性を持つ：妥当性研究
• 対象
– Sint Maartenskliniek病院で整形外科医により変形性股関
節／膝関節症の診断を受けた患者
• 測定ポイント
違
い
– 反応性については改善をとらえ、レスポンスシフトのリスク
を最小化するのに3か月が適切だとみなした
Hoogeboom et al. BMC Musculoskelet Disord. 2012;13:117
55
記載例2
（結果）
反応性
• 反応性
– 7名が改善(7%)(GPE=1-2)、9名が悪化
(9%)(GPE=6-7)、ほとんどが安定(85%)
(GPE=3-5)
– ROC曲線解析による改善患者のLEFSのAUCは
0.76（95%CI:0.49-1.00）、・・・（略）・・・であった。
悪化患者の（以下略）
Hoogeboom et al. BMC Musculoskelet Disord. 2012;13:117
56
解釈可能性
• 定義
– 質的な意味，つまり，臨床的または一般的に理
解される言外の意味を尺度の量的得点や変化
得点に付与できる程度
• 要はカットオフ決め
– MIC(minimal important change)とSDC(smallest
detectable change)の2種類あるが，ここでは
MICを指す
– SDC→測定誤差
• 反応性のためのデザインを組んでおけ
ばOK
COSMIN checklist manual
57
解釈可能性
統計的に有意でなく，
重要でもない変化
統計的に有意だが，重要でない変化
統計的に有意かつ，重要な変化
最大の変化
変化なし
MIC
SDC
統計的に有意でなく，
重要でもない変化
重要だが測定誤差と区別できない変化
統計的に有意かつ，重要な変化
最大の変化
変化なし
MIC
SDC
MIC: minimal important change; SDC: smallest detectable change
de Vet & Terwee. J Clin Epidemiol. 2010 Jul;63(7):804-5.
58
記載例
（方法）
解釈可能性
再慢性腰痛と変性椎間板疾患の患者におけるSF6D，
掲 EQ5Dおよびoswestry disability indexの比較
• 対象
– 多施設無作為割付比較試験での172名の腰痛患者
• 測定ポイント
– ベースライン，2年後
• 指標
–
–
–
–
SF6D：0.29から1.00の範囲で，1.00が完全な健康
EQ5D：-0.59から1の範囲で，1が完全な健康
ODI：10項目，0から100で，100が完全に障害
7件法の全体評定（「受けている治療からどれ位の便益を得
られると思いますか」）
Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148.
59
記載例
（結果）
解釈可能性
• ROC曲線にプロットされ
た変化得点の最適なカ
ットオフ点として定義さ
れるMICの値は，それ感
ぞれODIで12.88(感度度
88%，特異度85%)，
EQ5Dで0.173（感度
73%，特異度79%），
SF6Dで0.031(感度
93%，特異度78%）であ
った
Fig4のROC曲線の画像
100-特異度
Johnsen et al., BMC Musculoskelet Disord. 2013 ;14:148.
60
臨床的有意性について
• 個人レベルの変化の程度を表現できる
• Journalの投稿規程にも明記
• 行動療法の伝統[1]
代表的な指標の算出には，
尺度特性の情報が必須！
[1] Jacobson & Truax. J Consult Clin Psychol. 1991 ;59(1):12-9
61
臨床的有意性の重要性
Journal of Consulting and Clinical
Psychology (JCCP)
JCCPの
表紙画像
• Instructions to Authors
– 臨床的有意性の統計的報告
(Statistical Reporting of Clinical Significance)
• 介入研究の報告には，臨床的に有意な変化の指標を示
すべき。様々な指標が考えられるが，reliable change
index（Jacobson et al., 1999）や，非機能的であった個人
が機能的な分布へ移行した程度（Jacobson & Truax, 1991
）や，他の規範的な比較（Kendall et al., 1999）などを推奨
する。
http://www.apa.org/pubs/journals/ccp/index.aspx
62
事例研究でも役にたちます
：社交不安障害があるHenryの事例
エクスポージャー
ネ
ガ
テ
ィ
ブ
評
価
へ
の
恐
怖
60
・RCI=11.72
・Henry's c
score=20.4
50
40
Jacobsonの指標
30
患者の得点
20
社交不安障害患者
の平均値
一般対照群の平均値
10
0
セ
ッ
シ
ョ
ン
1
セ
ッ
シ
ョ
ン
2
セ
ッ
シ
ョ
ン
3
セ
ッ
シ
ョ
ン
4
セ
ッ
シ
ョ
ン
5
セ
ッ
シ
ョ
ン
6
セ
ッ
シ
ョ
ン
7
セ
ッ
シ
ョ
ン
8
セ
ッ
シ
ョ
ン
9
セ
ッ
シ
ョ
ン
10
セ
ッ
シ
ョ
ン
11
セ
ッ
シ
ョ
ン
12
セ
ッ
シ
ョ
ン
13
セセ
ッッ
シシ
ョョ
ンン
14 15
Shorey & Stuart. 2012 Clin Case Stud. 11(1):35-47.
2
か
月
フ
ォ
ロ
ー
ア
ッ
プ
8
か
月
フ
ォ
ロ
ー
ア
ッ
プ
63
reliable change index (RC; Jacobson & Truax, 1991)
変化
x2  x1
RC 
Sdiff
RC>1.96の
変化が必要
Sdiff  2( S E )
2
S E  s1 1  rxx
1.96 * Sdiff  x2  x1
x1: pre得点, x2: post得点,
Sdiff: pre-postの変化の
標準誤差,
SE: 測定の標準誤差，
s1: preの標準偏差,
rxx: 信頼性
算出には尺度特性の情報が必須！
64
セッティングの詳細な情報も重要
Box J. 解釈可能性
項目7：関連する（下位）集団の得点や変化得点（例：平均値、標
準偏差）は示されたか？（例：基準となる集団、患者での
複数の下位集団、一般集団）
Box. 一般化可能性
項目4：研究が行われたセッティングは？（例：一般集団、プライ
マリケア、病院／リハビリ施設）
項目7：患者を選択した方法が適切に述べられたか？（例：簡便、
連続、無作為抽出）
尺度の得点の意味を適切に解釈するために、対象集団
の決定・収集段階から可能な限り情報収集
65
Take home message
•
•
•
•
•
データを取る前に必要な人数を決める
変化のない集団について再評価を行う
仮説を具体的に記述する
尺度翻訳は個人でなくチームで進める
臨床に役立つ尺度特性を示す
連絡先：土屋政雄
E-mail: tsuchiya(アットマーク)h.jniosh.go.jp
個人Web: http://researchmap.jp/mtsuchi/
66
主要引用文献
Beaton et al. (2000) Guidelines for the process of cross-cultural adaptation of self-report
measures. Spine (Phila Pa 1976) ;25(24):3186-91.
Bullinger et al. Translating health status questionnaires and evaluating their quality: The IQOLA
project approach. Journal of Clinical Epidemiology 1998;51:913‐23.
Cuesta-Vargas & Gabel. Cross-cultural adaptation, reliability and validity of the Spanish version of
the upper limb functional index. Health Qual Life Outcomes. 2013 ;11:126.
de Vet & Terwee. The minimal detectable change should not replace the minimal important
difference. J Clin Epidemiol. 2010;63:804-5
Farrar et al. Clinical importance of changes in chronic pain intensity measured on an 11-point
numerical pain rating scale. Pain 2001; 94(2): 149-158.
Hoogeboom et al. The Dutch Lower Extremity Functional Scale was highly reliable, valid and
responsive in individuals with hip/knee osteoarthritis: a validation study. BMC Musculoskelet
Disord. 2012;13:117.
Jacobson & Truax. Clinical significance: a statistical approach to defining meaningful change in
psychotherapy research. J Consult Clin Psychol. 1991 ;59(1):12-9
Kamper et al. Global rating of change scales: a review of strengths and weaknesses and
considerations for design. J Man Manip Ther. 2009;17(3):163-70.
Kesiktas et al. Clinimetric properties of the Turkish translation of a modified neck disability index.
BMC Musculoskelet Disord. 2012;13:25.
Storheim et al., Cross-cultural adaptation and validation of the Norwegian version of the Core
Outcome Measures Index for low back pain. Eur Spine J. 2012 Dec;21(12):2539-49.
67
主要引用文献
Johnsen et al., Comparison of the SF6D, the EQ5D, and the oswestry disability index in patients
with chronic low back pain and degenerative disc disease. BMC Musculoskelet Disord. 2013
;14:148.
Nakagawa S, Cuthill IC. Effect size, confidence interval and statistical significance: a practical
guide for biologists. Biol Rev Camb Philos Soc. 2007;82(4):591-605.
Park et al. (2013) Mindfulness: a systematic review of instruments to measure an emergent
patient-reported outcome (PRO). Qual Life Res. (epub)
Paulsen et al., Translation, cross-cultural adaptation and validation of the Danish version of the
Oxford hip score: Assessed against generic and disease-specific questionnaires. Bone Joint
Res. 2012;1:225-33.
Shorey & Stuart. Manualized Cognitive-Behavioral Treatment of Social Anxiety Disorder: A Case
Study. Clin Case Stud. 2012;11(1):35-47.
Wilson IB, Cleary PD. Linking clinical variables with health-related quality of life. A conceptual
model of patient outcomes. JAMA. 1995 Jan 4;273(1):59-65.
68