Comments
Description
Transcript
論文PDF
Japanese Psychological Review 2016, Vol. 59, No. 1, 15–29 認知心理学における再現可能性の認知心理学 山 田 祐 樹 九州大学 Cognitive psychology for reproducibility in cognitive psychology Yuki YAMADA Kyusyu University Several studies on scientific replication and meta-analytic approaches have illustrated the issue of low reproducibility or low effect size in psychology and related fields. Herein, the author described not only the problems generally underlying fields (e.g., questionable research practices and misconduct) but also problems specific to cognitive psychology. Reproducibility or effect size of experimental studies has gathered little attention from researchers in cognitive psychology. In addition, the lack of cognitive studies on researchers in cognitive psychology is related to the disregard for motivational factors on the reproduction/ replication problems. Based on the understanding of these issues, the author discusses how future cognitive psychology can overcome them. Key words: reproducibility, replication, personality, motivation, cognitive bias, prediction market キーワード:再現可能性,追試,パーソナリティ,動機づけ,認知バイアス,予測市場 (2005 年:45 件;2015 年:90 件),現在は「身体 1.はじめに 化 認 知」 研 究 の 年 間 出 版 数(2005 年:16 件; 認知心理学はいま重要な過渡期にある。まず, 2015 年:211 件)に 2 倍以上の差をつけて追い抜 ここ 20 年で認知心理学における論文の出版数は かれている。これはもしかするとトピックごとの 飛躍的に増大してきている。PubMed で「cognitive 研究者の数が単に変化したことを示すだけなのか psychology」をデフォルト設定のまま検索してみ もしれないが,トピック選択(いわゆる,「載り ると,1995 年(1542 件)から 2015 年(10702 件) やすい」「旬の」現象)が論文の生産性に影響し にかけて年間論文出版数が約 7 倍に増加している ている側面も確かに存在すると思われる。しかし ことがわかる。研究者は基本的に論文出版によっ そのようなことは研究者が評価を受ける際にはあ て評価されるため,たとえ研究遂行やアウトプッ まり考慮されず,注意であろうと身体化認知であ トの効率化・高速化を考慮したとしても,この傾 ろうと「認知心理学の研究」だとひとまとめにさ 向は業績競争が激化し,認知心理学者が評価され れて,直近 5 年で何本掲載されたか,その雑誌の るためのハードルが上がり続けていることを示唆 インパクトファクターはどれくらいか,が評価の するだろう。ただし,おそらくこの傾向は認知心 大きなウエイトを占めているのが現状である。そ 理学だけのことではなく,大学設置基準の大綱 れどころか,非常に活発な研究分野である神経科 化,大学院重点化,国立大学の法人化という学界 学,計算生物学,比較心理学などとの交流が進む への競争原理の導入に伴って,各分野にて同時に につれ,認知心理学者が獲得・会得しておくべき 進行したものであると考えられる。さてその間 知識・技術は膨大なものになり,これらの分野の に,認知心理学領域でのトピックのトレンドには 研究者とも同じ舞台で競争することを迫られてき 大きな変遷が生じてきた。例えば,筆者がかつて ている。このような状況の中で,現代の,マイ 専門としていた「注意の瞬き」研究の年間出版数 ナーなトピックを研究している,ヒト行動ベース は先述の出版競争に伴い年々増加しているものの の実験を専門とするような認知心理学者はどのよ — 15 — 心理学評論 Vol. 59, No. 1 うに生きていくべきなのだろうか。「Publish or 認知心理学者を不適切な研究手法に至らせてしま Perish」(Wilson, 1942)とも表現される研究者の う可能性を生んでいるのかもしれない。 世界では,とにかく多くの論文をインパクトの高 本稿は研究結果の再現可能性に関する論文では い雑誌に出さなければ研究者としての生命が絶た あるのだが,問題のある研究実践(QRPs; Ques- れてしまうため,いま,認知心理学者は大きなプ tionable Research Practices)や不正行為(Research レッシャーに晒されている。 Misconducts)自体に関しては他所にて極めて詳 もう一つの大きな動きは,再現可能性の問題に 細な議論がなされているため(例えば Begley & 関するものである。2015 年 8 月に Science 誌に掲 Ellis, 2012;Button et al., 2013;藤島・樋口,2016; 載された論文(Open Science Collaboration, 2015) 池 田・ 平 石,2016;Ioannidis, 2005, 2014; 松 澤, は認知心理学者が再現可能性を考える上で大きな 2013a, 2013b; 三 浦,2015; 中 村,2011, 2015; 影響をもたらした。この論文は 300 名弱の研究者 Nuzzo, 2015;Spellman, 2015;Vazire, 2015),ここ からなる Open Science Collaboration が数年の歳月 で深くは触れないこととする。頻度主義 vs.ベイ をかけて行った 100 個の認知心理学ならびに社会 ズ主義や効果量に関するような統計学的な議論 心理学における実験の直接的追試の結果を報告し (大久保,2016)も行わない。本稿は主に認知心 たものであり,結果として元実験の半分程度の効 理学における研究結果の再現可能性に関する議論 果量しか得られなかったことがわかった。半世紀 を行い,その再現可能性の問題を認知心理学的に も前から低い検定力での実験に対して警鐘が鳴ら 扱うことができないか検討する。そもそも研究者 され続けていることを考えると(Cohen, 1962), 自身もヒトであるのだから,その行為に関しては 多くの元実験の高い効果量には一考の余地があ 心理学的考察が可能なはずである。にもかかわら るとはいえ,この結果自体はことさら驚くほどの ず,従来のこの種の議論において,研究者の心理 ことではない。あるいは現象の生起確率がもと (特に認知)に目が向けられることは多くはな もとそう高くなく,厳密な直接的追試によって かった。特に,実験や調査を伴う実証的議論はほ 「心理学係数」が出現したのかもしれない(渡邊, とんどなされていない。そこで本稿ではいくつか 2016)。だが,Science 誌という非常に影響力の強 の可能なアプローチに関しての提案を行ってい い雑誌上で認知心理学が名指しで警告されたこ る。終わりには,認知心理学が将来どのようにし との意味は大きい。今後,認知心理学分野の研 てこの問題をクリアしていくことができるのか, 究がより厳しい審査を受けるようになる可能性 あるいは認知心理学領域の研究者がどのようなこ が高まったわけである。いや,審査の厳密化それ とを推し進めていけば良いのかについての現状説 自体は科学的真実を求める上では利益をもたら 明と提案を行う。本稿の執筆目的は,認知心理学 すので良いことなのだが,現在進行している競 者が認知心理学者の認知メカニズムを深く検討し 争激化との相性が非常に悪い。先述したプレッ ていくべきであることを読者に認知させる点に尽 シャーはさらにその強さを増し,意図的か(例え きる。なにしろそういう研究が行われていない状 ば David E. Anderson の一件 )非意図的か(例え 況であるのだから,本稿で筆者が提示する調査結 ば Thorstenson, Pazda, & Elliot, 20152))に関係なく 果や,提案する個別の意見については,今後の厳 1) 密かつ詳細な研究によるサポートを期待するもの 1) オレゴン大学の大学院生 David Anderson は,視覚的ワー キングメモリに関する研究においてデータ捏造を行ったこ とが発覚し,それにより 4 本の論文が撤回された。それら の論文は,Journal of Neuroscience 誌,Journal of Experimental Psychology: Human Perception and Performance 誌,Attention, Perception & Psychophysics 誌,Psychological Science 誌 と い う,当該分野において権威のある雑誌に掲載されていたこ ともあり,注目を集めた。 2) Thorstenson et al.(2015)は,ビデオクリップによって 誘導された情動が色知覚を変調するという研究結果を報告 した。しかしその後,方法やデータの解釈に誤りがあるこ とが判明し,論文は撤回された。なお,本件については Holcombe et al.(2015)が詳しい。 である。 2.認知心理学における再現可能性 まずは認知心理学において再現可能性に関わる 研究がどの程度行われているのかについて注目し たい。認知心理学にはある程度細分化された専門 区分があるが,再現可能性の問題はそうした専門 区分によらない一般的問題として考えて良いのだ — 16 — 山田:認知心理学と再現可能性 ろうか。日本認知心理学会が定める専門区分 A が第一歩であるといえる。特に,出版バイアスを (心理学的過程による区分)では,「知覚」「理解」 避けるために,追試研究の結果も含めたメタアナ 「記憶」「思考・意思決定」「言語」「注意」「感情」 リシスが行われ,その分析も情報が追加されるた 「運動 / 行為」「社会」「発達」の 10 種類のカテゴ びに頻繁にアップデートされるべきである。現在 リ ー が 用 意 さ れ て い る(日 本 認 知 心 理 学 会, そのような情報更新に対応した学術雑誌は存在し 2016)。そこで,ここでは各区分に含まれる代表 ないため,誰かがこのような継続的メタアナリシ 的な心理現象に関してのメタアナリシス研究を ス研究を多大な労力を払いながら行ったとして 抽出し,その平均効果量と信頼区間を用いようと も,それ自体が出版バイアスの悪影響を受けてし 考えた。さらに各区分におけるデータを全て使っ まうであろう。こうした研究者のインセンティブ た(メタアナリシスの結果の)メタアナリシスを に関する問題は後に議論する。 実 行 し, フ ォ レ ス ト プ ロ ッ ト(Lewis & Clarke, ところで,論文抽出時に一つ興味深い傾向が見 2001)によって各区分の現象の効果量に高い異質 られた。時間知覚(time perception)についての 性が見られるかどうかを検討しようと試みた。し みメタアナリシス研究が 11 件も出版されていた かし文献抽出の段階で,この計画には大変な困難 のである(Block, Hancock, & Zakay, 2000, 2010; が伴うことが明らかになった。レビュー論文は膨 Block, Zakay, & Hancock, 1998;Hart et al., 2012; 大に存在する一方で,メタアナリシスを用いた認 Keren-Happuch et al., 2014;Ortuño et al., 2011; 知心理学的研究が少なすぎるのである。Pubmed Radua et al., 2014;Schwartze, Rothermich, & Kotz, には「cognitive psychology」を含むメタアナリシ 2012;Steel, 2007;Thönes & Oberfeld, 2015; ス研究は 10 件しか登録されていなかった。個別 Wiener, Turkeltaub, & Coslett, 2010)。このことは, の現象に関する研究を調べた場合でも,例えば 単なる偶然かあるいは報告・出版バイアスが現れ 「retrieval induced forgetting」(検索誘導性忘却)の たことを起因とする見方や,さらには検索ワード メタアナリシスは 1 件のみであった(Murayama が比較的広いために研究を抽出しやすかったとい et al., 2014)。他の現象に関しても概ね同様で,メ う点から説明することも可能であろう。しかしな タアナリシスが全く行われていないか,あるいは がら,もう一つの説明として「追試バイアス」を 特定の症例群と健常群における効果量の差が調べ 考えることもできるのではないか。追試を行う際 ら れ た も の(例 え ば 復 帰 抑 制 で は Mushquash, に生じる選択バイアスの一つは「陽性発見追試バ Fawcett, & Klein, 2012),そして現象に相関する神 イ ア ス(positive-finding replication bias)」 で あ る 経活動についてのメタアナリシスを行ったものが (Ledgerwood & Sherman, 2012;Smithson, 2011)。 ほとんどであり,現象自体がどの程度頑健なのか これは追試者が,有意差の出ていない先行研究よ を検討した健常者における行動指標ベースのメタ りも有意差の出ている先行研究の方を好んで追試 アナリシスはほとんど見られなかった。さすがに しようとするバイアスである。出版バイアスのせ 区分ごとに数件ずつしか登録しないままの乏しい いでそもそも有意差の出ていない先行研究は世に 例数でメタアナリシスを行っても適切な結論は得 出て来づらい上に,そのような研究を追試するこ られないため,この試みは失敗に終わってしまっ とに面白みを感じない研究者が多いことがこのバ た。このことから,認知心理学における再現可能 イアスを引き起こすのだろう。これに加えて,筆 性の問題の現状は,まだ現象ごとの再現可能性が 者はここでもう一つの追試バイアスが存在するこ 十分なのかどうかを統計的に検討する試み自体が とを指摘したい。それは特定の研究やトピック, 行われておらず,当然それらの出版バイアスや効 あるいは特定の雑誌に掲載された研究ばかりが追 果量が不明であるものが非常に多い段階であると 試される「偏好追試バイアス」と呼んでいるもの いえる。 である。研究者は追試対象をランダムに選んでい このような現状を見ると,認知心理学的研究に るわけではなく,少なくとも自分が面白いと思う おける再現可能性問題を解決していくためには, 研究や,追試することが重要であると思う研究を 追試研究とメタアナリシス研究の両方がより頻繁 選り好んで追試を行っている。心理学における再 になされ,その結果によらず報告されていくこと 現実験の結果を掲載していることで知られる — 17 — 心理学評論 Vol. 59, No. 1 PsychFileDrawer.org3) というウェブサイトにおい た学業不正の研究や,非倫理的行為に関する研究 ても 1 回か 2 回しか追試されていない研究が多い などから知見を援用するほかない状況である。 中で,特定の研究だけが 5 回も追試されている 当たり前のことだが,研究者の性格も千差万別 (Jostmann, Lakens, & Schubert, 2009;McCabe & である。だがあくまで噂や都市伝説としてではあ Castel, 2008;Williams & Bargh, 2008b) 。ちなみにこ るが,心理学者には研究分野ごとに特徴的な性格 れらの研究は Psychological Science 誌と Cognition の偏りがあるとささやかれることがある。これは 誌という心理学においては比較的インパクトファ 本当なのだろうか。もしも認知心理学における研 クターが高い雑誌に掲載されており,追試の平均 究トピックごとに研究者の(平均的な)性格が異 成功率は 7% である。2 つは身体化認知に,1 つは なるのであれば,研究遂行時のスタイルや心的状 推論に関係している。また PsychFileDrawer.org に 態がトピックごとに(平均的に)異なっている可 はユーザーによる追試希望ランキングも設けてあ 能性がある。そしてこれがトピックごとの再現可 り,2016 年 2 月時点でそこの上位 6 位のうち 4 本 能性の違いに関与しているのならば,認知心理学 はインパクトファクターの非常に高い Science 誌 における再現可能性について考えていく上で非常 に掲載された研究である(Anderson et al., 2004; に重要な切り口になりうるだろう。そこで筆者は Cohen et al., 2006;Ramirez & Beilock, 2011; 2015 年冬にとある調査を実施した。ただし,研 Williams & Bargh, 2008a)。このように,追試対象 究者を対象とした調査は現実的に困難であったた には明らかに偏りがある。ある研究やトピックに め,ここでは九州大学にて「心理学入門」の講義 おける結果の再現可能性が早期に明らかになるこ を受講している大学一年生 123 名を対象とした。 とは良いことではあるが,一方で全く追試されな 各週の授業では視知覚,感情,身体化認知につい いままのものが多く残ってしまうことは学界全体 ての紹介が行われたため,これらの研究トピック の発展としては先細りにつながるだろう。 に対する選好を調べた。具体的には「自分が心理 学専攻に進級し,卒業研究を行うとしたら各ト ピックについてどの程度研究したいと思います 3.誰が疑わしい研究を行うのか か?」という問いに対し,研究意思(willingness to QRPs や研究不正は,大多数の健常な人々の中 study)を 7 段階で評定させた。また,ビッグファ に潜む一部の生来の極悪人が行うことなのだろう イブの特性 5 因子に関する質問紙にも答えさせた か。それともその健常な人々が何らかの環境や心 (和田,1996)。ちなみにこの実験のローデータは 的状況に置かれた際にまれに起きてしまうことな (10.6084/m9.figshare.2814766)にて入手すること のだろうか。そしてそこには何らかの遺伝的,神 ができる。本調査の前には各トピックへの選好と 経学的,心理的要因などが存在するのだろうか。 性格特性との間に特有の関係性が存在するだろう このような点について,実際の研究者を対象とし と予測していた。特に先行研究が行ったメタアナ た検討は全く行われていない。今のところ先行研 リシスによると,学業不正と関連すると考えられ 究は不正例についてのケーススタディであること るビッグファイブの因子は誠実性と調和性であっ が多く(Abbott, 2013;Cyranoski, 2007;Vogel, 2006, た(Giluk & Postlethwaite, 2015)。したがって,こ 2008, 2011;Spellman, 2015;Stroebe, Postmes, & れらの特性因子得点と再現可能性の低いトピック Spears, 2012) ,統計的手法が用いられた研究はほ への興味に関連性が見られればと期待していた。 とんどない。したがって,大学生などを対象とし 例えば本稿執筆時点の PsychFileDrawer.org を見て みると,手動定位課題における定位対象間の物理 3) こうしたサイトにおける偏好追試バイアスを考えると, 集合的偏好,すなわちサイトの利用者による頻度の高い追 試要望(Top-20 List of Studies Users Would Like to see Replicated: http://www.psychfiledrawer.org/top-20/)と個別的偏好, すなわち個別の研究グループによって特定の研究ばかりが 実際の追試対象として選ばれること,の 2 つの過程を考慮 する必要があろう。この議論の発端は査読者に示唆してい ただいた。 距離とその課題後に評定する親近感との関連につ いての実験(Williams & Bargh, 2008b)は 5 回連続 で追試が失敗している(本号においても新たに追 試の失敗が報告されている:藤島・樋口,2016)。 あるいは,身体に与えられた重量刺激が社会的・ 倫理的場面での重要性判断に影響することを示し — 18 — 山田:認知心理学と再現可能性 た研究(Jostmann et al., 2009)についても 4 回の 追試失敗が報告され,またその後続研究(例えば 4.何を信じて後続研究を行えばいいのか Ackerman, Nocera, & Bargh, 2010)も含めたメタア 再現可能性の不確定性は学界に悪影響を及ぼ ナリシスによって再現可能性が疑問視されている す。研究者が,どの研究を有効な先行研究として (Rabelo et al., 2015)。これらは身体化認知に関す 扱っていけば良いのか非常に悩ましくなるからで る研究であるが,追試失敗の情報は伏せたままこ ある(澤・栗原,2016)。もしも各研究の再現可 うした研究の紹介を受けた際に,身体化認知に強 能性が実はかなり低かったとして,そのまま再現 い興味を持った人々には誠実性と調和性に偏りが 可能性の低い研究が世に次々と産み出されていっ 見られるかもしれないと考えていた 。だが,結 たならば,その文献を読み,後続研究を行ってい 果は微妙なものであった。主成分法による因子分 く際に「本当にこの研究の続きをやっていいのだ 析により 5 因子を抽出し,因子得点を回帰法によ ろうか」という疑念が湧きやすくなるだろう。貴 り算出した。各因子得点を説明変数,研究意思を 重な資源を使って実験を遂行しても再現できな 目的変数としたステップワイズの重回帰分析を い可能性が高く,もし首尾よく良い結果が得ら 行った結果,視知覚においてのみ開放性の有意な れたとしても,その自分自身の研究結果の再現 寄与が認められたが(β= .18, p<.05),その他には 可能性も危ういのではないかと思えてくる。研 特にめぼしい関係性は見られなかった。開放性因 究スタート時に「まずは元現象を自分でも確認 子に含まれる項目は「多才の」「進歩的」「独創的 してみてから」というのは実験心理学の基本だ な」「頭の回転の速い」「興味の広い」「好奇心が が,そうは言っても資源は限られているのだか 強い」であることから,少なくともこうした言葉 ら,確認のための予備実験の回数も限られてく で表現される特性を持つと報告する人ほど視知覚 る。それに論文の生産サイクルが高速化している 研究に興味を持ちやすいことがわかったが,不正 昨今,予備実験に数ヶ月も 1 年もかけてじっくり 行為と関連するような特性との関連は全く見られ と確認できる研究者は多くはないだろう。果たし なかった。先述の通り,この結果はあくまで大学 てそのような乏しい試行回数で本当に元現象の信 一年生への調査に基づくものであり,実際に認知 頼性を確認できるのだろうか。さらには現象自体 心理学者に対する同様な,より厳密かつ詳細な調 が本当に存在するのかしないのかについて議論さ 査研究が行われればまた異なる結果が得られるか れている「不気味の谷」のような例もある(e.g., もしれない。少なくとも筆者が行った調査から一 Burleigh, Schoenherr, & Lacroix, 2013;Kätsyri et al., 定の結論を導こうとすることはそれこそ QRPs に 2015;森,1970)。この現象では,個別の実験に 陥ってしまいそうなのでここでは避けたいが,同 関しての再現可能性は検討可能であるが,議論の 様な取り組み自体については今後も推進したい。 対象となる現象自体をまさしくこれであるとその 最近,糖尿病学の研究者に対して性格特性と研究 目で確認することができない。このままでは,予 スタイルとの関係性についての研究が行われた 備実験を行いづらい研究トピックのフォローアッ 4) が (Bateman & Hess, 2015),心理学者に対する プを行う研究者が減り,逆に,刺激の見かけの変 心理学研究も今後は活発になされていくべきであ 化のように見ただけで現象がわかりやすい研究ば ろう。 かりが行われていくことになってしまうのではな 5) 4) 調査においては研究したいトピックとして「身体化認 知」のようなトピック名によって答えてもらったが,授業 では追試回数の多い研究や,追試してほしい研究ランキン グにノミネートするような個別の研究についての紹介を 行 っ て い た(Top-20 List of Studies Users Would Like to see Replicated: http://www.psychfiledrawer.org/top-20/)。しかし授 業内ではどの研究やどのトピックが再現されにくいかにつ いては触れていなかった。そして,追試サイトで偏好され るような研究は問題を含んで見えるような研究であると考 え,そうした潜在的であれ疑わしそうな研究をやりたいと 思う人は誠実性や調和性が低いのかもしれないという仮説 を立てていた。 いか。その上,こうした研究トピックの選好は研 究者自身の不安特性や不確実性に対する非寛容性 5) この研究ではまず研究スタイルが 2 つに分けられるこ とが示された。すなわち,「狭く深く」型と「広く浅く」 型である。研究者への調査の結果,「狭く深く」型のスタ イルの方が「広く浅く」型よりも好まれる傾向にあった。 その理由は,「広く浅い」研究はリスキーかつ重要に思え ないということであった。さらに個人属性との関連を調べ てみると,様々な属性が研究スタイルを予測できることが わかった。 — 19 — 心理学評論 Vol. 59, No. 1 とも関連するだろう(Dugas, Freeston, & Ladouceur, 発案時には共同研究者以外との相談が難しいケー 1997)。例えば不確実性に対して非寛容な人は多く スも多い。何らかの情報をもとに将来の再現可能 の心配を抱えやすく(Dugas, Gosselin, & Ladouceur, 性を外挿するような予測ソフトを導入することも 2001),不確実な状況において排除や回避の反応 考えられるが,精度の高い予測のために必要な情 を示しやすい(Freeston et al., 1994)。そうした特 報として何を投入するか,そしてどの程度の学習 性を持つ研究者は予備実験の難しい研究を回避し をどのようにソフトウェアに行わせれば良いのか がちになることが予想される。このようにして という点を考えると,認知心理学の急激なトレン だんだんと研究トピックの多様性がなくなってい ドの変化や相次ぐ新しい発見にそれらを対応させ けば,研究者の「生態系」は脆弱なものになるだ るのは困難に思える。 ろう(Cardinale, Palmer, & Collins, 2002)。 そこで近年,予測市場というものが注目されて では我々はどの先行研究を信じれば良いのだろ きている。これは,不確実な社会的・経済的事象 うか?研究者の日常的な方略として最も多いのは の結果の将来予測を不特定多数の市場参加者に証 おそらく「複数の先行研究で再現されている現象 券取引の形で行わせるという,一種の先物取引で なのだから,きっと大丈夫だろう」という見込み ある。もともとは経済学において,特に変動が激 に基づく判断ではなかろうか。しかしこれまで指 しく,情報が各個人に散在しているような事象へ 摘されてきた多くの出版・報告バイアスを考える の将来予測の方法として研究されてきたシステム と(例えば de Bruin, Treccani, & Della Sala, 2015; である(Arrow et al., 2008)。市場参加者は現金か Ferguson, 2007;Francis, 2012;Ioannidis et al., あ る い は 仮 想 通 貨(例 え ば Pennock et al., 2001) 2014),再現に成功した研究だけが表に出ている を用い,ある事象の結果にリターンが対応した 可能性があり,この推定だけに頼るのはやはり危 「証券」を売買する。アメリカのアイオワ電子市 険である。もしも新たな現象が報告されたばかり 場にて行われた先駆的な研究では,1988 年の大 の段階であれば,それに関連する先行研究は極 統領選挙の結果について,予測市場は各有力紙の めて少ない上に,プロテウス現象(ある発見のす 行った世論調査を超える予測精度を示した ぐ後にその反証研究が出版されやすく,時間とと (Forsythe et al., 1992)。その後,他の政治的事象 もに報告結果が一定のオッズ比に落ち着いていく やスポーツの結果の予測など様々な対象に応用さ バ イ ア ス:Ioannidis & Trikalinos, 2005;Pfeiffer, れ,精度の高い予測結果を得ている(Tziralis & Bertram, & Ioannidis, 2011)も考慮しなければなら Tatsiopoulos, 2012)。わが国においても,予測市 ない。だからと言って,ある程度の知見が蓄積さ 場サイト「shuugi.in」が実際の 2009 年総選挙の れるまでただ座して待つということは,昨今の出 結果を非常に高い精度で予測したことで話題に 版競争のさなか,特に就職に直結する業績圧力を なった(佐藤,2010)。このように予測市場の機 感じている若い研究者にとっては採用できない方 能に関しては既に多くの知見が集積されており, 略だろう。このように,研究者が何を研究するの 意思決定の有効な支援方法としても提案され かというのはすぐれて個人の不確実場面における (Berg & Rietz, 2003),Google をはじめとした多く 意思決定の問題である。 の企業や政府機関によって利用されている。 こうした不確実な場面では情報が重要になって この予測市場で心理学実験の再現可能性を扱お くる。「あの現象はあまり再現されていないらし うというのである。以前から,この予測市場の機 い」とか「あの研究者の研究結果はあまり再現さ 能を科学に活かせないかという議論や実験はあっ れていないらしい」といったことに関するあらゆ た(Almenberg, Kittlitz, & Pfeiffer, 2009;Hanson, る情報は研究者の意思決定を支援するだろう。し 1995)。しかしながら,追試実験の結果にリター かしながら上述したように,ある研究の追試結果 ンが対応した証券が売買されるような再現予測市 の予測において個人の直感や知識に頼るのには限 場についての議論はなされていなかった。そこで 界がある。日常的な同僚や上司との議論によって 実際に心理学の追試実験を扱う予測市場に関す もある程度の情報は得られるかもしれないが,そ る実験が行われた(Dreber et al., 2015)。つまり, の情報の質や量にも限界があるだろうし,研究の 個人やチームでは難しい追試結果の予測も,不特 — 20 — 山田:認知心理学と再現可能性 定多数の集合知を利用すればかなりの精度を確 (2015)の実験は非常に画期的なものではあった 保できるのではないかという発想である。Open が,やはりたった一つの研究結果だけに頼って心 Science Collaboration が行っている Reproducibility 理学の追試実験についての予測精度を信じてよい Project: Psychology(RPP)の 44 件の追試実験の結 のかには疑問が残る。予測市場の予測精度に関し 果に関して 2 週間の予測市場が開かれた。その結 てメタアナリシスを用いた検討がもっと行われて 果として,予測市場は実際の追試実験の結果の いくべきだろう。また予測市場は情報集積によっ 71% を当てることができた。事前に行われた個 て予測精度を高めている側面があるため,様々な 別の参加者への質問に基づくと,その予測はチャ 情報を持つ多くの参加者が必要である。そして参 ンスレベルを超えることがなく,心理学実験の再 加者にはある程度のトレーディングの経験も必要 現可能性に関しても市場の予測が個人の予測に優 である(Anderson & Sunder, 1995;Peterson, 1993)。 ることが示された。 このように問題点や課題は多く残るものの,その 再現予測市場には以下のように多くの利点が 利点が大きいことも疑いようの無いことである 存在する。まず実験結果のとおり,個人でできる (Brandon & List, 2015)。今後も再現可能性評価の にもかかわらず,個人で予測をするよりも精度が ための予測市場の利用に関する継続的な研究と, 高いことが最大の利点である。また,非常に手軽 予測市場自体の再現可能性の検討が進められる必 でスピーディかつ低コスト(アイオワ電子市場で 要がある。 は投資額の上限が 500 ドルに設定されており, Dreber et al.(2015)の実験でも 100 ドルを運用さ 5.誰が追試を行うのか せていた)で導入できる点も注目に値する。さら 追試研究は,待っていれば勝手に増えていくの に,個人レベルではおそらく意思決定の際に種々 の認知バイアスが生じていると思われるのだが, ではない。必ず世界のどこかで誰かがやらなけれ 例えば先述の大統領選挙の場合には予測結果に ばならないのである。では誰がやるのだろうか。 対しての参加者の思想信条の影響が全く無く 先述のように,研究者の所有する資源も時間も限 (Forsythe et al., 1992),バイアスの影響を乗り越 定されている。多くのテニュア研究者は,少ない えることができる可能性がある。そして何より, 経済的資源と人的資源をやりくりし,膨大な雑 手数料等を追試実験者へ再現結果にかかわらず支 用をこなしながらその中で自分自身の研究を少し 払うことができれば,追試実験を行う側への直接 ずつ進めている。そのような状況の中,先行研究 的なインセンティブにもなるだろう。 と等しい条件を設定した上で,再現だけを目的と しかしもちろん欠点も存在している。これはど した厳密な直接追試実験を行うような余裕が果た の予測市場にも関係してくるのだが,特に事象の してあるのだろうか(Fecher, Fräßdorf, & Wagner, 結果に人為的な要因が大きく関与するような場合 2016)6)。冒頭にて学界は「Publish or Perish」の世 (もちろん追試実験もその一つである),インサイ 界であると述べたが,追試研究に関して言えば今 ダー取引に弱い。また運営に関わる法的問題も慎 のところそれをいくつ行ったとしても決して評価 重に議論されなければならない。つまり,違法な されることがない「Publish and Perish」 (パブリッ ギャンブルと見なされる可能性が存在する。アイ シュしても死ぬ)の状況である(Baumann, 2003 オワ電子市場は学術研究目的であると認定されて も参照)。余談ではあるが,これはピアレビュー いるためその点をクリアできたが,その一方でイ とも状況が似ている。学界にとって明らかに必要 ントレードという予測市場はオプション取引など な仕事であるのに,それをいくつ行ったとしても を理由に米商品先物取引委員会に賭博とみなさ れ,取引を停止した(Ozimek, 2014)。再現可能性 の予測市場においても,少なくともオプション取 引や空売りは導入すべきでないだろう。それに根 本的な疑問として,予測市場の予測精度は本当に 高いと言って良いものなのだろうか? Dreber et al. 6) Fecher et al.(2016)が約 300 人の研究者に対して行った 「ドイツ社会・経済パネル調査」データを利用した研究に 関する追試についての調査によると,84% の回答者が追試 研究の重要性について同意しているものの,58% がそれら の研究を追試したことがないと答えた。かれらのうち 15% の回答者はその理由として追試を行う時間が無いことを挙 げていた。 — 21 — 心理学評論 Vol. 59, No. 1 決して評価されることがないのである。2012 年 QRPs を防止することに貢献することが期待でき に設立された Publons というウェブサイトにて る。しかし誰にもインセンティブがない。 (https://publons.com/),研究者が自身の査読活動 事前登録制は,例数設計や停止規則に関する恣 記録を管理・公開することができるようになった 意的な運用を許さず,実験結果が出てからの確証 が,少なくとも筆者の所属する機関においてその バイアスや後知恵バイアス(いわゆる HARKing: ような情報が教員評価に利用されることは全くな Kerr, 1998)を防止することもできる(池田・平 い。査読とは完全にボランティア活動なのであ 石,2016 も参照) 。また,実験手続きに関する掲載 る。それでは,追試もボランティアとしてのみ 基準を厳しくし,特に既に Psychological Science の,使命感に基づく動機だけで行っていくべきも 誌にて実施されているように,「方法」のセク のなのであろうか。しかし多くの心理学者は,人 ションを字数制限なしで可能な限り詳細に記述す 間がこのような理由だけで利他的行動をとるのが ることを励行すれば(Eich, 2014;Lindsay, 2015), 難しいことをよく知っているはずではないか。し ピアレビュー時点での問題発見につながりやす かも競争の最中であればなおさらである。今こそ く,原著者の協力が得られない場合であっても 心理学者は,追試をさらに誘発するような心理学 追試が行いやすくなる。それに,これらのこと 的知見に基づいた試みを展開すべきなのではな を サ ポ ー ト す る ウ ェ ブ サ イ ト も あ る(例 え ば いか。例えば向社会的なテレビゲーム(「レミン PsychDisclosure.org: LeBel et al., 2013)。さらには, グス」など)をやらせてみるとか(Greitemeyer & figshare や Data Dryad などのデータリポジトリを Osswald, 2010;ちなみにこの研究も追試されたが 利用したデータシェアリングやマテリアルシェア 再現には失敗している:Tear & Nielsen, 2013)。 リングを雑誌投稿時に義務付けることで,他者に もう一つ,忘れてはならないのが原著者の存在 よる追試,再分析,メタアナリシスを容易にする である。現状では多くの論文において「方法」に ことができる。このように非常に豊富な利点を備 記載される情報が完全でなく,刺激の共有もほ えた方法が次々と提案されており,原著者も追試 とんどなされていないため,彼らの援助がなけれ 者もこれらのことを忠実に実行することで,研究 ば厳密な追試が行えないことが多い。しかし同じ 結果に対する科学的な信頼性を大きく向上させる く現状では,原著者にとって追試者を援助するこ ことができるだろう。しかし,負担も大きい。特 とのメリットが全くない。そもそも他の研究者か に現在のところ何のインセンティブもない追試者 ら追試のための協力依頼が来た時点で,原著者に にこれだけの準備を要求することは難しく,ただ よっては自分の研究の再現可能性が疑われている でさえ少ない追試研究の掲載を許している学術雑 と捉え,不快感を覚えることがあるだろう。そし 誌がこれらを義務付けること「だけ」しかしない てそうした依頼に誠実に応え,追試研究の援助を のであれば,余程それが必要な状況にある人でな 行ったとして,追試が成功しても上記のようにそ い限り,追試研究を実施する研究者など間違いな の成果はほとんど評価されない。一方で,追試が くいなくなってしまうだろう。追試研究に至る動 失敗すれば自身の研究が,場合によっては自身が 機づけに関してはさらなる研究を行い,適切な方 研究者としても信頼を失う可能性がある。このよ 策を提案していく必要がある。 うに,原著者にとっては追試活動を援助すること にはリスクしか存在していない。これでは原著者 6.どうすれば追試をする気になるのか の協力は得られにくくなっても当然で,それによ り追試者には十分な厳密性を備えた追試を実施す これまで述べたように,追試者が追試を実施 ることが難しくなり,結果として追試研究が活発 し,原著者がそれをサポートすることの両方に対 になされる土壌も育たないだろう。 して強いインセンティブが与えられる必要があ 明らかに,追試者にも原著者にも再現研究に対 る。ここではそのためのいくつかの可能性につい してのインセンティブが大きく不足しているので て提案を行う。実現可能性の高いものから低いも ある(鮫島,2016 も参照)。以下に示すような現 のまで存在しているが,現在考えうる限りの事柄 状の流れは,追試をやりやすくし,研究不正や について議論する。 — 22 — 山田:認知心理学と再現可能性 まずは先述したとおり,予測市場を実施する上 い。一方の主張のみをまとめた論文を投稿した場 で生じる利益の一部を追試者へ再現結果にかかわ 合だと,ブラインドでのピアレビューにおいて対 らず支払うという方法が挙げられる。これにより 抗する主張を行っているグループの研究者が査読 追試者は経済的に動機づけられる。それに,市場 者になった際に不当な評価を受けてリジェクトさ 参加者の多くが再現結果に対し注目するため,現 れるということが生じうるが,敵対的コラボレー 状のように追試研究がどこで誰によって行われた ションではそのようなことが生じにくいため掲載 のか,どこに報告されたのかもほとんどの人に認 に至りやすく,論争が膠着せずに一気に進展する 識されないという状態が改善されるだろう。しか ことが多い。多くの場合,中立的な第三者が仲介 しやはり,予測市場を導入するという前提に高い に入って作業を進めていく必要があるが(Mellers ハードルがあるため,まずはそのための(場合に et al., 2001),そのような人物の主導によって 1 つ よっては法的な)環境整備から始めなければなら の研究の中で複数のラボが互いの研究結果につい ない。 て複数回の追試を行うことで,再現可能性の問題 あるいは,追試を積極的に行っている著名なコ も大きく改善される。 ミュニティに参加するというのもいいだろう。先 原著者と追試者の両者にとって,追試研究がた 述した Open Science Collaboration が運営している だの情報ではなく「研究」であると扱われること RPP(https://osf.io/ezcuj/)では追試実験が次々と行 も大変重要である。今のところ追試を行った場合 われている。このプロジェクトに参加したラボに には,結果を PsychFileDrawer.org に登録するのが は,そのデータを利用して書かれた論文やその関 最も容易に周知する方法である。しかし,そこで 連論文についてオーサーシップが与えられ,それ 定められている引用方法はウェブサイトを引用す らは Science 誌(Open Science Collaboration, 2015) る際の書式になっており,「研究」とはみなされ や Perspectives on Psychological Science 誌(Open ていない。まずはこうした追試研究をあくまで一 Science Collaboration, 2012)に 掲 載 さ れ て い る。 つの研究であるとみなすことが肝要である。そし 単純に,こうした名声のある雑誌に自分の名前が てそれを追試者の業績として認めるべきである。 載るというだけでもインセンティブになることが それにより,元論文が正式に引用されることとな あるだろう。 り,原著者に対してもインセンティブが生じてく 他の研究者と何らかのプロジェクトを進める る。さらに,「被追試数」(replicitations: Maniadis, ということであれば,敵対的コラボレーション Tufano, & List, 2015)という新たな指標を採用し (Adversarial Collaboration) と い う 方 法 も あ る ていきたい。先述のとおり,偏好追試バイアスは (Mellers, Hertwig, & Kahneman, 2001)。よく見知っ 追試者にとって面白い研究や重要な研究に対して た者同士でも主張する学説が対立し合うという 生じるものである。つまり,追試される回数には ケースは頻繁にあることだが,彼らが共著者とし その研究の質的な側面についての情報価値があ てお互いの立場を堅持しながら一つの論文の中で る。したがって,被追試数を研究者の評価やグラ 実験を吟味しあうというケースは極めて少ない。 ントの採択基準として利用することで,追試され 歴史的に有名なものに,ガンツフェルト実験を用 ることにインセンティブが生じ,原著者からの協 いたテレパシーに関する研究(Hyman & Honorton, 力が得られやすくもなるだろう。 1986),目標設定に関する研究(Latham, Erez, & あるいは追試を教育的に利用することもできる Locke, 1988),あるいはヒューリスティクスに関 (Fecher et al., 2016)。筆者は所属大学院の授業に す る 研 究(Bateman & Hess, 2015;Mellers et al., おいて,グループ研究として過去 2 年間に 3 つの 2001)を挙げることはできるが,近年でもこのよ 先行研究の追試を行った。それには直接的追試と うな敵対的コラボレーションは少ないままである 7) 概念的追試 の両方が含まれてはいたが,結果的 (Matzke et al., 2015)。こうした論文には,査読前 に 3 つともそれぞれ独立した論文として出版する に互いの主張について詳細に吟味され,両論併記 になりやすいため極端な結論に陥りにくいという 利点がある。だがそれよりも次の利点の方が大き 7) 概念的追試では,先行研究と完全に同一の方法ではな い新たな方法を用いて先行研究の主張する理論を追試的に 検証する。 — 23 — 心理学評論 Vol. 59, No. 1 ことができた(Chaya et al., 2016;Kishimoto et al., 8) 変有用である 。そこで,既存の調査会社に上記 2016;Ojiro et al., 2015)。これにもいくつかの利 のことを説明し,そのようなサービスが実現可能 点を挙げることができる。第一に,原著者に連絡 であるかどうか実際に尋ねてみた。個人的に長く を取りながら実験を実施し,国際誌にて査読を受 利用している 2 社(クラウドソーシングとマーケ けて出版されるまでを一通り経験したことで,大 ティングを主要サービスとする各 1 社)に質問を 学院生たちのレベルが大幅に上昇したことが肌で メールで送ったところ,1 社からは返事が無く, 感じられた。研究の PDCA サイクルを回すため もう 1 社からは「今後のサービス運営,開発にお には,その回し方を学ぶ必要があり,そのために いて,ご要望の点を参考にさせていただきます」 は追試という機会で実際に経験してみることが役 というややテンプレート感のある返答を受け取っ に立つ。第二に,論文掲載に至れれば業績として た。おそらく,まだこのようなサービスを実施で 扱えるため,院生は日本学術振興会特別研究員を きるような素地が第三者の民間機関であってもあ 含む数々の申請において有利になることができ まり整っていないのだろうと推察される9)。 る。ただし追試研究がジャーナルに掲載されにく 一人の研究者が研究のほとんど全てを担うので い現状ではこの利点は得られにくいため,後述す はなく,分業によって研究負担と QRPs の危険性を るようなジャーナル側の変革も必要になる。第三 軽減することはできないのだろうか。PsycINFO に,厳密な追試を行うことで,自分自身の研究も にて 2010 年以降の “cognition” を主題とする実験 同様に追試される可能性があることを意識するよ 心理学研究における平均著者数を算出したとこ うになる。これは自分自身の研究における QRPs ろ,論文 1 本につき 2.33 人であった。おそらく や不正行為を抑制することにつながるだろう。こ この数値は主著者(多くは大学院生かポスドク) れらの教育効果は決して小さくないものであるた +指導教員(あるいは受入研究者)の 2 名にプラ め,授業を主宰する研究者にとっても大きなイン スアルファが 1 名あるかないかといういわば伝統 センティブとなる。 的な著者構成によるものではないかと推測する。 第三者機関に追試を委託するのはどうだろう 従来の認知心理学では,計画立案,実験プログラ か。例えば,ジャーナルに投稿する際に第三者機 ミング,統計解析,そして英語論文執筆に査読対 関に委託した追試実験の結果をサプリメンタリと 応までを一人で全てハイレベルにこなすことので して併せて提供することで掲載を有利にするよう きる完全者の育成を目指してきた。これらを漏ら なルールを設けるとする。この場合,当該論文の すことなく遂行できる者だけがアカデミアに残 著者自身が依頼を行うと,いずれ高めの価格設定 り,どれか一つの要素だけでも不得意であればこ で著者の主張に有利なデータを提供しようとする の分野から去らなければならなかった。筆者は実 業 者 が 発 生 す る だ ろ う か ら, 依 頼 は 基 本 的 に 際にそういう人々を何人も見てきた。これは学界 ジャーナル側が行うこととする。そうすれば著者 全体として見た場合には研究能力の損失ではない と業者の間に利害関係が発生しない。この制度を だろうか。業績評価に第一著者としての論文数や 利用するかどうかは投稿前に著者が選択すること そのインパクトファクターが特別に重要視され用 とし,追試結果を問わず費用は著者がジャーナル いられていることはこの事態の大きな原因の一つ を通して支払う。これにはいくつかの利点があ であると考えられる。個別の技能に優れた者に る。まず,近年では捏造や改竄等の不正行為が発 よって構成されたチームで研究を行うことはでき 覚して論文が取り下げられることが多くなり,そ ないのだろうか。どれか一つの技能が不得意であ れを掲載していたジャーナルの評判が傷つけられ るせいで去らなければならない人々に,逆に得意 る事態が多発している。そのため,事前に追試が な技能をさらに活かせるポジションを与えること なされた状態での投稿を受け付けることにより, はできないのだろうか。 ジャーナル側はコスト無しでヘッジすることがで きる。また当然のことながら,ある研究結果に関 する追試結果が存在することは,後に再分析やメ タアナリシスを行おうとする研究者にとっても大 8) だが投稿前準備に一定の手間がかかる分,当該研究の 出版までの時間がどうしても長くなってしまうのが欠点で ある。この問題点は査読者によって指摘いただいた。 9) 単に筆者が相手にされていない可能性が最も高い。 — 24 — 山田:認知心理学と再現可能性 また冒頭で述べたように,近年では研究者に必 7.おわりに: ジャーナルは変われないのか 要とされる技能がますます広範化・高度化してき ている。例えば,近年では認知心理学において用 いられる統計的手法の変革が急速に進み,分散分 ここまで,心理学における研究結果の再現可能 析や相関分析さえできればある程度の議論が可能 性の問題を解消するためには多数の追試研究が必 であるという時代ではなくなってきている。現時 要であり,それに関与する人々へのインセンティ 点でも一般化線形混合モデルなどの統計モデリン ブが必要であり,元研究も追試研究も共同的ある グやベイズ統計を駆使しなければ,場合によって いは分業的になされるようなシステム構築を進め は QRPs を意図せず実行しかねない状況にある。 る必要があると述べてきた。そしてその各要素に また,権威のあるジャーナルには認知実験だけで 関する認知心理学的知見の集積と応用的取り組み なく神経科学的証拠とシミュレーションを組み合 が必要であることを指摘した。最後に忘れては わせた研究が多く掲載されるようになってきた。 ならないのがジャーナル側の変革の必要性であ このように,認知心理学では先行研究などに関す る。現在,追試研究を掲載することを明言してい る専門知識以外にも習得しなければならない事柄 るジャーナルは多くはないが,例えば Journal of が非常に多くなり,それらが適切に正確に運用で Experimental Psychology: General 誌,Archives of きないと研究を報告することもできなくなるだろ Scientific Psychology 誌,Perspectives on Psychological う。この点について,筆者は統計家(statistician) Science 誌,PLoS ONE 誌,PeerJ 誌,Quantitative による認知研究への参加を提案したい。つまり, Methods for Psychology 誌などを追試研究の投稿を 分析やデザインに関わる QRPs の防止のために, 明確に奨励しているかあるいは追試専用のセク 統計家に共著者として研究に参加することを依頼 ションを用意している雑誌として挙げることが し,彼らによるチェックとアドバイスを受けるこ できる(次の URL にて追試セクションや事前登 とができるシステムがあれば,双方にとってメ 録の受付等に関するより完全な雑誌リストを確認 リットが大きいのではないだろうか。筆者は数 で き る:https://osf.io/8mpji/wiki/2.%20Journal%20 年前からそのような体制で研究を行っているが, Comparison/)。Journal of Personality and Social 概 ね う ま く い っ て い る(Marmolejo-Ramos et al., Psychology 誌は,例の Bem 騒動(Bem, 2011)の際 2013)。できれば認知心理学者と統計家を引き合 に追試研究(Ritchie, Wiseman, & French, 2012)を わせるマッチングサービスがあればなお良いだ エディターキックしている。このときエディター ろう。現在,日本基礎心理学会の若手研究者特別 は「本ジャーナルは結果の如何を問わず追試研究 委員会は「PsyPo」という研究室ポータルサイト を刊行しない」と発言していた(Aldhous, 2011)。 を運営しているが(http://webpark1842.sakura.ne.jp/ しかしながら現在このジャーナルは追試研究の PsyPo/index.html),ここにそのようなマッチング 投稿を奨励する立場を表明している(Novotney, 機能も加えられないか今後検討したい。 2014)。アメリカ心理学会(APA)のジャーナル 既存の調査会社に追試サービスを運用する予定 を筆頭として,オープンアクセスジャーナルを中 がないのであれば,新たに専用の追試会社を設立 心に追試研究を受け入れる国際誌が増加してきて してはどうだろうか。著者からの追試依頼料や予 いるが,特に APA やアメリカ心理学協会(APS) 測市場の手数料などによって採算が取れるのであ のジャーナルは元研究の重要性を掲載基準として れば,研究アイデアの捻出だけが不得意な,しか おり,あらゆる追試研究を掲載する場というのは しそれ以外の研究遂行能力に優れるような若手の まだまだ少ない。 進路の一つとしてそれを考慮することができない そうは言っても,ジャーナルにある程度の権威 だろうか。今後はこの方向性も探っていく価値が がなければ追試研究を掲載させたとしても評価さ あるだろう。 れないという現状は変わらないだろう(Journal of Yamada という同人誌に掲載させたい研究者が 果たして存在するだろうか)。また,思い切って 学界でも話題になることの多い「搾取的ジャーナ — 25 — 心理学評論 Vol. 59, No. 1 ル」(predatory journals)をどうせ査読もされない ので追試用に勝手に利用してしまえばどうかと考 えもしたが,掲載料が高すぎること,突然閉鎖し てしまった場合に貴重な再現結果が消失してしま う可能性があること,まともに査読されないため 追試研究としてのクオリティの保証が難しいこ と,何より既に評判が悪すぎることなどから断念 せざるをえなかった。 したがって,重要になってくるのは既存の学会 の役割であろうと考える。現在のところ,知る限 り実験心理系の国内誌で追試用のスペースを持つ ものはない。そうした国内誌に何とか追試セク ションを設けることができないだろうか(論文は ウェブのみで公開し,ジャーナルの冊子には要約 やお知らせのみを掲載するという形でも良い)。 とにかく追試研究を論文として引用可能にするこ とと,掲載場所にある程度のしっかりとした組織 的バックボーンが必要なのである。あるいは既存 のジャーナルにそうした要素を追加することが難 しいならば,単一または複数の学会が運営する新 規の追試ジャーナルを創設することはできないだ ろうか。最近,天体物理学・宇宙論分野にて新設 されたオープンアクセスジャーナル(The Open Journal, http://astro.theoj.org/) は arXiv に「便 乗」 した投稿・査読・掲載システムを導入している (Gibney, 2016)。arXiv は無料のプレプリントサー バーであり,知名度も非常に高い。そこで,実験 心理学関係諸学会の参画のもとにこの arXiv を利 用した新たなオープンアクセスの追試ジャーナル を創設できれば,それは非常に安価かつ権威のあ る追試研究の一大拠点として大きな注目を浴びる に違いない。そこであえて最後に提案したい。ま さにこの心理学評論誌こそがそのフラッグシップ としての最有力候補なのではないかと。 謝 辞 草稿への意義深いコメントをいただいたことに対し, 佐々木恭志郎氏ならびに 3 名の査読者の皆様に深く感 謝 の 意 を 表 す。 本 稿 は 科 研 費(26540067,15H05709, 16H01866,16H03079) お よ び 九 州 大 学 P&P(27817, 27818,27819,27822)による支援を受けた。 文 献 Abbott, A. (2013). Disputed results a fresh blow for social psychology. Nature, 497, 16. Ackerman, J. M., Nocera, C. C., & Bargh, J. A. (2010). Incidental haptic sensations influence social judgments and decisions. Science, 328, 1712–1715. Aldhous, P. (2011). Journal rejects studies contradicting precognition. Retrieved from https://www.newscientist.com/ article/dn20447-journal-rejects-studies-contradictingprecognition/ (17, March, 2016) Almenberg, J., Kittlitz, K., & Pfeiffer, T. (2009). An experiment on prediction markets in science. PLoS ONE, 4, e8500. Anderson, M. C., Ochsner, K. N., Kuhl, B., Cooper, J., Robertson, E., Gabrieli, S. W., Glover, G. H., & Gabrieli, J. D. (2004). Neural systems underlying the suppression of unwanted memories. Science, 303, 232–235. Anderson, M. J., & Sunder, S. (1995). Professional traders as intuitive Bayesians. Organizational Behavior and Human Decision Processes, 64, 185–202. Arrow, K. J., Forsythe, R., Gorham, M., Hahn, R., Hanson, R., Ledyard, J. O., Levmore, S., Lifan, R., Milgrom, P., Nelson, F. D., Neumann, G. R., Ottaviani, M., Schelling T. C., Shiller, R. J., Smith, V. L., Snowberg, E., Sunstein, C. R., Tetlock, P. C., Tetlock, P. E., Varian, H. R., Wolfers, J., & Zitzewitz, E. (2008). The promise of prediction markets. Science, 320, 877–878. Bateman, I., Kahneman, D., Munro, A., Starmer, C., & Sugden, R. (2005). Testing competing models of loss aversion: an adversarial collaboration. Journal of Public Economics, 89, 1561–1580. Bateman, T. S., & Hess, A. M. (2015). Different personal propensities among scientists relate to deeper vs. broader knowledge contributions. Proceedings of the National Academy of Sciences of the United States of America, 112, 3653–3658. Baumann, H. (2003). Publish and perish? The Impact of citation indexing on the development of new fields of environmental research. Journal of Industrial Ecology, 6, 13–26. Begley, C. G., & Ellis, L. M. (2012). Drug development: Raise standards for preclinical cancer research. Nature, 483, 531–533. Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407–425. Berg, J. E., & Rietz, T. A. (2003). Prediction markets as decision support systems. Information Systems Frontiers, 5, 79–93. Block, R. A., Hancock, P. A., & Zakay, D. (2000). Sex differ- — 26 — 山田:認知心理学と再現可能性 ences in duration judgments: A meta-analytic review. Memory & Cognition, 28, 1333–1346. Block, R. A., Hancock, P. A., & Zakay, D. (2010). How cognitive load affects duration judgments: A meta-analytic review. Acta Psychologica, 134, 330–343. Block, R. A., Zakay, D., & Hancock, P. A. (1998). Human aging and duration judgments: A meta-analytic review. Psychology and Aging, 13, 584–596. Brandon, A., & List, J. A. (2015). Markets for replication. Proceedings of the National Academy of Sciences of the United States of America, 112, 15267–15268. Burleigh, T. J., Schoenherr, J. R., & Lacroix, G. L. (2013). Does the uncanny valley exist? An empirical test of the relationship between eeriness and the human likeness of digitally created faces. Computers in Human Behavior, 29, 759–771. Button, K. S., Ioannidis, J. P. A., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S. J., & Munafò, M. R. (2013). Power failure: Why small sample size undermines the reliability of neuroscience. Nature Reviews Neuroscience, 14, 365–376. Cardinale, B. J., Palmer, M. A., & Collins, S. L. (2002). Species diversity enhances ecosystem functioning through interspecific facilitation. Nature, 415, 426–429. Chaya, K., Xue, Y., Uto, Y., Yao, Q., & Yamada, Y. (2016). Fear of eyes: Triadic relation among social anxiety, trypophobia, and discomfort for eye cluster. PeerJ, 4: e1942. Cohen, J. (1962). The statistical power of abnormal-social psychological research: A review. Journal of Abnormal Social Psychology, 65, 145–153. Cohen, G. L., Garcia, J., Apfel, N., & Master, A. (2006). Reducing the racial achievement gap: A socialpsychological intervention. Science, 313, 1307–1310. Cyranoski, D. (2007). Japanese TV show admits faking science. Nature, 445, 804–805. de Bruin, A., Treccani, B., & Della Sala, S. (2015). Cognitive advantage in bilingualism: An example of publication bias? Psychological Science, 26, 99–107. Dreber, A., Pfeiffer, T., Almenberg, J., Isaksson, S., Wilson, B., Chen, Y., Nosek, B. A., & Johannesson, M. (2015). Using prediction markets to estimate the reproducibility of scientific research. Proceedings of the National Academy of Sciences of the United States of America, 112, 15343–15347. Dugas, M. J., Freeston, M. H., & Ladouceur, R. (1997). Intolerance of uncertainty and problem orientation in worry. Cognitive Therapy and Research, 21, 593–606. Dugas, M. J., Gosselin, P., & Ladouceur, R. (2001). Intolerance of uncertainty and worry: Investigating specificity in a nonclinical sample. Cognitive Therapy and Research, 25, 551–558. Eich, E. (2014). Business not as usual. Psychological Science, 25, 3–6. Fecher, B., Fräßdorf, M., & Wagner, G. G. (2016). Perceptions and practices of replication by social and behavioral scientists: Making replications a mandatory element of curricula would be useful. Discussion Papers of DIW Berlin, 1572. Ferguson, C. J. (2007). Evidence for publication bias in video game violence effects literature: A meta-analytic review. Aggression and Violent Behavior, 12, 470–482. Forsythe, R., Nelson, F., Neumann, G. R., & Wright, J. (1992). Anatomy of an experimental political stock market. The American Economic Review, 82, 1142– 1161. Francis, G. (2012). Too good to be true: Publication bias in two prominent studies from experimental psychology. Psychonomic Bulletin & Review, 19, 151–156. Freeston, M. H., Rhéaume, J., Letarte, H., Dugas, M. J., & Ladouceur, R. (1994). Why do people worry? Personality and Individual Differences, 17, 791–802. 藤 島 喜 嗣・ 樋 口 匡 貴(2016) 社 会 心 理 学 に お け る “p-hacking” の実践例 心理学評論,59, 84–97. Gibney, E. (2016). Open journals that piggyback on arXiv gather momentum. Nature, 530, 117–118. Giluk, T. L., & Postlethwaite, B. E. (2015). Big Five personality and academic dishonesty: A meta-analytic review. Personality and Individual Differences, 72, 59–67. Greitemeyer, T., & Osswald, S. (2010). Effects of prosocial video games on prosocial behavior. Journal of Personality and Social Psychology, 98, 211–221. Hanson, R. (1995). Could gambling save science? Encouraging an honest consensus. Social Epistemology, 9, 3–33. Hart, H., Radua, J., Mataix-Cols, D., & Rubia, K. (2012). Meta-analysis of fMRI studies of timing in attentiondeficit hyperactivity disorder (ADHD). Neuroscience and Biobehavioral Reviews, 36, 2248–2256. Holcombe, A. O., Brown, N. J., Goodbourn, P. T., Etz, A., & Geukes, S. (2015). Does sadness impair color perception? Thorstenson et al.ʼs plan to find out is flawed. PeerJ PrePrints, 3: e1916. Hyman, R., & Honorton, C. (1986). A joint communiqué: The psi ganzfeld controversy. Journal of Parapsychology, 50, 351–364. 池田功毅・平石 界(2016)心理学における再現可能危 機:問題の構造と解決策 心理学評論,59, 3–14. Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2, e124. Ioannidis, J. P. A. (2014). How to make more published research true. PLoS Medicine, 11, e1001747. Ioannidis, J. P. A., Munafò, M. R., Fusar-Poli, P., Nosek, B. A., & David, S. P. (2014). Publication and other reporting biases in cognitive sciences: Detection, preva- — 27 — 心理学評論 Vol. 59, No. 1 lence, and prevention. Trends in Cognitive Sciences, 18, 235–241. Ioannidis, J. P. A., & Trikalinos, T. A. (2005). Early extreme contradictory estimates may appear in published research: The Proteus phenomenon in molecular genetics research and randomized trials. Journal of Clinical Epidemiology, 58, 543–549. Jostmann, N. B., Lakens, D., & Schubert, T. W. (2009). Weight as an embodiment of importance. Psychological Science, 20, 1169–1174. Kätsyri, J., Förger, K., Mäkäräinen, M., & Takala, T. (2015). A review of empirical evidence on different uncanny valley hypotheses: Support for perceptual mismatch as one road to the valley of eeriness. Frontiers in Psychology, 6, 390. Keren-Happuch, E., Chen, S.-H. A., Ho, M.-H. R., & Desmond, J. E. (2014). A meta-analysis of cerebellar contributions to higher cognition from PET and fMRI studies. Human Brain Mapping, 35, 593–615. Kerr, N. L. (1998). HARKing: Hypothesizing after the results are known. Personality and Social Psychology Review, 2, 196–217. Kishimoto, R., Sasaki, K., Gobara, A., Ojiro, Y., Nam, G., Miura, K., & Yamada, Y. (2016). When a silhouette appears male: Observerʼs own physical fitness governs social categorization of sexually ambiguous stimuli. Letters on Evolutionary Behavioral Science, 7, 17–20. Latham, G. P., Erez, M., & Locke, E. A. (1988). Resolving scientific disputes by the joint design of crucial experiments by the antagonists: Application to the Erez– Latham dispute regarding participation in goal setting. Journal of Applied Psychology, 73, 753–772. LeBel, E. P., Borsboom, D., Giner-Sorolla, R., Hasselman, F., Peters, K. R., Ratliff, K. A., & Smith, C. T. (2013). PsychDisclosure.org: Grassroots support for reforming reporting standards in psychology. Perspectives on Psychological Science, 8, 424–432. Ledgerwood, A., & Sherman, J. W. (2012). Short, sweet, and problematic? The rise of the short report in psychological science. Perspectives on Psychological Science, 7, 60–66. Lewis, S., & Clarke, M. (2001). Forest plots: Trying to see the wood and the trees. BMJ, 322, 1479–1480. Lindsay, D. S. (2015). Replication in Psychological Science. Psychological Science, 26, 1827–1832. Maniadis, Z., Tufano, F., & List, J. A. (2015). How to make experimental economics research more reproducible: Lessons from other disciplines and a new proposal. In C. A. Deck, E. Fatas, & T. Rosenblat (Eds.), Replication in Experimental Economics, Bingley, UK. Emerald Group Publishing. Marmolejo-Ramos, F., Elosúa, M. R., Yamada, Y., Hamm, N. F., & Noguchi, K. (2013). Appraisal of space words and allocation of emotion words in bodily space. PLoS ONE, 8, e81688. 松澤孝明(2013a)わが国における研究不正:公開情報 に基づくマクロ分析(1) 情報管理,56, 156–165. 松澤孝明(2013b)わが国における研究不正:公開情報 に基づくマクロ分析(2) 情報管理,56, 222–235. Matzke, D., Nieuwenhuis, S., van Rijn, H., Slagter, H. A., van der Molen, M. W., & Wagenmakers, E.-J. (2015). The effect of horizontal eye movements on free recall: A preregistered adversarial collaboration. Journal of Experimental Psychology: General, 144, e1–e15. McCabe, D. P., & Castel, A. D. (2008). Seeing is believing: The effect of brain images on judgments of scientific reasoning. Cognition, 107, 343–352. Mellers, B., Hertwig, R., & Kahneman, D. (2001). Do frequency representations eliminate conjunction effects? An exercise in adversarial collaboration. Psychological Science, 12, 269–275. 三浦麻子(2015)心理学研究の「常識」が変わる?― 心理学界における再現可能性問題への取り組み 心理学ワールド,68, 9–12. 森 政弘(1970)不気味の谷 Energy, 7, 33–35. Murayama, K., Miyatsu, T., Buchli, D., & Storm, B. C. (2014). Forgetting as a consequence of retrieval: A meta-analytic review of retrieval-induced forgetting. Psychological Bulletin, 140, 1383–1409. Mushquash, A. R., Fawcett, J. M., & Klein, R. M. (2012). Inhibition of return and schizophrenia: A meta-analysis. Schizophrenia Research, 135, 55–61. 中村征樹(2011)研究不正への対応を超えて:リサー チ・インテグリティ・アプローチとその含意 メ タフュシカ,42, 31–46. 中村征樹(2015)研究成果の発表と研究倫理:STAP 問 題から考える 科学技術コミュニケーション,18, 81–89. 日本認知心理学会(2016)入会申し込み Retrieved from http://cogpsy.jp/nyukai_form.html(2016 年 3 月 17 日) Novotney, A. (2014). Reproducing results. Monitor on Psychology, 45, 32–35. Nuzzo, R. (2015). Fooling ourselves. Nature, 526, 182–185. Ojiro, Y., Gobara, A., Nam, G., Sasaki, K., Kishimoto, R., Yamada, Y., & Miura, K. (2015). Two replications of “Hierarchical encoding makes individuals in a group seem more attractive (2014; Experiment 4).” The Quantitative Methods for Psychology, 11, r8–r11. 大久保街亜(2016)帰無仮説検定と再現可能性 心理 学評論,59, 57–67. Open Science Collaboration. (2012). An open, large-scale, collaborative effort to estimate the reproducibility of psychological science. Perspectives on Psychological Science, 7, 657–660. — 28 — 山田:認知心理学と再現可能性 Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349, aac4716. Ortuño, F., Guillen-Grima, F., López-García, P., Gómez, J., & Pla, J. (2011). Functional neural networks of time perception: Challenge and opportunity for schizophrenia research. Schizophrenia Research, 125, 129–135. Ozimek, A. (2014). The regulation and value of prediction markets. Mercatus Center Working Paper. Retrieved from http://mercatus.org/sites/default/files/Ozimek_ PredictionMarkets_v1.pdf (17, March, 2016) Pennock, D. M., Lawrence, S., Giles, C. L., & Nielsen, F. A. (2001). The real power of artificial markets. Science, 291, 987–988. Peterson, S. P. (1993). Forecasting dynamics and convergence to market fundamentals: Evidence from experimental asset markets. Journal of Economic Behavior & Organization, 22, 269–284. Pfeiffer, T., Bertram, L., & Ioannidis, J. P. A. (2011). Quantifying selective reporting and the Proteus phenomenon for multiple datasets with similar bias. PLoS ONE, 6, e18362. Rabelo, A. L. A., Keller, V. N., Pilati, R., & Wicherts, J. M. (2015). No effect of weight on judgments of importance in the moral domain and evidence of publication bias from a meta-analysis. PLoS ONE, 10, e0134808. Radua, J., Pozo, N. O. D., Gómez, J., Guillen-Grima, F., & Ortuño, F. (2014). Meta-analysis of functional neuroimaging studies indicates that an increase of cognitive difficulty during executive tasks engages brain regions associated with time perception. Neuropsychologia, 58, 14–22. Ramirez, G., & Beilock, S. L. (2011). Writing about testing worries boosts exam performance in the classroom. Science, 331, 211–213. Ritchie, S. J., Wiseman, R., & French, C. C. (2012). Failing the future: Three unsuccessful attempts to replicate Bemʼs ʻretroactive facilitation of recallʼ effect. PLoS ONE, 7, e33423. 鮫島和行(2016)システム神経科学における再現可能 性 心理学評論,59, 39–45. 佐藤 哲(2010)2009 年総選挙向け予測市場「shuugi.in」 実験 第 4 回ファイナンスにおける人工知能応用 研究会予稿集,SIG-FIN-004-04, 21–27. 澤 幸祐・栗原 彬(2016)動物心理学における再現可 能性の問題 心理学評論,59, 46–56. Schwartze, M., Rothermich, K., & Kotz, S. A. (2012). Functional dissociation of pre-SMA and SMA-proper in temporal processing. NeuroImage, 60, 290–298. Smithson, M. (2011). Disappearing truths or vanishing illusions? Retrieved from https://ignoranceanduncertainty. wordpress.com/2011/01/10/disappearing-truths-orvanishing-illusions/ (17, March, 2016) Spellman, B. A. (2015). A short (personal) future history of Revolution 2.0. Perspectives on Psychological Science, 10, 886–899. Steel, P. (2007). The nature of procrastination: A metaanalytic and theoretical review of quintessential selfregulatory failure. Psychological Bulletin, 133, 65–94. Stroebe, W., Postmes, T., & Spears, R. (2012). Scientific misconduct and the myth of self-correction in science. Perspectives on Psychological Science, 7, 670–688. Tear, M. J., & Nielsen, M. (2013). Failure to demonstrate that playing violent video games diminishes prosocial behavior. PLoS ONE, 8, e68382. Thönes, S., & Oberfeld, D. (2015). Time perception in depression: A meta-analysis. Journal of Affective Disorders, 175, 359–372. Thorstenson, C. A., Pazda, A. D., & Elliot, A. J. (2015). Sadness impairs color perception. Psychological S cience. Advance online publication. doi: 10.1177/ 0956797615597672 Tziralis, G., & Tatsiopoulos, I. (2012). Prediction markets: An extended literature review. The Journal of Prediction Markets, 1, 75–91. Vazire, S. (2015). Editorial. Social Psychological and Personality Science, 7, 3–7. Vogel, G. (2006). Fraud investigation clouds paper on early cell fate. Science, 314, 1367–1369. Vogel, G. (2008). Fraud charges cast doubt on claims of DNA damage from cell phone fields. Science, 321, 1144–1145. Vogel, G. (2011). Psychologist accused of fraud on ʻastonishing scaleʼ. Science, 334, 579. 和田さゆり(1996)性格特性用語を用いた Big Five 尺 度の作成 心理学研究,67, 61–67. 渡邊芳之(2016)心理学のデータと再現可能性 心理 学評論,59, 98–107. Wiener, M., Turkeltaub, P., & Coslett, H. B. (2010). The image of time: A voxel-wise meta-analysis. NeuroImage, 49, 1728–1740. Williams, L. E., & Bargh, J. A. (2008a). Experiencing physical warmth promotes interpersonal warmth. Science, 322, 606–607. Williams, L. E., & Bargh, J. A. (2008b). Keeping oneʼs distance: The influence of spatial distance cues on affect and evaluation. Psychological Science, 19, 302–308. Wilson, L. (1942). The academic man: A study in the sociology of a profession. London: Oxford University Press. — 29 — ― 2016. 3. 3 受稿,2016. 3. 24 受理 ―