...

ダウンロード

by user

on
Category: Documents
8

views

Report

Comments

Transcript

ダウンロード
情報洪水時代における
アクティブマイニングの実現
領域番号 759
文部科学省科学研究費補助金
特定領域研究
共通データ解析報告書
平成 15 年 9 月
領域代表者
元田
浩
(大阪大学産業科学研究所・教授)
ごあいさつ
特定領域研究「情報洪水時代におけるアクティブマイニングの実現」(略称:アクティブマ
イニング)は,平成 13 年度から平成 16 年度までの,4 年間の研究としてスタートしました.
大量データが氾濫している今日の状況は情報洪水に例えることができ,1) 膨大な情報空間
を的確に監視し情報を効率的に収集する,2) 収集した多様な形態の情報源から目的にかなっ
た価値ある知識を発掘する,3) ユーザの視点の変化や状況変化に即応し,既存の知識を洗練
したり,あらたな知識を再獲得する,ことが大きな問題となっています.本領域研究は,こ
れら 3 つの課題に対応し,1) 必要な情報源を探索し前処理を実施するアクティブ情報収集,
2) 種々の構造を持つデータに適した柔軟なマイニングを実現するユーザ指向アクティブマイ
ニング,3) 理解しやすい表示と結果に対するユーザの積極的なフィードバック環境を提供す
るアクティブユーザリアクションの研究を実施し,3 つの連携機能を実現する環境を構築す
ることを主目標に研究を進めています.
具体的には,これらを実証するためのテストベッドとして医療および化学薬品データのマイ
ニングを実施しています.前者に関しては千葉大学医学部より提供される慢性肝炎のデータ
を共通医療データとして各計画研究が取り上げ,上記の 3 つの機能を統合した “科学発見の
スパイラルモデル” による相乗効果の実証を目指します.化学薬品に関しては,新しく開発
される薬品の生理活性に対する部分化学構造から,すでに市場に出まわっている薬品に対し
必要な警告を与える可能性を検討しています.
2 年半を経過した現在,2 つの共通データ解析のそれぞれで,問題の難しさに直面しつつも,
各計画研究が総力をあげ,専門家の協力を仰ぎつつ,一歩一歩前進しています.肝炎データ
の解析では,各要素技術を連携して前処理,マイニング,評価のサイクルが 1 年前から周り
始めました.専門医とのインタラクションも活発に行われており,専門医の興味を引く具体
的な成果も幾つか得られました.化学薬品データのマイニングに関しても,部分構造の発見
と類似構造の高速探索の見通しも得られ,具体的な整理活性知識ベースの作成フェーズに入
りました.また,ドーパミンアンタゴニストの類似性検索により,リスクレポート作成の可
能性も確認できました.
本冊子は,共通データ解析の全体像を広く皆様に理解して頂くために,昨年度の共通データ
解析報告書執筆以降に得られた成果をまとめたものです.ぜひ,ご一読頂き,
「アクティブマ
イニング」の研究領域とその活動に対するご理解を頂ければ幸いです.
今後とも変わらぬご指導ご支援を賜りますようお願い申し上げます.
平成 15 年 9 月
領域代表者 元田 浩
目次
1. はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2. 肝炎データからの知識発見 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1 共通データ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 取り組み状況 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 解析結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3.1 医学文献検索への SVM ベース適合フィードバックの応用 (A01-02) . . . . . . . . 5
2.3.2 発見ルールフィルタリングへのマクロビューアプローチ (A01-03) . . . . . . . . 13
2.3.3 インターフェロンの効果を予測する述語記述の発見 (A01-04-1) . . . . . . . . . . 21
2.3.4 Decision Tree Graph-Based Induction による肝炎データからの診断知識の
抽出 (A02-05-1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.5 時系列抽象化による肝炎データからの知識発見 (A02-05-2) . . . . . . . . . . . . . . . 33
2.3.6 医療データマイニングにおけるルールの興味深さの検討 (A02-06) . . . . . . . . 43
2.3.7 プロトタイプラインを用いた肝炎データの可視化 (A02-07-1) . . . . . . . . . . . . . 54
2.3.8 時系列決定木を用いた肝炎データからの肝硬変予測 (A02-07-2) . . . . . . . . . . 68
2.3.9 多面的マイニングによる肝炎データの分析 (A02-07-3) . . . . . . . . . . . . . . . . . . 77
2.3.10 文の役割を考慮した Medline アブストラクトからの情報検索 (A02-08) . . . . 84
2.3.11 慢性ウイルス性肝炎検査データを対象とした長期時系列類型化法の比較
(A03-09) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
2.3.12 複数のデータベースからの知識発見 −肝機能検査データに関する因果
モデルの比較と評価− (A03-11-1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
2.3.13 肝炎進行・治療におけるシナリオ生成 (A03-11-2) . . . . . . . . . . . . . . . . . . . . . 109
3. 化学薬品データ解析:アクティブマイニングによるリスク分子発見 . . . . . . . . . . . . . 120
3.1 背景とねらい . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
3.2 取り組み状況 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.3 解析結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
3.3.1 Cascade model による活性部分構造の認識 (A03-10-1) . . . . . . . . . . . . . . . . . . 123
3.3.2 立体グラフ構造マイニング手法と生理活性相関解析への適用 (A02-05-3) . 134
3.3.3 リスクレポートのための活性クラス分類 (A03-10-2) . . . . . . . . . . . . . . . . . . . 146
3.3.4 化学物質構造からのデータマイニングのための帰納論理プログラミング
(A01-04-2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
4. おわりに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
1
はじめに
通信技術や計算機ハードウェアの急速な進歩により,ネットワークを通じ,個人ならびに組
織が簡単にアクセスできる情報量が飛躍的に増加している.データマイニングは,このよう
な大量データに潜む有用な知識の発見を目指す,ネットワーク社会の根幹となる技術であり,
知識管理の強力な武器になるものとその有用性が期待されている.しかし,大量データが氾
濫している今日の状況は情報洪水に例えられ,1)膨大な情報空間の的確な監視,効率的な
情報収集が難しい,2)収集した多様な形態の情報源から目的にかなった価値ある知識を発
掘する方法が確立されていない,3)ユーザの視点の変化や状況変化に即応した知識の頻繁
な更新に対処できないなどの問題が大きくクローズアップされている.情報収集・データ解
析・目的設定変更のサイクルが高速回転し,個人も組織も情報洪水の中で疲弊しているのが
現状である.
本領域研究では,領域が内蔵する,上記の3つの課題に対応し,1) 自律的に必要な情報源を
探索し前処理を実施するアクティブ情報収集,2) 種々の構造を持つデータに適した柔軟なマ
イニングを実現するユーザ指向アクティブマイニング,3) 理解しやすい表示と結果に対する
ユーザの積極的なフィードバック環境を提供するアクティブユーザリアクションの研究を実
施し,3つの連携機能を実現する環境を構築することを目標に掲げ推進している(図 1).
領域全体で連携してこれらの課題を
解決し実証するため,具体的な問題
として,医療と化学薬品データのマ
イニングを取り上げている.とくに
前者に関しては千葉大学医学部より
提供される肝炎のデータを共通医療
データとして各計画研究が取り上げ,
上記の3つの機能を統合した “科学
発見のスパイラルモデル” による相
乗効果を実証する.慢性 B 型,C 型肝
炎がどのような経過をたどって,肝
硬変,肝臓癌に至るかについては定
3
4
3
説がなく,肝炎の病理像(繊維化の
程度)と血液検査データとの間にあ 図 1: アクティブマイニングプロジェクトの全体構成
る程度の相関があると推測されてい
るが,明らかな知見には至っていない.侵襲度が高く簡単にできる検査ではない肝生検に代
わって,
(生検)検査以外の血液データから疾患の予後が予測できれば医学的にも大きな貢
献になる.共通医療データからのアクティブマイニングは,現在,新しい医療行為として注
目されている Evidence Based Medicine (EBM)(「エビデンス(科学的根拠)に基づいた医
療」)を実践するための有効な手段を提供するものと期待されており,本領域研究で,EBM
の効果も実証する.化学薬品に関しては,毎年新しく開発される多数の薬品の生理活性に対
する部分化学構造から,すでに市場に出まわっている薬品に対し必要な警告を与える可能性
を検討する.グラフ同型問題の困難性から化学構造を直接マイニングする有効な手法は存在
せず,いかに効率的にマイニングするかが大きな課題となる.
以下,現在までの取り組みの状況,得られた成果,今後の計画を,肝炎データ解析,化学薬
品データ解析に分けて報告する.
2
2.1
肝炎データからの知識発見
共通データ
共通医療データとしては千葉大学医学部より提供頂いた慢性肝炎のデータを利用している.
データは 1982 年∼2001 年末までの 20 年間に千葉大附属病院にて治療を受けた 771 名の患者
に関する検査結果で 981 項目からなる.基本的には非均質な欠損値の多い,大量時系列デー
タであり,図 2 に示す 6 つの個別の表で与えられている.データの詳細については,平成 14
年度の共通データ解析報告書(中間ヒアリング参考資料 2)を参照していただきたい.参考
のため,データの具体例を図 3 に示す.
生検結果
(960例)
院内検査項目
(459項目)
慢性肝炎データ
患者基本
情報
(771例)
データの特徴
大規模な未整備時系列データ
インターフェ
ロン投与情報
(198例)
院外検査結果
(30,243件)
院内検査結果
(1,565,877件)
最大 160 万件
膨大な数の表記揺れが存在
検査項目数が非常に多い
最大 950 項目
時期により検査項目の再現性
が変化,欠損値が多い
検査機器・医学の進歩
医者によるバイアスが存在
重病患者には特殊な検査
提供元:千葉大学医学部第一内科
約800人の患者の20年間に亘る病歴データ
図 2: 共通医療データとして採用した慢性肝炎データの特徴
今年度は,新たに赤血球数,白血球数等,血球計数検査に関するデータを追加するとともに,
生検データにおいて線維化,活動性の分類をそれぞれ F0-F4、A0-A3 に統一し,欠損項目を
大幅に減らしてデータを洗練した.なお,データは
http://www.shimane-med.ac.jp/med_info/tokuteiB/index.htm
においてパスワード付きで管理されている.
繊維
化度
(上
に行
くほ
ど肝
臓の
状態
が悪
い)
F4
F3
F2
F1
肝生検の時期を中心に多数の患者のデータを重ねてみたもの
図 3: 慢性肝炎データの具体例
2.2
取り組み状況
以下に示す 3 つの班を構成し,全体の進捗状況を総括班が管理している.各班は,それぞれ
3,4,3 の計 10 個の計画研究からなる.
A01 班:アクティブ情報収集
計画研究
A01-02
山田誠二
WWW におけるメタ情報源の獲得
計画研究
A01-03
北村泰彦
分散動的情報源からのアクティブ情報収集
計画研究
A01-04
沼尾正行
多段階学習方式によるデータ収集と前処理の自動化
A02 班:ユーザ指向アクティブマイニング
計画研究 A02-05 元田 浩
構造データからのアクティブマイニング
計画研究 A02-06 山口 高平
メタ学習機構に基づくアクティブマイニング
計画研究 A02-07 鈴木英之進 例外性発見に基づくスパイラル的アクティブマイニング
計画研究 A02-08 松本裕治
利用者からの要求を考慮したテキストデータからの知識抽出
A03 班:アクティブユーザリアクション
計画研究 A03-09 津本周作
ラフ集合に基づくアクティブマイニングによる診療情報生成
A03-10 岡田 孝
計画研究 A03-11 大澤幸生
計画研究
システムの開発
アクティブマイニングによる化学物質群からのリスク分子発見
ヒューマン・システム・インタラクションに基づく知識評価
と選択
初期の目標を達成するためには,各計画研究間の密接な連携と領域専門家の協力が不可欠
である.そのため,総括班会議の他に,班会議,計画研究代表者会議を定期的に開催し,各
計画研究の進捗状況を全員が把握すると同時に,問題点を徹底的に討議し解決策を全員で議
論している.とくに,肝炎データ解析に関しては A03-10 を除く全ての計画研究が参加して
いるので,これらの会議には肝炎データ提供者の千葉大学医学部の専門医にも参加してもら
い,結果を評価して頂いている.現在までに,総括班会議は 5 回,計画研究代表者会議は 5
回,班会議(複数研究グループ間の合同会議を含む)を 15 回実施している.
本特定領域では,多くの研究テーマが並行して推進されており,それらの成果を交換しな
がら,領域全体としての研究成果に集約されていく.共通データ解析の目的は,各要素技術
を連携して前処理,マイニング,評価のサイクルを繰り返し,“科学発見のスパイラルモデ
ル” を実践・実証することである.そのため,総体的には各計画研究は所属する班の目標達
成のための研究遂行に力を注いでいるが,お互いに少しずつオーバーラップしながらマイニ
ングの全プロセスを経験している.各計画研究がアクティブマイニングのどの部分に寄与し
ているかを図 ??に示す.
A03-09
A03-10
A03-11
A02-05 Bao
A03-11
MEDLINE
WWW
A01-02
A02-08
A01-04
A01-03
A02-05
A02-06
A02-07
A03-09
A03-10
A03-11
図 4: 肝炎データ解析における各計画研究の連携状況
2.3
解析結果
以下,各計画研究による現時点までの研究成果と今後の計画を各研究項目毎に報告する.
2.3.1 医学文献検索への
SVM ベース適合フィードバックの応用
2.3.1
医学文献検索へのSVMベース適合フィードバックの応用(A01-02)
(A01-02)
1
概要
近年の IT 技術の発展に伴い,個人で扱えるテキストデータの量が急激に増加している.このような状況の
中,膨大なテキストデータ中から必要な情報を検索する機会も増加し,情報検索に関する研究への関心が高
まっている.この情報検索に関する研究は,米国における TREC(Text Retrieval Conference)[7],日本にお
ける IREX(Information Retrieval and Extraction Exercise)[2] や,NTCIR(NII-NACSIS Test Collection
for IR System)[3] のワークショップを中心に広く行われている.
一方,現在 Web からアクセス可能な医学文献の大規模データベースが整備されつつある.大規模医学文
献データベースである MedLine に Web からアクセスできる PubMed(図 1) はその典型例である.本研究で
は,情報検索で広く使われている適合フィードバックの手法を,医学文献データベースに応用することを目
指す.本報告では,まずその応用のための基礎研究として,SVM(Support Vector Machine) ベースの適合
フィードバックにおける各文書の表現によるパフォーマンスの違いについて,実験的に調査する.
図 1: PubMed の Web ページ
2
SVM ベース適合フィードバックによる対話的文献検索
情報検索の枠組みとして,検索対象文書とクエリを多次元ベクトルで表現するベクトル空間モデル (vector
space model)[10] が広く利用されている.このモデルを用いた情報検索システムは,クエリベクトルと文書
ベクトル間の類似度をベクトル間の内積などの計算により求め,その値の高い文書を検索結果として提示
する.
このベクトル空間モデルに基づく情報検索システムの検索精度をユーザと対話的に改善する手法として,
適合フィードバック (relevance feedback)[5] がある.この手法は,提示された検索結果に対し,ユーザが適
合,非適合の判定を行い,その判定結果をシステムにフィードバックする.具体的なフィードバック方法
としては,ユーザによる適合/非適合の評価を基にクエリベクトルを修正する手法がよく用いられる.これ
に対し,ユーザによる評価を適合文書クラスの正例,負例としてとらえ,検索対象文書を適合,非適合の 2
つのクラスに分類する分類学習の適用が考えられる [4].
この分類学習に,学習データより決定される分離平面を用い,データ集合を 2 クラスに分類する能力の
高い Support Vector Machine(SVM)[12][11] を用いる手法が提案されている [13].
2.1
Support Vector Machines
本節では,SVM について概観する.学習サンプル (z1 , y1 ), . . . , (z , y ), zi ∈ F, yi ∈ {±1} が与えられ,次
式を満たす判別関数 fw,b = sgn((w · z) + b) を推定する問題を考える.
fw,b (zi ) = yi ,
i = 1, . . . , .
(1)
この関数が存在する場合,以下のの制約を考える.
yi · ((zi · w) + b) ≥ 1,
i = 1, . . . , .
(2)
(w, b), (−w, −b) のように w と b の方向の違いにより,同じ超平面判別関数の式が 2 つ存在することとな
る.しかし,式 (1) と式 (2) によって判別関数は一意に定めることができる.
汎化能力の高い判別関数は式 (2) で表現されるの制約条件の下,次式を最小化することで推定できる.
τ (w) =
1
||w||2 .
2
(3)
この凸最適化問題を解くため,式 (3) の Lagrangian を計算すると
L(w, b, α
)
1
||w||2 −
αi (yi ((zi · w) + b) − 1),
2
i=1
=
(4)
ここで,αi ≥ 0 は Lagrange 乗数である.この Lagrangian を αi について最大化し,w と b について最
小化する.パラメータ w と b についての L の導関数は鞍点において次式のように 0 にならなければならな
いので,
∂
L(w, b, α
) = 0,
∂b
∂
L(w, b, α
) = 0.
∂w
(5)
式 (5) から次式が成立する.
αi yi = 0,
(6)
i=1
w=
αi yi zi .
(7)
i=1
結局,w は学習サンプルの展開式となる.w の解はただ一つに決まるが,係数 αi はその必要がない.
Karush-Kuhn-Tucker 条件により,鞍点において Lagrange 乗数 αi は,式 (2) を正確に表現し直した次
式の制約条件に対して非ゼロでなくてはならない.
αi · [yi ((zi · w) + b) − 1] = 0,
i = 1, . . . , .
(8)
(w z1 ) + b = +1
(w z2 ) + b = -1
(w (z 1 - z 2))=2
(w/||w|| (z 1 - z 2 ))=2/||w||
{z | (w z) + b = 0}
z2
z1
w
{z | (w z) + b = +1}
{z | (w z) + b = -1}
図 2: SVM の例
αi > 0 を有するパターン zi を Support Vectors と呼ぶ.式 (8) より,Support Vectors は margin 上に
存在することとなる.Support Vectors 以外の学習サンプルは凸最適化問題の解法には関係のないものとな
る.つまり,Support Vectors 以外の学習サンプルは式 (2) の制約条件を自動的に満たし,式 (7) の展開項
の部分には現れないのである.
この凸最適化問題を解いて得られる超平面判別関数の汎化能力については,以下の命題が成立する [9].
命題 1 サンプル数 の学習サンプルから得られる Support Vectors 数の期待値を − 1 で割った値は,未
学習サンプルに対する誤分類率の上限である.
式 (4) の Lagrangian に式 (6),式 (7) の条件を代入すると,双対問題となる次の凸最適化問題を得ること
ができる.
max
α
subject to
αi −
i=1
1 αi αj yi yj (zi · zj )
2 i,j=1
αi ≥ 0, i = 1, . . . , ,
αi yi = 0.
(9)
i=1
式 (7) の展開式を判別関数の式 (1) に代入することによって,式 (1) の判別関数を,分類されるパターン
と Support Vectors との内積で評価される次式に書き換えることができる.
f (z) = sgn
αi yi (z · zi ) + b .
(10)
i=1
以上より,式 (9) で表現される凸二次計画問題を解くことで,判別関数 fw,b (z) = sgn((w · z) + b) を得る
ことができる.この例を図 2 に示す.図中,○と●は各々異なるラベルを有する学習データを表す.また,
破線上の学習データは,Support Vectors と呼ばれる.
現実問題としては,学習サンプルを完全に分離できる超平面は存在しない場合が多い.そのような場合,
次式で表現される緩和変数を導入して,式 (2) を満たさない学習サンプルが存在しても良いようにする [1].
ξi ≥ 0,
i = 1, . . . , .
(11)
この緩和変数を使って式 (2) の制約条件を次式のように緩和できる.
yi ((zi · w) + b) ≥ 1 − ξi ,
i = 1, . . . , .
(12)
この緩和変数の導入によって,式 (3) と式 (2) で表現される凸最適化問題が次式のようになる.
= 1 ||w||2 + γ
τ (w, ξ)
ξi
2
i=1
min
w,ξ
subject to
yi ((zi · w) + b) ≥ 1 − ξi ,
i = 1, . . . , .
(13)
適切な正定数 γ を選択できるとすれば,式 (13) で表現される凸最適化問題は,任意の関数集合における,
Vapnik の提唱する Structual Risk Minimization の概念を実践することとなる [8].
学習サンプルが完全に分離できる場合の式 (7) と同様に,式 (13) の最適解において,w は次式のように,
学習サンプルの展開式となる.
w=
αi yi zi .
(14)
i=1
ここで,係数 αi が非ゼロとなるのは,学習サンプル (zi , yi ) が制約条件式 (12) を満たす場合である.式
(13) で表現される最適化問題の双対問題となる以下の凸二次計画問題を解くことで,係数 αi を求めること
ができる.
max
α
αi −
i=1
subject to
1 αi αj yi yj (zi · zj )
2 i,j=1
0 ≤ αi ≤ γ, i = 1, . . . , ,
αi yi = 0.
(15)
i=1
Karush-Kuhn-Tucker 条件から,式 (15) で表現される凸二次計画問題の最適解は次の条件を満たす.
αi = 0 ⇒
yi f (zi ) ≥ 1
0 ≤ αi ≤ γ
⇒
yi f (zi ) = 0
αi = γ
⇒
yi f (zi ) ≤ 1
(16)
この条件より,分類結果 sgn(f (zi )) が yi と一致していて,margin 値 yi f (zi ) が 1 より大きいサンプル
に対応する αi は 0 になることがわかる.
2.2
SVM ベース適合フィードバック
2.1 章で述べたように,SVM は学習データにより決定される最適分離平面を用い,データ集合全体を 2
分割することができる.SVM により分離されるデータ集合が文書集合であるとすると,文書集合がある基
準に対し,適合,非適合に分離可能であると考えることができる.文書集合が,適合,非適合に分離可能な
らば,情報検索にとって有益な手法として用いることができるはずである.情報検索システムに一般的に使
用されているベクトル空間モデルは,文書を多次元ベクトルで表現する.SVM で最適分離平面を決定する
ための学習データ,および最適分離平面で分離されるデータ集合全体にこの多次元ベクトルを用いることに
より,情報検索システムに SVM の導入を図ることが可能となる.
適合フィードバック手法は,情報検索システムがクエリに対する検索を行った結果に対し,ユーザが適
合,非適合の判定を行い,その判定結果をシステムにフードバックすることにより,さらに適合性の高い文
書を検索する.この適合フィードバックにおけるフィードバック文書 (ユーザが判別を行った文書) を SVM
の学習データとして用いれば,検索対象文書全体を適合,非適合に分類することが可能である.
なお,SVM を対話的文書検索におうようすることの利点は以下のように考えられる.
• 一般に,文書ベクトルの次元数(属性数)は大きい(10,000 以上)が,SVM は大きい属性数に対応
できる.
• 対話的文書検索では,ユーザの評価できる文書数は少ない(数十程度)が,SVM は,少ない訓練例
からの学習に適している.
SVM による能動学習に基づく適合フィードバック手法は,以下に示す手続きでフィードバック,検索を
行う.なお,Step 4 において,ランダムに文書を選択してユーザの評価を受けるのではなく,最も適合し
ているであろう文書を優先的に評価してもらうという訓練例選択のバイアスをかけている点で,本手続き
は能動学習になっている.
Step 1 初期検索
ベクトル空間モデルを用い,ユーザが要求した質問に対し,検索を行い,類似度の高い上位 N 文書
をユーザに提示する.
Step 2 ユーザによる判定
Step 1 で提示された文書に対し,利用者は適合,非適合の判断を行う.適合と判断された文書には,
ラベル “1”,非適合と判断された文書には,ラベル “−1” をつける.
Step 3 最適分離平面の決定 (SVM の学習)
ユーザが判定した文書を用い SVM の学習を行い,検索文書全体を適合,非適合に分類する最適分離
平面を決定する.
Step 4 検索
フィードバック回数が M より小さい場合,決定された最適分離平面により,適合と分類された文書
に対し,再度ベクトル空間モデルと最適分離平面からの距離を用いて検索を行い,類似度の高い (最
適分離平面からの距離が遠い) 上位 N 文書をユーザに提示し,Step 2 へ.フィードバック回数が M
以上である場合,Step 5 へ.
Step 5 検索結果出力
決定された最適分離平面により,適合と分類された文書に対し,再度ベクトル空間モデルと最適分離
平面からの距離を用いて検索を行い,類似度の高い (最適分離平面からの距離が遠い)L 文書をシステ
ムから検索結果として出力する.
但し,Step 5 において,SVM により適合と判断された文書数が L 文書に至らない場合,適合と判断さ
れた文書を全て検索結果としてユーザに提示する.
以上の手続きを我々は,PubMed のフロントエンドとして実装した.そのインタフェースを図 3 に示す.
3
文書表現の比較実験
3.1
文書表現
VSM では,各文書(文献)は,多次元ベクトルで表現される.そして,これまで,情報検索の分野では,
様々な文書表現が開発されてきている.典型的な文書表現としては,TF(Term Frequency),TFIDF(Term
Frequency Inverse Document Frequency) などがある.また,SVM ベース適合フィードバックでは,ユー
ザの評価によるフィードバックから,クエリベクトルの修正を行わないため,文書表現としては,ブーリア
ンモデルも利用可能である.
しかし,このような様々な文書表現のいずれが SVM ペース適合フィードバックに適しているのかはこれ
まで十分に研究されていない.そこで,本研究では,これらの TF, TFIDF, ブーリアンの3つの文書表現
図 3: SVM ベース適合フィードバックにより PubMed のインタフェース
について,SVM ベース適合フィードバックのパフォーマンスを実験的に比較した.なお,3 つの表現の詳
細については,文献 [10] などを参照されたい.
ただし,TFIDF については,文献 [6] を参考に一般的な TFIDF[10] を改良したものを用いた.具体的に
は,以下の計算式を使った.
wtd
=
L =
t
=
u =
L∗t∗u
1 + log(tf (t, d))
(tf )
1 + log(average of tf (t, d)ind)
N +1
) (idf )
log(
df (t)
1
(normalization)
uniq(d)
0.8 + 0.2
average of uniq(d)
• wtd :文書 d における単語 t の重み.
• tf (t, d):文書 d における単語 t の出現頻度
• N :データ集合内の文書総数
• df (t):単語 t を含む文書数
• uniq(d):文書 d における単語の異なり数(種類)
3.2
実験条件と結果
実験用データには,文書検索に関する国際会議 TREC[7] で広く使用されているデータの中の英字新聞記
事(The Los Angels Times, 約 13 万記事,平均単語数 526 語)を使用した.このデータには検索要求文
とその要求に適合する文書集合が提供されており,本実験でもこれをクエリとして用いている.
2.2 章の SVM ベース適合フィードバックの手続きにおける,一度に評価される文書数 N は 20 とし,フィー
ドバック回数 M は,4 とした.また,SVM は,文書ベクトルが高次元のため,線形 SVM を用い,システ
ムの実装には,LibSVM を使った.
図 4 に,実験結果を示す.このグラフは,4 回のフィードバック後の再現率-適合率曲線であり,横軸は再
現率,縦軸は適合率である.この曲線は,上にある方がパフォーマンスがよいことを意味する.
この図からわかるように,再現率が 0∼0.7 までの広い範囲にわたり,ブーリアンモデルが,VSM の TF,
TFIDF を凌駕している.実際的には,0∼0.7 の範囲が重要なので,ブーリアンモデルが SVM ベース適合
フィードバックには適していると言える.SVM ベース適合フィードバックは,Rocchio ベース適合フィー
ドバックと異なり,基本的に文書表現として VSM を必要としないため,このようなブーリアンモデルの利
用が可能になっている.また,新しい文書が追加されると全文書について再計算が必要になる TFIDF と
違って,ブーリアンモデルは,文書毎に独立に算出できるため,計算コスト的にも有利である.
1
tf−idf
0.8
Precision
boolean
0.6
tf
0.4
0.2
0
0
0.2
0.4
0.6
Recall
0.8
1
図 4: 文書表現の実験結果
4
主要成果
本研究により,以下のような主要成果が得られた.
• SVM ベースの適合フィードバックを提案した.さらに,そのシステムを PubMed のフロントエンド
として実装した.これにより,PubMed において,適合フィードバックによる対話的医学文献検索が
実現できた.
• 文書表現の違いによる SVM ベース適合フィードバックの性能評価実験を行った.その結果,計算コ
スト的にも優れているブーリアンモデルが,SVM ベース適合フィードバックにとっても優れている
ことがわかった.
5
今後の計画
本報告で得られた結果をもとに,今後は以下の研究を行う予定である.
• ブーリアンモデルを使った SVM ベース適合フィードバックによる PubMed フロントエンドを実装
する.
• PubMed のアブストラクトの表現パターンを抽出し,PubMed の医学文献に特化したより精度の高い
インデキシングを開発し,それによりより高性能な適合フィードバックを実現する.
• 以上の改良を踏まえて,実際の医師のユーザに使っていただき,実際的な評価を行う.
参考文献
[1] C. Cortes and V. Vapnik. Support vector networks. Machine Learning, Vol. 20, pp. 273 – 297, 1995.
[2] IREX. http://cs.nyu.edu/cs/projects/ proteus/irex/.
[3] NTCIR. http://www.rd.nacsis.ac.jp/˜ntcadm/.
[4] 岡部正幸, 山田誠二. 関係学習を用いた対話的文書検索. 人工知能学会誌, Vol. 16, No. 1, F, 2001.
[5] J. Rocchio. Relevance feedback in information retrieval, pp. 313–323. Englewood Cliffs, N.J.: Prentice
Hall, 1971.
[6] R.E. Schapire, Y. Singer, and A. Singhal. Boosting and rocchio applied to text filtering. In Proceedings of the Twenty-First Annual International ACM SIGIR, pp. 215–223, 1998.
[7] TREC Web page. http://trec.nist.gov/.
[8] V.N. Vapnik. The Nature of Statistical Learning Theory. Springer, 1995.
[9] V.N. Vapnik. Statistical Learning Theory. Wiley, New York, 1998.
[10] R. B. Yates and B. R. Neto. Modern Information Retrieval. Addison Wesley, 1999.
[11] 小野田崇. Large margin classifiers. 人工知能学会誌, Vol. 17, No. 1, pp. 21–30, 2002.
[12] 赤穂昭太郎, 津田宏治. サポートベクターマシン 基本的仕組みと最近の発展. 数理科学, pp. 52–59,
2000.
[13] 柘植覚, 獅々堀正幹, 北研二. サポートベクターマシンによる適合性フィードバックを用いた情報検索.
研究報告「自然言語処理」, No. 141-14, 2001.
2.3.2 発見ルールフィルタリングへのマクロビューアプローチ(A01-03)
2.3.2 発見ルールフィルタリングへのマクロビューアプローチ (A01-03)
1.概要
アクティブマイニングは情報収集,データマイニング,ユーザリアクションの技術を融合
することにより,利用者の目的にあった質の高い知識の効率的な発見を目指すデータマイ
ニングの新しいアプローチである[1].われわれはインターネット上からの文献情報検索結
果に基づき,データマイニング結果をフィルタリングする発見ルールフィルタリング手法
[2]について研究を行っている.
データマイニングは大量のデータを機械処理することにより,利用者にとって有用な知識
を自動的に発見しようとする手法である.一般的には与えられたデータに含まれる属性間
の関係から統計的に意味のある関係を発見する.しかしながら単に統計的な特徴だけでデ
ータマイニングを行うなら,利用者にとって興味のない,既知の知識を大量に得られる可
能性がある.発見された知識が既知であるかどうかの判定は,当然のことながら,マイニ
ングの対象となっているデータの解析から得られることはできず,外部の情報源が必要に
なる.そこでわれわれは外部の情報源として,インターネットを介して利用可能な文献デ
ータベースを用い,その検索結果に基づき発見された知識のフィルタリングを行う.
発見ルールフィルタリングにはミクロビューとマクロビューの二つのアプローチが考えら
れる.ミクロビューアプローチは利用者に対して発見知識に関連性のある文献を検索し,
提示しようとするアプローチである.フィルタリングは関連性のある文献数に基づき行わ
れる.このアプローチでは,利用者は発見知識に関連する文献を入手することができ,そ
れがさらなる知識発見へと結びつく可能性がある[2].一方でその成功のためには精度の高
い情報検索技術が必要になり,課題も残されている.これに対してマクロビューアプロー
チは発見知識に関連する研究活動の傾向を大まかに観察し,その結果に基づき知識のフィ
ルタリングを行おうとしている.このアプローチは情報検索の精度がある程度低くても利
用可能であり,また発見知識に関連する文献数が多い場合に特に有効である.
本稿では以下,発見ルールフィルタリングの手法について述べた後,医療データマイニン
グにおける本手法の有効性について報告する.
2.主要成果
2.1
発見ルールフィルタリングの基礎
データマイニングとは複数の属性集合 A1, A2,…,An に対し,それらの関係を示す大量のデー
タ集合 D(⊆A1× A2×… × An)から特徴的な属性間の関係を発見することと定義できる.
(ここ
では簡単のために各属性値は 0 あるいは 1 の値を取ると仮定する.)すなわちデータマイニ
ングはデータ集合を入力とし,属性間の関係を表すルール集合を出力とする関数
m(D)⊆R={<Ac1,Ac2,…,Acm→Ad>}として定式化できる.このようなルール集合を求める手法
としては一般的には正答率(precision)と再現率(recall)を考慮する統計的手法が用いられる
ことが多い.ただし,新奇なルールを発見しようとするシステムでは再現性を犠牲にした
手法がとられることもある.
一方,情報検索とは多数のキーワード集合 B1,B2,…,Bm が与えられているときに,それらを
含む大量の文献集合 D’⊆B1× B2×… × Bm からキーワードの共起数を求めることと定義でき
る.すなわち情報検索とは文献集合とキーワード集合を入力とし,キーワードの共起数を
(ここで Int は整数の集合
出力とする関数 ir(D’,{Bk1, Bk2,…,Bkp})∈Int として定式化できる.
である.)実用上,情報検索では共起数そのものよりも,共起数の多い順にソートされた文
献リストが出力となる.
それではデータマイニングと情報検索を組み合わせることによりどのようなことが可能で
あろうか.まずデータマイニングにおける属性 Ai を情報検索におけるキーワード Bj に関連
付ける関数 c(Ai)=Bj を得ることができるなら,データマイニング結果と情報検索結果を関連
付けることが可能になる.例えば,データマイニングの結果としてルール<Ac1,Ac2,…,Acm
→Ad>が得られたとしよう.またこのルールを構成する属性に関連するキーワードを用いて
情報検索を行うと共起数 k が得られる.すなわち,ir(D’,{c(Ac1), c(Ac2),…,c(Acm)})=k である.
このとき k の値の大きさに応じて発見ルールのランク付けを行うことができる.k が非常に
大きな数値であれば,発見されたルールは既知のものである可能性が大きいし,その逆で
あれば未知の可能性が大きい.
情報検索にはさらに付加的なキーワードやパラメータを追加することも可能である.例え
ば,ある文献情報検索システムでは文献が出版された年を入力とした検索が可能になって
いる.これにより発見されたルールが過去のトピックであるのか,最新のトピックである
のかを識別することが可能になる.また,利用者が興味を持つ領域を表すキーワードを付
加すれば発見されたルールが利用者にとって興味があるかどうかに関しても評価すること
が可能になる.
2.2
発見ルールフィルタリングの手順
発見ルールフィルタリングではデータマイニングシステムにより発見されたルールに対
して,それに関連する文献情報をインターネット上から検索し,その結果に基づき,発見
ルールのフィルタリングを行う.発見ルールフィルタリングの具体的な手順は以下の通り
である.[3]
(1)発見ルールの獲得:データマイニングシステムを利用してルール形式の知識を得る.
(2)発見ルール駆動情報検索:発見されたルールに関連する情報を検索エンジンなどを
利用してインターネットから収集する.発見ルールに関連する情報を検索エンジンやデー
タベースなどから検索するためには,それに関連するキーワードを発見ルールから抽出す
る.このキーワードは発見ルール,マイニング領域,利用者の興味に関連するものがある.
(3)知的情報収集:発見ルールより抽出されたキーワードの組み合わせを用いて検索エ
ンジンを用いて情報収集を行う.このような情報収集を発見ルールの数だけ繰り返す必要
があるが,検索エンジンへの負荷を軽減するためにも効率よく行う.
(4)発見ルールフィルタリング:情報収集の結果に応じて発見ルールのフィルタリン
グを行う.
2.3
発見ルールフィルタリングへのマクロビューアプローチ
マクロビューアプローチは情報検索の精度はある程度犠牲にしても,属性間の関係に関す
る大まかな傾向を観察しようとするものである.例えば属性キーワードが共起する文献数
はその属性間の関係の強さを近似的に表しているといえる.
共起文献数に代わる指標としては Jaccard 係数[4]が挙げられる.属性キーワード K1 と
K2 に対して,検索キーワードを{K1},{K2},{K1,K2}としたときの文献ヒット数をそれぞれ
h({K1}),h({K2}),h({K1,K2})としたとき,キーワード K1 と K2 に対する Jaccard 係数は
h({K1,K2})/(h({K1})+h({K2}))で与えられる.Jaccard 係数は二つのキーワードの関連性の相
対的な強さをよく表している指標である.
また文献情報を扱う場合には,出版年に応じた文献検索も可能である.例えば,Jaccard
係数の年毎の変化を観測することにより発見ルールに関する属性の関連度の変化がわかる.
すなわち,図1に示すように以下のような解釈が可能である.
(a) Jaccard 係数が上昇傾向にある.これはその分野の研究が盛んに行われホットな分野
であることが伺える.
(b) Jaccard 係数が下降傾向になる.これはその分野の研究が収束に向かっていることが
伺える.
(c) Jaccard 係数が高いまま変わらない.これは属性間の関係が常識的なものになってい
ることを示している.
(d) Jaccard 係数が低いまま変わらない.これはまだあまり研究されていない分野である.
属性間の関係が見当はずれである場合にも生じる.
a hot topic.
Jaccard Coefficient
Jaccard Coefficient
(a) Upward:
(b) Downward:
an old topic.
Year
(c) Keeping High:
a well known
topic.
Jaccard Coefficient
Jaccard Coefficient
Year
(d) Keeping Low:
an uninvestigated
topic.
Year
Year
図 1: Jaccard 係数の経年変化
2.4
マクロビューアプローチの可能性
医学生物系文献データベース MEDLINE を用いてマクロビューアプローチの有効性を検証
した.MEDLINE(MEDlars on LINE)は,米国をはじめ 70 カ国で出版された 4000 誌を
超える医学・生物学系学術雑誌からのアブストラクトを含む書誌情報データベースであり,
1966 年 以 降 の 1100 万 件 以 上 の デ ー タ が 蓄 積 さ れ て い る . PubMed
(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi)
は
NCBI(National
Center
for
Biotechnology Information)によりインターネット上に無料提供されている MEDLINE の
検索サービスであり,一般の検索エンジン同様,キーワードを入力することにより,
MEDLINE 文献の検索を行うことができる.
ここでは図 1 のそれぞれのケースに該当する以下の 4 種類の文献検索を行い,Jaccard 係数
の経年変化を求めた.
(a) hcv(C 型肝炎ウイルス)と hepatitis (肝炎)(図 2)
Jaccard 係数は 1989 年以来上昇を続けている.1989 年に HCV クローニング法が成功し,
それ以来 HCV はホットトピックとして研究が続けられている事実を支持している.
(b) smallpox(天然痘)と vaccine(ワクチン) (図 3)
Jaccard 係数は減少を続けている.1980 年に World Health Assembly は天然痘の撲滅を
宣言しており,天然痘の研究がほぼ収束している事実を支持している.最近,係数が若干
増加に転じているのは天然痘の生物兵器としての可能性が議論されているからであろう.
(c) gpt (glutamic oxaloacetic transaminase)と got (glutamic oxaloacetic transaminase)
(図 4)
Jaccard は高いままである.GPT と GOT はともに肝細胞内酵素であり,肝機能を検査
するための血液検査により一般的に測定される.したがって GPT と GOT の関係は既知で
あるという事実を支持している.
(d) albumin(アルブミン)と urea nitrogen(尿酸窒素)(図 5)
Jaccard 係数は低いままである.一般にアルブミンと尿酸窒素の関係を議論されることは
まれであり,その事実を支持している.
hcv hepatitis
0.3
Jaccard coefficient
0.25
0.2
0.15
0.1
0.05
19
63
19
65
19
67
19
69
19
71
19
73
19
75
19
77
19
79
19
81
19
83
19
85
19
87
19
89
19
91
19
93
19
95
19
97
19
99
20
01
0
year
図 2: "hcv" と"hepatitis"に関する Jaccard 係数の経年変化.
smallpox vaccine
0.09
0.08
Jaccard coefficient
0.07
0.06
0.05
0.04
0.03
0.02
0.01
2001
1999
1997
1995
1993
1991
1989
1987
1985
1983
1981
1979
1977
1975
1973
1971
1969
1967
1965
1963
0
year
.
図 3: "smallpox"と"vaccine"に関する Jaccard 係数の経年変化
gpt got
02
99
20
96
19
93
19
90
19
87
19
84
19
81
19
78
19
75
19
72
19
69
19
66
19
19
19
63
Jaccard coefficient
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
year
図 4: "gpt" and "got"に関する Jaccard 係数の経年変化
albumin urea nitrogen
0.3
Jaccard coefficient
0.25
0.2
0.15
0.1
0.05
19
63
19
65
19
67
19
69
19
71
19
73
19
75
19
77
19
79
19
81
19
83
19
85
19
87
19
89
19
91
19
93
19
95
19
97
19
99
20
01
0
year
図 5: "albumin" and "urea nitrogen".に関する Jaccard 係数の経年変化
2.5
肝炎データマイニングへの適用
肝炎に関する五つの代表的なウイルス(hav, hbv, hcv, hdv, hev)と hepatitis(肝炎)と
の間の Jaccard 係数を年毎に求め,その関係を図6にプロットした.また肝炎ウイルスの
発見の歴史を表1示す[5].
hav
hdv
hbv
hev
hcv
Jaccard coefficient
0.25
0.2
0.15
0.1
0.05
2002
1999
1996
1993
1990
1987
1984
1981
1978
1975
1972
1969
1966
1963
0
year
図 6 肝炎ウイルスに関する Jaccard 係数の経年変化
図6と表1から分かるように肝炎ウイルス発見の時期と Jaccard 係数には明らかな相関
がある.また肝炎研究の中で B 型肝炎(hbv)と C 型肝炎(hcv)が主要なものであり,C 型肝
炎に関してはウイルスの発見に伴い急激に研究が進展していることが分かる.
以上のことから,発見ルールに含まれる属性名キーワード間の Jaccard 係数を求めるこ
とにより,それらの研究の時系列的な活性度を理解することができ,それを用いて発見ル
ールフィルタリングの一つの指標とすることが考えられる.
表1
1965 年
肝炎ウイルスの発見年表[5]
オーストラリア抗原の発見.B 型肝炎ウイル
ス発見の端緒となる.
1973 年
A 型肝炎ウイルスの発見.
1977 年
デルタ抗原の発見.D 型ウイルス発見の端
緒となる.
1983 年
E 型肝炎ウイルス粒子の同定.
1989 年
C 型肝炎ウイルス遺伝子クローニングに成
功.
3.今後の課題
データマイニングと情報検索の統合による発見ルールフィルタリングにおいて主にマクロ
ビューアプローチについて述べた.マクロビューアプローチは発見知識に関連する研究活
動を関連文献数を元に包括的に観察しようとしている.したがってミクロビューと異なり,
文献検索の精度がある程度低くても実用可能な手法であるといえる.また MEDLINE を用
いた文献検索結果を見ても,Jaccard 係数の経年変化は研究活動の変化と強い関連があるこ
とが見て取れる.
今後の課題としては以下のものが挙げられる.
(1)発見知識フィルタリングの基礎理論の構築.特にマクロビューアプローチは図書館
情報学の一分野であるビブリオメトリックスの研究[6]と強い関連がある.
(2)情報検索の精度の向上.現在の情報検索は属性を表す単純なキーワード検索である.
実際のデータマイニングでは属性値の変化などに関連する知識が発見されるが,それをキ
ーワードとして表現することは難しい.したがって自然言語処理の技術を用いて,文献検
索結果を解析し,知識と関係の深い文献のみを抽出する手法が必要になる.
(3)発見知識フィルタリングシステムの構築.本稿で述べた一連のプロセスを自動的に
実現する発見知識フィルタリングシステムを開発する必要がる.
(4)発見知識フィルタリングの応用.開発したシステムを肝炎データなどのデータマイ
ニング支援に応用し,その有効性を示す.
参考文献
[1] H. Motoda (Ed.), Active Mining: New Directions of Data Mining, IOS Press, Amsterdam,
2002.
[2] Y. Kitamura, K. Park, A. Iida, and S. Tatsumi. Discovered Rule Filtering Using
Information Retrieval Technique. Proceedings of International Workshop on Active
Mining, pp. 80-84, 2002.
[3] 北村泰彦,飯田暁,朴勤植,辰巳昭治.MEDLINE 情報検索に基づく発見ルールフィ
ルタリングシステム,人工知能学会知識ベースシステム研究会人工知能基礎論研究会,
SIG-A2-KBS60/FAI52-J11,2003.
[4] 村田剛志,“サーチエンジンを利用した知識発見のための視覚化,” 人工知能学会知識
ベースシステム研究会資料, SIG-KBS-A201, pp.117-122, 2002.
[5] 清澤研道,ウイルス肝炎とは,Medical Practice, Vol.16, No.9, pp.1394-1401, 1999.
[6] 小野寺夏生,ビブリオメトリックスをやってみませんか,CICSJ Bulletin, Vol.16, No.6,
pp.2-6, 1998.
2.3.3 インターフェロンの効果を予測する述語記述の発見
2.3.3 インターフェロンの効果を予測する述語記述の発見(A01-04-1)
(A01-04-1)
1
概要
医療データの特徴として,属性数の多さや属性間の関係の複雑さ,時系列の重要性などが挙げられる.帰納論
理プログラミングによれば,属性関係や時間関係の抽出が可能で,背景知識として医療情報を組み込むこともで
きるので,より精度の高い解析が行えると考えられる.これまでにも帰納論理プログラミングによるデータ解析
は行なわれてきたが,時系列データを扱った例は少ない [1][2].ここでは,代表的な帰納論理プログラミングのシ
ステムの1つである Progol[4] を利用し,背景知識として時系列と属性間の関係を同時に扱うことのできる述語を
与えて,インターフェロン投与患者のデータを解析した.
2
解析目標
肝炎の1つとして血液を介して感染する C 型肝炎が存在する.C 型肝炎の多くは慢性化し,肝硬変や肝ガンに
進行する事も多いが,この C 型肝炎に有効な治療法として,肝炎ウイルスの増殖を抑える物質であるインターフェ
ロン (IFN) を投与する IFN 療法がある.しかし,IFN 療法は全ての患者に有効とは限らず,副作用も存在し,ま
たコスト的な問題など様々なリスクを抱えている.もし,比較的検査の容易な血液検査などの検査履歴から IFN
投与の有効性を予測することができれば,このようなリスクを避ける事ができ,患者の負担を減らせる.そこで,
IFN 投与以前の血液検査データを使用し,IFN 療法の有効・無効性を予測する規則の作成を目標とした.
3
解析手法
3.1
帰納論理プログラミング
本研究では,データの解析のために,帰納論理プログラミングを用いた.与えられた複数の例から、そこに存在
する一般な概念を導くことが帰納学習である.中でも出力がホーン節で表現される述語論理プログラムであるとき,
それを帰納論理プログラミング(ILP:Inductive Logic Programming)と呼ぶ.ILP は Stephen Muggleton[3, 4]、
Ross Quinlan[5] らによって開発された体系であり、論理プログラムとして与えられた背景知識を利用していると
ころが、これまでの帰納推論システムと大きく異なる点である.
以下で ILP の形式的な定義及び,ILP で使用する単語について簡単に述べる.
・目標概念:帰納推論によって学習したい概念
・正例:事例の中で、目標概念を満たす正しい事例として扱う例
・負例:事例の中で、目標概念を満たさない正しくない事例として扱う例
仮説生成の際の過度の一般化防止として使用される.
・背景知識:目標概念を学習するために必要な関連情報
事例に直接的に関係する知識だけでなく、間接的に関係する知識も含まれる.
・仮説:帰納推論によって得られる、目標概念を説明するルール
仮説は主に背景知識によって構成され、一般的な形は以下のようになる.
目標概念 :- 背景知識1 , 背景知識2 , ..., 背景知識n .
表 1: 集合被覆アルゴリズム
1.逆伴意に基づき正例集合の一つの要素と背景知識から最弱仮説を生成
2.空節と最弱仮説によって形成される仮説空間内において、
A*-like 探索によりトップダウンに探索を行う
3.得られた仮説によって説明できる正例を正例集合から取り除く
1∼3を正例集合が空になるまで繰り返す
3.2
Progol
本研究では,帰納論理プログラミングシステムの一つである Progol を利用した.Progol は、S.Muggleton らに
よって開発されたトップダウン型の ILP システムである.
このシステムは、正事例 E + 、負事例 E − 、背景知識 B が一階述語論理の形式 (Prolog プログラム) で与えられ
たとき、
B ∧ H |= E +
B ∧ H 6|= E −
を満たす仮説 H を求めるものであり、仮説は表 1 の集合被覆アルゴリズムにより複数生成することが可能である.
また,Progol では背景知識として任意の Prolog プログラムを利用でき,さらに推論のコントロールのための情報
として、モード宣言、タイプ情報、パラメタ、determination 宣言、commutative 宣言があり、推論に対するより
細かい設定が可能なシステムである.
3.3
使用した述語
時系列を表現するにあたり,2点間の変化を表わす述語 move/6 を作成した.この述語は move(X, Date1, Date2,
Test, Value1, Value2) という形であり,その意味は「患者 X は検査日 Date1 から Date2 にかけて検査項目 Test
の検査値が Value1 から Value2 に変化する」である.このような検査項目の2点間の変化を表わす述語を1つ作
成すれば,この述語の連言により,ある検査項目の一連の時系列が表現可能である.
例:ifn effect(X) :- move(X, d1, d2, gpt, v1, v2), move(X, d2, d3, gpt, v2, v3).
意味:ある患者 X の GPT の値が検査日 d1 から d2 にかけて v1 から v2 に変化し,
検査日 d2 から d3 かけて v2 から v3 に変化するならば,その患者 X には IFN の効果がある.
また連言が複数の検査項目に関する述語で構成されていれば,それは検査項目間の共起性を表現していること
になる.
例:ifn effect(X) :- move(X, d1, d2, gpt, v1, v2), move(X, d1, d2, ttt, v3, v4).
意味:ある患者 X の GPT の値が検査日 d1 から d2 かけて v1 から v2 に変化し,
同じ時期に TTT の値は v3 から v4 に変化するならば,その患者 X には IFN の効果がある.
このように,2点間の変化を表わすこの述語を使用することにより,時系列と属性間の関係を同時に表現する
ことが可能であり,今回の解析目標に適した形の規則が得られる.
4
データの前処理
4.1
検査日の離散化
使用するデータの中には 10 年以上に及ぶ検査履歴を持つ患者も存在するが,古いデータを元に予測するのは現
実的ではない.そこで今回は,IFN 投与開始日以前5年間 (1826 日) のデータのみを使用することにした.また,
検査日や検査間隔は患者毎に疎らであり,日単位で扱うと検査日の組み合わせがほとんど一致せず,多くの患者を
カバーする規則があまり生成されないことが予想される.さらに肝炎は比較的緩やかに進行する疾病であるので,
月単位で扱っても問題ないと考えられる.これらの理由により,IFN 投与開始日からの相対日数を4週間(28 日
間隔)で月単位に離散化することにした (1826 日間→ 66ヶ月間).
4.2
検査結果の離散化
解析対象の医療データには多くの検査項目があるが,今回は,一般に重要と考えられ,またデータの出現頻度
の高い以下の検査項目を選択した.
GOT,GPT,TTT,ZTT,T-BIL,ALB,TP,T-CHO
これらの検査値は,実数値のまま扱うと探索空間が非常に大きくなり,また得られるルールの内容が非常に限
定的になり,実用的でないことが予想されるので,医師の作成した離散化指標を元に4∼7段階に離散化するこ
とにした.
4.3
正例・負例の分別
解析するデータを正例(IFN の効果があった患者)
・負例(効果が乏しかった患者)に分けるにあたり,GPT の
変化による指標 [6] を使用した (表 2).これにより患者は4つのグループ(著効,有効,悪化,不変)に分かれ,
このうち「著効・有効」の患者のデータを正例,
「悪化・不変」の患者の患者のデータを負例として扱う事にした.
IFN を投与した患者数は正例 93 名,負例 102 名,合計 195 名となった.
5
主要成果
上記で説明した手法をもとに,実際に IFN の効果を判別する規則を発見する実験を行なった.その結果,いく
つかの規則を得ることができた.そのうちの1例を紹介する.
ifn effect(A) :- move(A, 3, 2, got, lowerhigh, upperhigh), move(A, 5, 2, ttt, normal, normal) .
この規則の意味は「患者 A について,IFN 投与の3ヶ月前から2ヶ月前にかけて GOT が lowerhigh から
upperhigh に変化し,5ヶ月前から2ヶ月前にかけて TTT が normal のまま不変ならば,患者 A は IFN 投与が有
効である」というものであり,この規則に当てはまる患者は正例の患者 93 人中4人であった.この4名の患者の
GOT のグラフを図 1 に載せておく.
(IFN 投与の3ヶ月前から2ヶ月前にかけて GOT が lowerhigh から upperhigh
に変化しているのが読み取れる)
その後,システムから得られた解析結果の内容について医師と議論し,述語やデータの改良や,効果の判別に
必要な新しいデータの作成を行なった.
表 2: C 型肝炎に対する IFN 治療の効果判定基準
著効
IFN 投与終了後,6ヶ月以内に GPT が正常化し,
その後6ヶ月以上正常値が持続した例
有効
IFN 投与終了後,6ヶ月以内に GPT が正常上限
値の2倍以下に改善し,その後6ヶ月間以上正常
上限値の2倍以下を持続した例
悪化
IFN 投与終了後,6ヶ月間の経過で,
投与前に比して,GPT が明らかに増悪した例
不変
上記のいずれにも属さない例
図 1: 解析結果の具体例
6
今後の計画
時系列を述語で表現するにあたり,どのような表現であれば意味的に分りやすく,また多くの事例を拾えるよ
うになるかについて検討する.その際,今回の IFN の効果判定だけでなく,他のデータの解析にも使用できるよ
うにすることを視野に入れる.またデータについて専門家である医師の意見を元に,離散化の個数や間隔,正例・
負例の患者の分け方,使用する属性の選択などについて議論していく.
参考文献
[1] Juan J. Rodrı́guez, Carlos J. Alonso, and Henrik Boström: Learning first order logic time series classifiers,
In James Cussens and Alan Frisch, editors, Inductive Logic Programming: 10th International Conference,
ILP2000. Work-in-Progress Reports, pp. 260–275, London, UK, (2000)
[2] Stefan Zemke: ILP via GA for time series prediction, Dept. of Computer and System Sciences, KTH,
report 99-006, (1998)
[3] S. Muggleton. Inductive logic programming. New Generation Computing, Vol. 8, pp. 295–318, (1991)
[4] S. Muggleton: Inverse entailment and progol, New Generation Computing, Vol. 13, pp. 245–286, (1995)
[5] J.R. Quinlan. Learning logicaldefinitions from relations. Machine Learning, Vol. 5, pp. 239–266, (1990)
[6] 飯野四郎: C 型肝炎のインターフェロン療法の実際, Medical Practice, Vol. 16, no. 9, pp. 1485–1490, 文光
堂, (1999)
[7] 古川康一, 尾崎知伸, 植野研. 帰納論理プログラミング. 共立出版株式会社, (2001)
2.3.4 Decision
Inductionによる肝炎データから
2.3.4
DecisionTree
TreeGraph-Based
Graph-Based
Induction による肝炎データ
の診断知識の抽出(A02-05-1)
からの診断知識の抽出 (A02-05-1)
1
概要
肝生検は肝炎の進行程度を正確に計測できるが,検査費用が高く,また身体的負荷が大きいと
いう課題がある.このため,血液検査や尿検査などの一般的な検査からの肝炎の進行状況を予測
することが重要となる.通常 1 回の検査で複数の項目について計測するが,1 回の検査における検
査結果を 1 つのレコードに変換した場合,検査項目間にも病態を反映した相関があると考えられ
る.また,各レコードも患者の病態推移の影響を受けるため独立ではなく,時系列的な相関が強
いと考えられる.両者の相関を同時に反映して肝炎の進行状況を予測するためには,同時に行わ
れる検査値の共起と時系列的な共起を合わせて表現できるパターンを抽出し,抽出したパターン
を用いて予測を行うことが重要となる.
本稿では,肝炎の進行状況を予測する分類器(ここでは決定木)を Decision Tree Graph-Based
Induction(以下,DT-GBI 法と呼ぶ)[3] を用いて構築した結果を報告する.DT-GBI 法では患者
全体に対するグラフ集合(1 つのグラフが各患者に対する一連の検査結果を表す)から特徴的なパ
ターンを抽出し,抽出したパターンを用いてグラフ集合を分類する決定木を構築する.実験 1 お
よび実験 2 では線維化の段階(程度)をクラスとし,血液検査の時系列のみで第 4 段階(肝硬変)
の患者とそれ以外の段階の患者を分類する決定木を構築した.実験 3 では肝炎の型(B または C)
をクラスとして肝炎の型を分類する決定木を構築した.本稿では初期実験の結果で得られた決定
木とその予測精度,および決定木の分岐ノードで用いられた分類に効果的な検査パターンについ
て報告する.
2
Decision Tree Graph-Based Induction
DT-GBI 法は,Beam-wise GraphDT-GBI(D)
Create a node DT for D
Based Induction(B-GBI 法)[1] を
if termination condition reached
用いてグラフ構造データからペア
return DT
逐次拡張(チャンキング)により特
else
徴的なパターンを抽出し,抽出した
P := GBI(D) (with the number of chunking
specified)
パターンを分類に使用する属性と
Select a pair p from P
みなして決定木を構築する手法で
Divide D into Dy (with p) and Dn (without p)
ある.抽出したパターンを属性と
Chunk the pair p into one node c
Dyc := contracted data of Dy
みなし,各グラフにおけるパター
for Di := Dyc , Dn
ンの有無を属性値として属性−属
DTi := DT-GBI(Di )
性値表を作成する.属性値は “yes
Augment DT by attaching DTi as its child
along
(パターン有り)”と “no(パター
yes(no) branch
ン無し)” のいずれかであるため
return DT
決定木は二分木として表現される.
図 1: DT-GBI 法のアルゴリズム
決定木の分岐ノードにおいて分類
に効果的なパターン(ペアとして表現される)を選択するたびに,選択したパターンをチャンキ
ングにより 1 つのノードに書き換える.このため,初期段階では単に 2 つのノードとその間のリ
ンクとして表現されたペアが,再帰的にチャンキングを繰り返すことで徐々に大きなパターンに
of
Object to
MID Date
examination examine
Name of
examination
…
Judge
result
Result value Unit
1
19850711
1
CA19-9
8
1
19870114
1
CMV.IGG(ELISA)
0.729
(2+)
1
19870114
0.214
(-)
1
CMV.IGM(ELISA)
2
19920611
1
2-5ASカツセイ
2
19941003
1
HCV5'NCR RT-PCR
2
19950911
1
HCVテイリヨウ(プロ-ブ)
…
…
…
…
…
…
…
…
Comment
U/ML
…
…
69
PMOL/DL
6.5
MEQ/ML
サイケンズミデス
…
…
…
…
…
…
…
1
…
…
…
…
…
mid 1
date
ALB
CHE
D-BIL
GOT
GOT_SD GPT
GPT_SD
mid 2
date N ALB L CHE L D-BIL H GOT
GOT_SD
GPT_SD
19820515
1 H GPT
1
mid 3
date N N ALBL L CHEL L D-BIL
GOT
GOT_SD GPT
GPT_SD
19820515
19820714
H H
1 1H H
2 1
…
N
N
N
N
…
L
L L
L
L L
L
L
…
L
…
…
L
L L
L
L L
L
L
…
L
…
…
H
H H
H
H H
H
H
…
H
…
…
1H 1H
2H 1H
1 2
H
…
…
1
…
2
1
…
…
…
L
L
…
…
L
L
L
…
…
H
H
H
…
…
1 H
2
1 H
…
…
…
…
rearrangement attribute selection
cleansing alignment
average discretization
19820515N
19820714
19820912
N
19820714N
19820912
19821111
N
19820912N
19821111
…
…
19821111
…
…
19820714 N
19820912 N
19830311 N
…
…
ALB CHE D-BIL GOT GOT_SD GPT
…
…
(3+)
…
date
…
…
H
H
H
3
2
1
2
3
2
2
3
…
H
…
2
…
…
・・・
・・・
19830819
F2
L
H
CHE
GPT
・・・
D-BIL
GOT-SD
GOT
H
N
N
ALB
L
add to F2.txt
8 months
later
N
L
CHE
2 months
later
1
D-BIL
L
H
ALB
ALB
2
GOT_SD
6 months
later
GOT
H
GPT
・・・
D-BIL
GOT_SD
L
1
GOT
H
…
図 2: データの前処理(離散化まで)
図 3: データの前処理(グラフ構造への変換)
成長していく.また,過学習を防ぐために決定木を構築した後に枝刈りを行う.
前処理
3
3.1 データ洗浄 データには表記揺れが多く含まれるため,検査値が数字である場合は検査値
の先頭または末尾につく記号(+,H,L など)を削除した.なお,検査値が名義値の場合には元デー
タのままとした.
3.2 表形式データへの変換 検査項目を列とし,患者番号 (MID)・検査日をキーとして,各検
査項目が個別の属性となるような表形式データに変換した.使用した検査項目については 4 節で
述べる.全ての患者が同じ検査を受けたわけではないため変換後のデータには欠損値が多数存在
するが,以下で述べるように検査値をグラフとして表現する際には欠損値がグラフに表現されな
いだけであり,グラフからの頻出パターン抽出においては支障はない.
3.3 データの平均化および離散化
肝炎は通常緩やかに進行するため,毎回の検査結果(値)
に大きな変化は見られないことが多い.このため,一定期間(ここでは 2ヶ月間)にわたる検査
結果をその期間の代表値で表現した.検査結果には数値と名義値が混在する場合もあるが,数値
属性では平均値を,名義値属性では最頻値をその期間における値とした.なお,特定の検査項目
(GOT, GPT, TTT, ZTT) に対しては一定期間(ここでは 6ヶ月間)の標準偏差を計算し,新たな
属性として追加した.
検査結果値をノードラベルとして表現すると,数値データに対してはラベルの種類が膨大とな
り,数値の微小な差異が異なるラベルとして表現されるために頻出パターンがうまく抽出されな
い恐れがある.このため,離散化を通じてノードラベルの種類を少なくした.具体的には,検査項
目ごとに検査日の時点での正常範囲に応じて属性値を 3 つの値(L=低い, N=平常, H=高い)に
離散化した1 .GOT, GPT の標準偏差は 5 つの値(1=揺らぎが最も小さい, 2, 3, 4, 5=揺らぎが最
も大きい)に,TTT, ZTT の標準偏差は 3 つの値(1=揺らぎが最も小さい, 2, 3=揺らぎが最も大
きい)に離散化した.上記までの処理を図 2 に示す.
3.4 解析に使用するデータの期間の限定 一人の患者に対する肝生検はそれほど頻繁に行われ
るわけではなく,肝生検の日時と血液検査の日時があまりに離れている場合には血液検査結果と
肝生検結果の相関の信憑性が低くなる.また,患者によっては複数の肝生検を行う場合があるが,
1
単位の変更などにより正常範囲が変更したことも考慮した.
生検検査後の治療(たとえばインターフェロン投与)により血液検査結果が影響を受けることが
あり,肝生検の回数が増えるほどデータの信憑性が低くなる恐れがある.このため,肝生検を行っ
た前後 500 日の間は同じ病理状態であると考え,各患者で初回の肝生検の前後 500 日の検査デー
タに限定した.今回の平均処理により 1 レコードは 2ヶ月周期に相当するため,1 人の患者のデー
タは最大で 17 レコードとなる.
3.5 グラフ構造データへの変換 DT-GBI 法で解析を行うためには表形式データをグラフ構造
として表現する必要がある.ここでは同一の患者に対するデータをそれぞれ個別のグラフとして
表現し,各検査項目をグラフおけるリンクのラベル,それぞれの検査結果をそのリンクで接続さ
れるノードのラベルとして表現して DT-GBI 法への入力となるグラフ構造データを作成した.ま
ず中心にダミーノードを配置し,属性値のラベルを持つノードからダミーノードに属性名のラベ
ルを持つリンクを張ることで一行分(1 レコード)のデータを部分グラフとして表現した.その
際,属性値が欠損している場合は対応するノードとリンクを作成しなかった.次に,一レコード
のデータを表す部分グラフ同士を時間経過を表現するラベルを持つリンクで繋げて 1 人の患者に
対するグラフを作成した(図 3 参照).図 3 は 2ヶ月周期で平均化したデータを 1 レコードとした
場合のグラフ構造を示す.
3.6 クラスラベルの設定
実験 1 および 2 においては,3.4 節と同様に生検検査後の治療の影
響を除去するため,肝生検検査回数にかかわらず初回の肝生検結果(線維化程度および肝炎の型)
を各患者のクラスとした.また,実験 3 においては,各患者の肝炎の型をクラスとした.
4
4.1
主要成果
DT-GBI 法の設定
DT-GBI 法で決定木を構築する際のパターンの評価関数として,チャンキングに対する評価関
数としてパターンの頻度を用い,チャンキング後に分岐ノードでのパターンを選択するための評
価関数としてパターンの情報利得 [2] を用いた.
決定木は次のいずれかの方法で構築した:1) 根ノードで Nr =20 回チャンクしてその他のノード
でのチャンク回数は 1 回限りとする,2) 各ノードで Ne =20 チャンクする.決定木構築後の枝刈り
では信頼水準 25%の悲観的枝刈りを用い,構築した決定木の予測精度を 10-fold 交差検定の 10 回
平均で評価した.
4.2
線維化の段階での分類
線維化は {F0=正常, F1, F2, F3, F4=
表 1: グラフのサイズ (繊維化の段階での分類)
最も深刻:肝硬変 } の 5 段階に分けられ
段階 F0
F1
F2
F3
F4 合計
グラフ数
4 125
53
37
43
262
る.線維化の段階をクラスとして,F4 状
平均ノード数
303
304
308
293
300
303
態(LC とも呼ぶ)の患者とそれ以外の患
最多ノード数 349 441 420 414 429
441
者を区別する決定木の構築した.解析で
最少ノード数 254 152 184 182 162
152
は次の 32 個の検査項目を使用した:ALB,
CHE,D-BIL,GOT,GOT SD(GOT の標準偏差),GPT,GPT SD(GPT の標準偏差),HBCAB,HBE-AB,HBE-AG,HBS-AB,HBS-AG,HCT,HCV-AB,HCV-RNA,HGB,I-BIL,
ICG-15,MCH,MCHC,MCV,PLT,PT,RBC,T-BIL,T-CHO,TP,TTT,TTT SD(TTT
の標準偏差),WBC,ZTT,ZTT SD(ZTT の標準偏差).データ変換後のグラフのサイズを表
1 に示す.
表 1 に示すように,肝硬変(F4)状態の事例(グラフ)が 43 個あるのに対し,その他の状態の
事例が合わせて 219 個もある.クラス比の偏りが決定木の構築に影響を及ぼすことを防ぐために,
[4] と同じく,事例数の割合を 2:3(肝硬変:肝硬変でない)に限定した.このため,以下(4.2.1
節および 4.2.2 節)の 2 つの解析実験で使用したデータの数は,肝硬変状態の全て(43 個)と肝硬
変でない状態の 65 個,計 108 個とした.
4.2.1
実験 1:F4 段階 対 {F0+F1} 段階
この実験では,肝硬変でない状態の事例とし
て F0 段階の全 4 個と F1 段階の 61 個を用いた.
10-fold 交差検定の初回でビーム幅を 1 から 20
まで変化させたところ,決定木構築方法 1) と
2) でともにビーム幅が 15 の際に予測誤差が最
低となった.このため,残り 9 回の 10-fold 交
差検定ではビーム幅を 15 に設定した.
実験結果を表 2 の左半分に示す.決定木
構築 方法 1)(Nr =20) の平均誤差は 15.00%,
2)(Ne =20) の平均誤差は 12.50%であった.最
良の誤差であった場合(7 回目)と最悪の誤差
であった場合(8 回目)での決定木の一例をそ
れぞれ図 4,5 に示す.これらの決定木を比較
した結果,決定木の上位ノードで 3 組のパター
ンが同じものであった.
4.2.2
表 2: 実験 1 および 2 における予測誤差(%)
回
1
2
3
4
5
6
7
8
9
10
平均誤差
標準偏差
実験 1
Nr =20 Ne =20
14.81
11.11
13.89
11.11
15.74
12.03
16.67
15.74
16.67
12.96
15.74
14.81
12.96
9.26
17.59
15.74
12.96
11.11
12.96
11.1
15.00
12.50
1.65
2.12
実験 2
Nr =20 Ne =20
27.78
25.00
26.85
25.93
25.00
19.44
27.78
26.68
25.00
22.22
23.15
21.30
29.63
25.93
25.93
22.22
27.78
21.30
27.78
25.00
26.67
23.52
1.80
2.39
実験 2:F4 段階 対 {F3+F2} 段階
この実験では,肝硬変でない状態の事例として F3 段階の全 37 個と F2 段階の 28 個を用いた.
4.2.1 節と同様に 10-fold 交差検定の初回でビーム幅を 1 から 20 まで変化させたところ,決定木
構築方法 1) と 2) でともにビーム幅が 14 の際に予測誤差が最低となった.このため,残り 9 回の
10-fold 交差検定ではビーム幅を 14 に設定した.
実験結果を表 2 の右半分に示す.決定木構築方法 1)(Nr =20) の平均誤差は 26.67%,2)(Ne =20)
の平均誤差は 23.52%であった.最良の誤差であった場合(3 回目)と最悪の誤差であった場合(4
回目)での決定木の一例をそれぞれ図 4 および図 5 に示す.これらの決定木を比較した結果,決
定木の上位ノードで 2 組のパターンが同じものであった.
Medium line: training data
Bottom line: test data
Medium line: training data
Bottom line: test data
= Pattern 121
Pattern 111
LC=39, n-LC=59
(4, 6)
Y
Y
N
LC
LC=22, n-LC=59
(3, 6)
Y
Pattern 122
LC=22, n-LC=58
(3, 7)
N
Y
Pattern 124
LC=11, n-LC=50
(2, 3)
LC=11, n-LC=9
(1, 2)
Y
N
= Pattern 113
Pattern 123
Pattern 114
LC=11, n-LC=50
(2, 4)
= Pattern 112
Y
N
= Pattern 123
Pattern 113
LC=11, n-LC=7
(1, 4)
Y
N
N
Y
Pattern 116
LC
non-LC
Pattern 125
Pattern126
non-LC
LC
LC=4, n-LC=2
(1, 0)
LC=7, n-LC=48
(1, 4)
LC=9, n-LC=1
(1, 0)
LC=2, n-LC=8
(0, 2)
LC=3, n-LC=1
(2, 1)
LC=8, n-LC=50
(0, 2)
LC=0, n-LC=6
(1, 2)
LC=11, n-LC=1
(0, 2)
N
Y
Y
N
N
Y
N
LC
non-LC
non-LC
LC
LC
non-LC
LC
non-LC
LC=4, n-LC=0
(1, 0)
LC=0, n-LC=2
(0, 0)
LC=1, n-LC=47
(1, 3)
LC=6, n-LC=1
(0, 1)
LC=3, n-LC=0
(2, 1)
LC=0, n-LC=1
(0, 0)
LC=8, n-LC=2
(0, 1)
LC=0, n-LC=48
(0, 1)
図 5: 実験 1 の最悪回の決定木の一例 (Ne =20)
図 4: 実験 1 での最良回の決定木の一例 (Ne =20)
1
H
1
L 8 months
TTT_SD
GPT
D-BIL
MCHC
TTT_SD
later
I-BIL
HCT
N
N
Pattern 115
Y
N
N
LC
LC=16, n-LC=0
(2, 0)
= Pattern 122
Pattern 112
LC=17, n-LC=0
(1, 0)
= Pattern 111
Pattern 121
LC=38, n-LC=58
(5, 7)
L
L
L
D-BIL
Info. gain = 0.2595
LC (total)
= 18
non-LC (total) = 0
D-BIL
ALB
T-CHO
N
Info. gain = 0.0004
LC (total)
= 16
non-LC (total) = 40
2 months
later
ALB
L
T-CHO
I-BIL
N
L
N
図 7: パターン 112 = パターン 122
図 6: パターン 111 = パターン 121,含まれれば LC
クラス
4.2.3
考察
date
ALB D-BIL GPT HCT I-BIL MCHC T-CHO TTT_SD ・・・
19930517 L
L
H
N
L
N
N
19930716 L
L
H
N
L
N
N
1 ・・・
・・・
19930914 L
L
H
N
L
N
N
1 ・・・
両実験での最良の誤差は実験 1(Ne =20) で
19931113 L
L
H
N
L
N
N
・・・
の 12.50%であり,全体的に,実験 1 の予測
19940112 L
L
H
N
L
N
N
1 ・・・
19940313 L
L
N
N
L
N
N
1 ・・・
誤差は実験 2 より低かった.この結果は,F4
19940512 L
L
H
N
L
N
N
1 ・・・
19940711 L
L
H
N
L
N
N
1 ・・・
段階と {F0+F1} 段階の間の差が F4 段階と
19940909 L
L
H
N
L
N
N
1 ・・・
{F3+F2} 段階の間のものより直感的に大き
19941108 L
L
N
N
L
N
N
1 ・・・
19950107 L
L
N
L
L
N
N
1 ・・・
いと考えられることに合致し,妥当な結果
19950308 L
L
N
N
L
N
N
1 ・・・
19950507 L
L
H
N
L
N
N
1 ・・・
と考えられる.
19950706 L
L
N
L
L
N
N
1 ・・・
図 6,7,10,と 11 に示すパターンは全て
19950904 L
L
N
L
L
L
N
1 ・・・
19951103 L
L
N
N
L
N
N
1 ・・・
の決定木の上位ノードに現れており,F4 段
図 12: 203 番の患者のデータ
階の分類に十分に特徴的であると考えられ
る.また,これらのパターンはほとんどが血液検査データにおいて肝生検の後に現れており信憑
性が高いと考えられる.これらのパターンは患者データにおいて 1 つだけ含まれる場合もあれば
複数個含まれる場合もあるが,多く含まれるほどパターンの信憑性が高いと考えられる.パター
ン 111 を含む患者データの一例を図 12 に示す.我々の手法では欠損値を補填しないため,1 つで
も欠損値であれば別のパターンとして扱われてしまう.図 12 において,もし 2 行目の TTT SD の
値が欠損ではなく “1”として扱うことができれば,パターン 111 はこの患者に 4 つ含まれるとみな
せるためパターン 111 の信憑性はより高くなる.
= Pattern 221
Pattern 211
Y
= Pattern 211
Pattern 221
LC=38, n-LC=58
(5, 7)
LC=38, n-LC=58
(5, 7)
N
Y
LC
Pattern 212
LC=6, n-LC=0
(3, 0)
LC=32, n-LC=58
(2, 7)
= Pattern 222
Y
N
LC
Pattern 222
LC=8, n-LC=0
(1, 0)
LC=30, n-LC=58
(4, 7)
N
Y
LC
Pattern 213
LC=6, n-LC=0
(1, 0)
LC=26, n-LC=58
(1, 7)
Y
N
LC
Pattern 223
LC=6, n-LC=0
(1, 0)
LC=24, n-LC=58
(3, 7)
N
Y
Pattern 214
Pattern 215
LC=10, n-LC=8
(1, 4)
LC=16, n-LC=46
(1, 7)
Y
= Pattern 212
N
Y
N
non-LC
LC
LC
non-LC
LC=2, n-LC=8
(1, 3)
LC=8, n-LC=0
(0, 1)
LC=10, n-LC=3
(0, 1)
LC=6, n-LC=43
(0, 2)
N
Pattern 224
Pattern 225
LC=12, n-LC=8
(2, 1)
LC=12, n-LC=50
(1, 6)
Y
図 8: 実験 2 の最良回の決定木の一例 (Ne =20)
N
Y
non-LC
LC
non-LC
LC=3, n-LC=6
(2, 1)
LC=9, n-LC=3
(1, 3)
LC=3, n-LC=47
(0, 3)
図 9: 実験 2 の最悪回の決定木の一例 (Ne =20)
Info. gain = 0.1166
LC (total)
=7
non-LC (total) = 0
Info. gain = 0.1191
LC (total)
=9
non-LC (total) = 0
N
N
HCT
HCT
4 months
later
1
H
1
GPT
2 months
later
D-BIL
TTT-SD
TTT-SD
1
1
L
H
TTT_SD
TTT_SD
1
GPT
ZTT_SD
H
L
1
L
GPT
ZTT_SD
GOT
D-BIL
T-CHO
10 months
I-BIL
later T-CHO
4 months
later
ZTT_SD
1
H
1
GPT
H
T-BIL
D-BIL
L
N
L
N
ZTT_SD
1
D-BIL
1 TTT_SD
L
N
LC
LC=9, n-LC=2
(0, 0)
D-BIL
8 months
later T-CHO
I-BIL
I-BIL
HCT
MCHC
L
TTT_SD
L
L
N
L
N
図 10: パターン 211=パターン 221,含まれれば LC ク
図 11: パターン 212=パターン 222
ラス
4.3
型(B または C)での分類
データセットに含まれる肝炎の型は B 型および C 型の 2 種類であるため,B 型肝炎の患者と C
型肝炎の患者を分類する決定木を構築した.解析に使用した検査項目は概ね 4.2 節と同じである
が,抗体および抗原の検査項目(HBC-AB,HBE-AB,HBE-AG,HBS-AB,HBS-AG,HCV-AB,
HCV-RNA)は肝炎の型を示すため解析から除外した.データ変換後のグラフのサイズを表 1 に
示す.4.2.2 節と同様,B 型と C 型の事例のバランスを保つために,以下の実験では事例数の割合
を 2:3(B 型:C 型)とした.このため,実験で使用したデータは B 型の全て(77 個)と C 型の
116 個(患者番号の若い順に),計 193 個とした.
10-fold 交差検定の初回で決定木構築方法 1) と 2) でともにビーム幅が 5 の際に予測誤差が最低
となったため,残り 9 回の 10-fold 交差検定ではビーム幅を 5 に設定した. 表 3: グラフのサイズ (型での分類)
型
グラフ数
平均ノード数
最多ノード数
最少ノード数
B型
77
238
375
150
C型
185
286
377
167
合計
262
272
377
150
表 4: 実験 3 における予測誤差 (%)
回
1
2
3
4
5
6
7
8
9
10
平均誤差
標準偏差
実験 3
Nr =20 Ne =20
21.76
18.65
21.24
19.69
21.24
19.17
23.32
20.73
25.39
22.80
25.39
23.32
22.28
18.65
24.87
19.17
22.80
19.69
23.83
21.24
23.21
20.31
1.53
1.57
Pattern 321
= Pattern 311
B=69, C=105
(8, 11)
N
Y
= Pattern 321
Pattern 311
B=69, C=105
(8, 11)
type B
Pattern 322
B=36, C=3
(2, 0)
B=33, C=105
(6, 11)
= Pattern 314
Y
N
Y
type B
Pattern 312
Pattern 323
Pattern 324
B=36, C=3
(2, 0)
B=33, C=105
(6, 11)
B=29, C=98
(6, 11)
B=4, C=7
(4, 1)
Y
N
Y
Pattern 313
Pattern 314
B=29, C=96
(5, 10)
B=4, C=9
(1, 7)
Y
N
Y
N
= Pattern 322
N
N
Y
Pattern 326
type B
type C
B=7, C=16
(1, 4)
B=22, C=82
(1, 6)
B=4, C=1
(3, 1)
B=0, C=6
(1, 0)
Y
N
Y
N
type B
type C
type C
type B
type B
type C
type B
type C
B=15, C=6
(3, 3)
B=14, C=90
(2, 7)
B=1, C=9
(0, 1)
B=3, C=0
(1, 0)
B=5, C=1
(1, 1)
B=2, C=15
(0, 3)
B=18, C=6
(1, 3)
B=4, C=76
(0, 3)
図 13: 実験 3 の最良回の決定木の一例 (Ne =20)
N
Pattern 325
図 14: 実験 3 の最悪回の決定木の一例 (Ne =20)
H
Info. gain = 0.0240
LC (total)
= 31
non-LC (total) = 108
CHE
H
L
CHE
D-BIL
14 months
later
8 months
later
Info. gain = 0.2431
LC (total)
= 38
non-LC (total) = 3
図 15: パターン 311=パターン 321,含まれれば B 型
TTT_SD
TTT_SD
1
1
図 16: パターン 322=パターン 314
実験結果を表 4 に示す.決定木構築法 1)(Nr =20) の誤差 23.21%に対し,2)(Ne =20) の誤差は
20.31%となった.最良の誤差を得た回(1 回目)と最悪の誤差を得た回(6 回目)からのそれぞれ
の決定木の一例を図 13 と 14 に示す.これらの決定木を比較すると,決定木の上位ノードで 2 組
のパターンが同じものであった(図 15 と図 16 参照).これらのパターンはほぼ全ての決定木の上
位ノードに現れており,十分に特徴的であると考えられる.
4.4
今後の計画
今回報告した方法とは別の方法でデータセットを準備して DT-GBI 法の定量評価を継続する.
肝硬変でない患者を無作為に選択した場合を評価するとともに,決定木構築に使用しなかった残
りのデータに対する分類精度を評価する.次に,構築した決定木の分岐ノードに使用したパター
ンを専門家(医師)に評価して頂き,パターンの価値を評価する.また,領域知識に沿ったパター
ンを用いた決定木が構築できるよう,チャンキングの際に領域知識を反映できるよう手法を改良
する.
参考文献
[1] T. Matsuda, T. Yoshida, H. Motoda, and T. Washio. Knowledge discovery from structured
data by beam-wise graph-based induction. In Proc. of the 7th Pacific Rim International
Confernce on Artificial Intelligence, pp. 255–264. Springer Verlag, LNAI2417, 2002.
[2] J. R. Quinlan. Induction of decision trees. Machine Learning, Vol. 1, pp. 81–106, 1986.
[3] ワロドム・ジアムサクン, 松田喬, 吉田哲也, 元田浩, 鷲尾隆. Decision tree - graph-based
induction の機能拡張. 技術研究報告 「人工知能と知識処理」AI2002–70∼ 80, 電子情報通信学
会, 2003.
[4] 鈴木英之進, 渡辺健志, 山田悠, 武智文雄, 長木雄太, 中本和岐, 稲谷秀太郎, 山口直記, 長浜光俊,
横井英人, 高林克日己. スパイラル的例外性発見に向けて. 平成 14 年度科学研究費補助金特定
領域研究「情報洪水時代におけるアクティブマイニングの実現」研究成果報告書, pp. 153–160,
2003.
2.3.5 時系列抽象化による肝炎データからの知識発見(A02-05-2)
時系列抽象化による肝炎データからの知識発見
(A02-5-2)
1. 概要
肝炎データに対して我々は時系列抽象化( TA)とデータマイニング手法を組合せて
アプローチする。時系列抽象化の目標は抽象化によってタイムスタンプデータをその
時間間隔に対応する表現へと変換することである。時系列抽象化では共通的な役割と
して一連の時系列から諸変数(医療検査項目)の傾向や状態の検出を行う。
肝炎データにおける TA の課題は、長期に渡り不定期に収集された一連の時系列値
で表される検査項目の傾向や状態を見つけることにある。既存の関連研究 [1], [4], [5]
で は 、「 状 態 」 お よ び 「 傾 向 」 を 別 々 に 取 り 扱 っ て き た が 、 我 々 の ア プ ロ ー チ で は 長
期 変 化 検 査 項 目 の 傾 向 と 状 態 と を 同 時 に 特 徴 付 け る 「 状 態 推 移 」、 短 期 変 化 検 査 項 目
については「基本状態」および「ピーク」という概念を導入し、それらを検知するア
ルゴリズムを開発した。
図1に医療時系列データを分析するための我々のフレームワークを示す。これは二
つのステップで構成される。第一ステップでは時系列データを抽象化したカテゴリデ
ータに変換し、第2ステップでは、適切なカテゴリデータのマイニング手法を用いて
抽象化データを分析する。時系列抽象化手法は文脈依存ではあるが、適切に用いれば
多様な状況への適用が可能である。
データマイニング手法を抽象化データに適用して得られたそれぞれの結果は医師
にとって理解しやすく、肝炎の新しく有益な知識を見つけるのに有望である。
Temporal Abstraction
Data Mining
Data Mining
図 1. 時 系 列 抽 象 化 と デ ー タ マ イ ニ ン グ 手 法 を 組 合 せ た フ レ ー ム ワ ー ク
2. 手法
所与のエピソード内の検査項目の時系列データの部分集合を前処理した後、基本
TA の 課 題 は そ の 時 系 列 の 抽 象 化 を 見 つ け る こ と に あ る 。 時 系 列 を 抽 象 化 す る 基 本 的
なアイディアは、時系列抽象化の基本表現の組合せと見なす抽象化パターンの集合の
中 に 割 当 て る こ と で あ る 。 そ の た め に こ の 手 法 を 2 部 構 成 と し た 。( 1 ) 典 型 的 抽 象
化パターンを決定する(2)各検査項目の時系列を抽象化パターンに割当てる。
我々は検査項目を2グループに分類しそれぞれについて TA 手法を開発した。(1)短
期 変 化 検 査 項 目 ( GOT, GPT, TTT, ZTT) (2) 長 期 変 化 検 査 項 目 (上 昇 変 化 するもの:
T-CHO, CHE, ALB, TP, PLT, WBC, HGB, 下 降 変 化 す る も の : D-BIL, I-BIL, T-BIL,
ICG-15)。
2.1 典型的な抽象化パータンの決 定
この問題は次のように定義できる。少数の典型的抽象化パターンを決定して観測し
た実際の時系列のほとんどを特徴付けるためにそれらを用いることは可能か?我々
の見解としては、このような問題への解は、時系列抽象化の基本表現の算出と視覚化
ツールを通じた人間による点検を組合せることによって得ることが可能である。
多様な時系列を視覚的に分析した結果、以下の時系列抽象化の基本表現(State, Trend
and Peak primitives) およびそれらを関係付ける関係表現 Relations を決定した。
1. 状態表現 State primitives: N (正常域), L (低い値域), VL (かなり低い値域), XL
(極端に低い値域), H (高い値域 ), VH (かなり高い値域), XH (極端に高い値域).
2. 傾向表現 Trend primitives: S (安定), I (上昇), FI (急速な上昇), D (下降), and FD
(急速な下降).
3. ピーク Peak primitives: P (ピークの存在).
4. 関係表現 Relations: > (“から…状態への推移”), & (“および”), – (“同一状態内での
傾向”), / (“多数派/少数派”). 因みに”X/Y” は検査値の多数派が状態 X に属し、
少数派が状態 Y にあることを意味する。
様々な検査項目時系列を分析して、肝炎検査項目のほとんどの時系列を表現するのに
適用可能な抽象化パターンの構造を4種定義した。
<pattern>
<pattern>
<pattern>
<pattern>
::=
::=
::=
::=
<state primitive>
<state primitive> <relation> | <state primitive> | <trend primitive>
<state primitive> <relation> <peak>
<state primitive> <relation> <state primitive> <relation> |
<state primitive>|<trend primitive>
以下は抽象化パータンの例である。
“ALB = N” (ALB は正常域にある)
“CHE = H-I” (CHE は高い値域内で上昇傾向にある)
“GPT = XH&P” (GPT は極端に高い値域にありピークが存在する)
“I-BIL = N>L>N” (I-BIL は正常域の後、低い値域に推移し、そしてまた正常域に戻る)
図2は典型的な抽象化パータンを識別するために開発・適用した手続きである。
1. 抽象化パータンの構造を式とし、State primitive, Trend primitive および Relation
を諸変数とする。<state primitive>、<trend primitive>および<relation>を可能な
値で置き換えることにより全ての抽象化パータンの候補を生成する。
2. データセットから数多くの時系列を任意に抽出し、可視化および手動により抽
象化パータン候補群と比較し、一致する抽象化パータン候補を決定する。
3. 対象時系列と一致しない、あるいは一致件数が少ない抽象化パータン候補を取
り除く。
図 2. 典 型 的 な 抽 象 化 パ ー タ ン を 決 定 す る た め の 手 続 き
この手続きを適用し医師と相談した後、図3の短期変化検査項目については8個の典
型的抽象化パータンを、長期変化検査項目については22個の典型的抽象化パータン
を一時的に決定した。
図 3. 典 型 的 な 抽 象 化 パ ー タ ン
2.2 検 査 値 の 時系列を一抽象化パタ ーンに割当てるアルゴリズム
アルゴリズムの基本的なアイディアは次の通りである。時系列が正常域の境界付近
で不安定に変動しない場合、時系列の開始時の状態、終了時の状態、更にその間の変
化を指定し、所定の抽象化パターンとマッチさせる。そのために対象時系列 S に対し
て中間的な関数を定義した。
関数
–
–
–
–
–
–
–
–
–
–
–
–
–
High(S): 高い値域内にある S の数
VeryHigh(S): かなり高い値域にある S の数
ExtremeHigh(S): 極端に高い値域にあるの S の数
Low(S): 低い値域にある S の数
VeryLow(S): かなり低い値域にある S の数
Normal(S): 正常域にある S の数
Total(S) = High(S) + VeryHigh(S) + ExtremeHigh(S) + Normal(S) + Low(S) + VeryLow(S)
In(S) = Normal(S)/Total(S)
Cross(S): 正常域の上下境界を越境する回数
First σ (S): S の最初のポイントからの長さσの部分時系列の状態
Last σ (S): S の最後のポイントから長さσの部分時系列の状態
State(S): S の状態(state primitive のいずれか)
Trend(S): S の傾向(trend primitive のいずれか)
アルゴリズム1(短期変化検査項目)
入 力 : 所 与 の エ ピ ソ ー ド 区 間 に お け る 検 査 項 目 の 長 さ N の 時 系 列 S 00 = {s 1 , s 2 , …, s n }
出 力 : 基 本 状 態 、 ピ ー ク PE i の 集 合 、 時 系 列 か ら 導 出 さ れ た 抽 象 化 パ タ ー ン 値
パ ラ メ ー タ:NU, HU, VHU, XHU:あ る 検 査 項 目 に 関 す る 正 常 域 、高 い 値 域 、か な り 高 い 値 域 、
極 端 に 高 い 値 域 の そ れ ぞ れ の 境 界 値 、 お よ び α (実 数 ).
A. 基 本 状 態 の 探 索
1. NU, HU, VHU お よ び XHU に 基 づ き 対 応 す る 母 集 団 Normal(S), High(S), VeryHigh(S), and
ExtremeHigh(S)を 計 算 す る
2. MV = max {Normal(S), High(S), VeryHigh(S), ExtremeHigh(S)}. If MV/Total(S) ≥ α then BS =
MS.
3. Else BS := NULL
B. ピ ー ク の 探 索
4. For every element s i of S, if s i if s i > s i-1 and s i > s i+1 then s i is a local maximum of S.
5. For every element ms i of the set of local maximum points, PE i = ms i will be a peak if one of the
following conditions is true, where V(x), S(x) is the value and state of x, respectively:
(a) BS = N ∧ S(ms i ) = VH or higher
(b) BS = H ∧ S(ms i ) = XH or higher
(c) BS = VH ∧ V(ms i ) ≥ 2*XHU
(d) BS = XH ∧ V(ms i ) ≥ 4*XHU
C. 基 本 時 系 列 抽 象 化 パ ー タ ン の 出 力
6. If BS = N ∧ there is no peak, then N
7. If BS = N ∧ there is at least a peak, then N&P
8. If BS = H ∧ there is no peak, then H
9. If BS = H ∧ there is at least a peak, then H&P
10. If BS = VH ∧ there is no peak, then VH
11. If BS = VH ∧ there is at least a peak, then VH&P
12. If BS = XH ∧ there is no peak, then XH
13. If BS = XH ∧ there is at least a peak, then XH&P
14. If BS = NULL then Undetermined .
図 4. 短 期 変 化 検 査 項 目 の 基 本 TA ア ル ゴ リ ズ ム
キーアイディアは、長期変化検査項目の時系列の特徴付けにあたって「状態推移」を
主 属 性 と し て 用 い る こ と で あ る 。「 状 態 推 移 」 は 状 態 と 傾 向 の 両 情 報 を 含 み 、 時 系 列
をコンパクトに特徴付けできる。
アルゴリズム2(長期変化検査項目のため)
入 力 : 所 与 の エ ピ ソ ー ド に お い け る 任 意 の 検 査 項 目 に 関 す る 値 の 時 系 列 S 00 = {s 1 , s 2 , …, s n }
出力:時系列から得られた抽象化パータン
パ ラ メ ー タ : α, δ, ε, σ (整 数 ), β (実 数 )
記 号 : S10 = [s1, 中央値], S20 = [中央値, sn ], S11 = [s1, 第一四分位数], S12 = [第一四分位数, 中央値],
S21 = [中央値, 第三四分位数], S22 = [第三四分位数, sn ]
A. 多 交 差 パ ー タ ン の 識 別
1.
2.
3.
4.
B.
5.
6.
7.
8.
9.
10.
11.
If
If
If
If
Cross(S 00 )
Cross(S 00 )
Cross(S 00 )
Cross(S 00 )
>
>
>
>
α
α
α
α
∧
∧
∧
∧
In(S 00 )
In(S 00 )
In(S 00 )
In(S 00 )
>
>
<
<
Out(S 00 )
Out(S 00 )
Out(S 00 )
Out(S 00 )
∧
∧
∧
∧
High(S 00 )
High(S 00 )
High(S 00 )
High(S 00 )
>
<
>
<
Low(S 00 )
Low(S 00 )
Low(S 00 )
Low(S 00 )
then
then
then
then
N/H
N/L
H/N
L/N
多交差でないパータンの識別
If
If
If
If
If
If
If
In(S 00 ) > β then N
Out(S 00 ) > β ∧ State(S 00 )
Out(S 00 ) > β ∧ State(S 00 )
Out(S 00 ) > β ∧ State(S 00 )
Out(S 00 ) > β ∧ State(S 00 )
Out(S 00 ) > β ∧ State(S 00 )
Out(S 00 ) > β ∧ State(S 00 )
=
=
=
=
=
=
H ∧ Trend(S 00 ) = S then H−S
H ∧ Trend(S 00 ) = I then H−I
H ∧ Trend(S 00 ) = D ∧ Last(S 22 ) = H then H−D
L ∧ Trend(S 00 ) = S then L−S
L ∧ Trend(S 00 ) = D then L−D
L ∧ Trend(S 00 ) = I ∧ Last(S 22 ) = L then L−I
C. 正 常 域 か ら 変 化 す る パ ー タ ン の 識 別
12. If First σ (S 00 ) = N ∧ Cross(S 00 ) < α ∧ Last σ (S 22 ) = H ∧ Trend(S 22 ) = I ∧ Low(S 00 ) < ε then
N>H
13. If First σ (S 00 ) = N & Cross(S 00 ) < α & Last σ (S 22 ) = H & Trend(S 22 ) = D ∧ Low(S 00 ) < ε then
N>H−D
14. If First σ (S 00 ) = N ∧ Cross(S 00 ) < α ∧ High(S 00 ) > δ ∧ Last σ (S 22 ) = N ∧ Trend(S 22 ) = D ∧
Low(S 00 ) <
ε then N>H>N
15. If First σ (S 00 ) = N ∧ Cross(S 00 ) < α ∧ Last σ (S 22 ) = L ∧ Trend(S 22 ) = D ∧ High(S 00 ) < ε then
N>L
16. If First σ (S 00 ) = N ∧ Cross(S 00 ) < α ∧ Last σ (S 22 ) = L ∧ Trend(S 22 ) = I ∧ High(S 00 ) < ε then
N>L−I
17. If First σ (S 00 ) = N ∧ Cross(S 00 ) < α ∧ Low(S 00 ) > δ ∧ Last σ (S 22 ) = N ∧ Trend(S 22 ) = I ∧
High(S 00 ) < ε then N>L>N
D. 高 い 値 域 か ら 変 化 す る パ ー タ ン の 識 別
18. If First σ (S 00 ) = H ∧ Cross(S 00 ) < α ∧ Last σ (S 22 ) = N ∧ Low(S 00 ) < ε then H>N
19. If First σ (S 00 ) = H ∧ Cross(S 00 ) < α ∧ Normal(S 00 ) > δ ∧ Last σ (S 22 ) = H ∧ Trend(S 22 ) = I ∧
Low(S 00 ) < ε then H>N>H
E. 低 い 値 域 か ら 変 化 す る パ ー タ ン の 識 別
20. If First σ (S 00 ) = L ∧ Cross(S 00 ) < α ∧ Last σ (S 22 ) = N ∧ Low(S 00 ) < ε then L>N
21. If First σ (S 00 ) = L ∧ Cross(S 00 ) < α ∧ Normal(S 00 ) > δ ∧ Last σ (S 22 ) = L ∧ Trend(S 22 ) = D ∧
High(S 00 ) < ε then L>N>L
22. If NULL Then Undetermined.
図 5. 長 期 変 化 検 査 項 目 の 基 本 TA ア ル ゴ リ ズ ム
2.3 データマイニング手法による抽象化データのマイニング
我々は、基本時系列抽象化で得られた抽象化データに対し、D2MS[4]、C4.5 および
Clementine を含む様々な機械学習手法を適用した。
ここで重要な問題は、発見したパータンのどれが統計的に意味を持つか、つまり偶
然の結果ではないといえるか、ということである。我々は、統計的に意味のあるルー
ルのみを選択するために、4つの異なる検定 M1[2]、M2 と M3(M1 および M3 の検定
は [6]を 参 照 の こ と)、および M4(前 件 部 を 互 い に 含 む 相 関 ル ー ル の た め に 我 々 が 提 案
した検定方法)を発見した全てのルールに適用した。
表 1 に上記4検定法により得られた統計的に意味のあるルールの要約を示す。検定
後に残るルールは少数となる。例えば、各々問題 P1,P2,P3 に対して、発見した膨大な
ルールの中で、有意水準 95%、2.47%および 2.65%において、それぞれの 0.08%、0.05%
および 0.11%のものだけが統計的に意味がある。
表 1. 4 つ の 検 定 に よ り 意 味 の あ る ル ー ル
Problems
#
discovered
rules
# rules
after
pruning
# rules
pruned
by M1
# rules
pruned
by M2
# rules
pruned
by M3
# rules
pruned
by M4
Type B and
C
33,447
27
(0.08%)
6,231
7,073
15,979
4,135
Fibrosis
stage
15,563
43
(0.28%)
5,419
4,250
5,780
71
Interferon
22,870
28
(0.12%)
19,171
2601
982
88
3. 主要結果
HBV と HCV の差異に関して統計的意味のあるルールは医療従事者の関心を惹くも
のであった。線維化の程度に関するルール、インターフェロン治療の有効性に関する
ルールについては依然満足のいく成果を得ていない。
表2に4種の検定法によって有意水準 95%、90%および 85%のとき統計的に意味が
あるとして発見されたルールを示す。各ルールは各行によって表され、列項目はクラ
ス(B/C)および統計的な有意水準(class)、ルールを構成する各属性の値(T-CHO か ら
TP)、ルールの精度(acc)、正分類事例数/適合事例総数(ratio)から構成される。
以上は以下のようにまとめられる。
− 今回適用した検定手法に関して統計的に意味があるのは、発見したルールのうち
少数である。33447ルールから選択した27ルールは、4つの検定法を満足
しており、肝炎に関する発見といえる。
− 簡潔なルール、例えば#2の“CHE = N” Æ HCV (α = 95%)、#10、#11の“CHE
= H/N or N/H” Æ HBV” (α = 90%)のようなものは、HBV と HCV グループの大まか
に識別する。
− 検査項目 GOT、 GPT、CHE、D-BIL、TTT および ZTT は、B 型と C 型肝炎を識別
するルールによく現われる。
表2. B型肝炎およびC型肝炎の識別に関して発見された統計的に意味のあるルールの例
No.
class
T-CHO CHE
GOT
GPT
TTT
ZTT D-BIL T-BIL I-BIL
TP
N
acc
ratio
0.66
171/260
1
C (95%)
2
C (95%)
3
C (95%)
4
C (95%)
5
C (95%)
6
C (95%)
7
C (95%)
8
C (95%)
H
9
B (95%)
H&P
10
B (90%)
11
B (90%)
12
B (90%)
13
B (90%)
14
B (90%)
N
15
C (90%)
N
16
C (90%)
17
C (90%)
18
C (90%)
19
C (90%)
20
C (90%)
21
C (85%)
0.69
33/40
22
C (85%)
N
N
0.84
41/49
23
C (85%)
N
H
0.87
58/67
24
C (85%)
0.79
23/29
25
C (85%)
0.72
18/25
26
C (85%)
0.8
28/35
27
C (85%)
0.83
33/40
N
N
H
H
N
N
N
H/N
183/256
180/248
0.76
89/117
0.76
78/103
0.82
142/173
0.92
11/12
0.93
14/15
H/N
0.92
11/12
N
0.68
63/93
H/N
0.7
14/20
N/H
0.74
23/31
0.7
16/23
N&P
H&P
N/H
N
0.88
7/8
0.8
67/84
H-I
N
0.95
63/66
0.92
11/12
N
H
N
N/H
0.72
0.73
XH
N
N
N/H
H-I
N&P
N
N
H/N
N
XH
N/L
H-D
0.93
26/28
0.81
35/43
0.93
25/27
Apriori プログラムを用いて我々は肝炎のいくつかの興味深い性質を発見した。表3 は
線維化の程度(P2)に関する統計的に有意なルールを例示する。線維化段階 F4 に関
しては、一つのルールのみが統計的に有意であるのに対し、線維化段階 F1 に関して
は、より多くのルールが見つかった。表4はインターフェロンの有効性に関する問題
P3 に対して得られる代表的なルールを示す。「著効」クラスに関するルールのみが統
計的有意性を持ち、その多くが高い支持度と確信度を伴う。
表3.線維化の程度に関する統計的に有意なルール(有意水準90%)
Class
F3
F3
F3
F3
F3
F3
F3
F4
F4
F4
F4
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
F1
ALB
CHE
N
N
N
N
N
N
GOT
H&P
H&P
H&P
H&P
H&P
H&P
H&P
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
GPT
H&P
H&P
H&P
H&P
H&P
H&P
H&P
D-BIL I-BIL T-BIL T-CHO
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N/L
N
N/L
N
N/L
N
N/L
TP
N&P
N&P
H
H
H
H
H
H
H
H
N&P
N&P
N
H
H
H
H
H
H
H
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
H-I
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
H-I
H-I
H-I
H-I
H-I
H-I
H-I
H-I
H-I
H-I
H-I
H-I
VH&P
VH&P
N
N
ZTT
N
N
N
N
N
N
N
N
TTT
N
N
N
N
N
N
N
N
N
N
N
N&P
N&P
N
N
N
N
N
N
N
N
N
N
acc
0.8
0.8
0.8
0.8
0.8
0.8
0.8
0.8
0.8
0.8
0.8
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.9
0.9
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.67
0.65
0.65
cover
0.019
0.019
0.019
0.019
0.019
0.019
0.019
0.019
0.019
0.019
0.019
0.036
0.036
0.036
0.036
0.036
0.036
0.036
0.036
0.036
0.036
0.036
0.036
0.04
0.04
0.045
0.045
0.045
0.045
0.045
0.045
0.045
0.045
0.045
0.045
0.045
0.045
0.058
0.058
表 4. イ ン タ ー フ ェ ロ ン 治 療 の 有 効 性 に 関 す る 統 計 的 に 意 味 の あ る ル ー ル( 有 意 水 準 9 0 % )
Class
response
response
response
response
response
response
response
response
response
response
response
response
response
response
response
response
response
response
response
partial
response
partial
response
partial
response
partial
response
partial
response
partial
response
partial
response
no response
no response
no response
ALB
CHE
GOT
N
N
N
N
H
H
H
H
H
H
H
H
N
N
N
N
N
N
H
N
N
N
H
N
H
N
N
N
H
N
GPT D-BIL I-BIL T-BILT-CHO
H
H
H
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
H
N
N
N
H
N
N
N
N
H
N
N
N
N
N
H
N
N
H
N
H
N
N
N
acc
0.95
0.95
0.95
0.95
0.95
0.95
0.95
0.96
0.96
0.96
0.96
0.93
0.93
0.93
0.93
0.93
0.93
0.93
0.93
cover
0.15
0.15
0.15
0.15
0.15
0.15
0.15
0.18
0.18
0.19
0.19
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
H/N
0.67
0.02
H/N
0.67
0.02
TP
N
N
H-I
N
H-I
N
H-I
N/H
N
0.67
0.02
N/H
N
0.67
0.02
0.67
0.02
0.67
0.02
0.67
0.67
0.67
0.67
0.02
0.02
0.02
0.02
H/N
H
N/H
H
H/N
N
N
N/H
N
N
ZTT
H-I
H-I
H-I
H-I
H-I
H-I
H-I
H-I
H-I
H-I
H-I
H-I
N
H
H
H
TTT
H-I
N
H-I
N
N
H-I
4. 今後の予定
今後の予定としては、以下の課題に重点的に取り組む予定である。
– エピソードの自動決定
– 医師からのフィードバックによる抽象化パターンおよびアルゴリズムの改善
– 統計的重要性に関するよりよい評価手法の発見
– 多様なデータマイニング手法を適用した抽象化データの調査
5. 参考文献
[1] Bellazzi, R., Larizza, C., Magni, P., Monntani, S., and Stefanelli, M., “Intelligent
Analysis of Clinic Time Series: An Application in the Diabetes Mellitus Domain”,
Artificial Intelligence in Medicine 20, pp. 37-57, 2000.
[2] Bruzzese, D. and Davino, C., “Statistical Pruning of Discovered Association Rules”,
Computational Statistics 16 (3), pp. 387 -398, 2001.
[3] Ho, T.B., Nguyen, T.D., and Nguyen, D.D., “Visualization Support for a User-Centered
KDD Process”, ACM International Conference on Knowledge Discovery and Data
Mining KDD-02, Edmonton, pp. 519-524, 2002.
[4] Ho, T.B., Nguyen, T.D., Kawasaki, S., Le, S.Q., Nguyen, D.D., Yokoi, H., Takabayashi,
K., “Mining Hepatitis Data with Temporal Abstraction”, ACM International Conference
on Knowledge Discovery and Data Mining KDD-03, Washington DC, pp. 369-377, 2003.
[5] Horn, W., Miksch, S., Egghart, G., Popow, C., and Paky, F., “Effective Data Validation
of High-Frequency Data: Time-Point-, Time-Interval-, and Trend-Based Methods”,
Computer in Biology and Medicine, Special Issue: Time-Oriented Systems in Medicine,
27(5), pp. 389-409, 1997.
[6] Liu, B., Hsu, W., Ma, Y., “Pruning and Summarizing the Discovered Associations”,
ACM International Conference on Knowledge Discovery and Data Mining KDD 99, pp.
125-134, 1999.
[7] Shahar, Y., “A Framework for Knowledge-based Temporal Abstraction”, Artificial
Intelligence, 90, pp. 79-133, 1997.
2.3.6 医療データマイニングにおけるルールの興味深さの検討(A02-06)
医療データマイニングにおけるルールの興味深さの検討
1
概要
近年,Evidence Based Medicine(EBM,科学的根拠に基づく医療) へのデータマイニングの貢献が期待され,多
くの医療データマイニングの研究がある [16, 23].しかし,ルールの質に大きな影響を及ぼすにも関わらず,医療
データに適した前処理・後処理,専門家が持つ領域知識を反映するためのシステムと人間のインタラクションは,
十分議論されていると言い難い [1].
これまでに,我々は,慢性肝炎の検査履歴のデータを用いてケーススタディを行い,前処理・後処理,および
インタラクションについて知見を得ようと試みてきた.我々は検査履歴の時系列パターンが病状の把握と予測に
役立つと考え,過去の検査項目の時系列パターンの組合せから,将来の GPT(主要な検査項目の 1 つ) の時系列パ
ターンを推定するルールを得た.そして,マイニングシステムによるルール生成と専門家によるルール評価を,2
回繰り返した [24].
結果として,専門家が興味深いと考えるルールと,このようなルールを得るための前処理・後処理,インタラク
ションの指針が得られた.特に,インタラクションについては,医学領域に特化した概念モデルと,インタラク
ションの半自動化のフレームワークを考案した [25].この過程で,我々は,人間が求めるルールの興味深さを明
確にし,これをマイニングシステムにフィードバックすることが重要と認識した.特に,医学的に興味深いルー
ルの発見には,これらが重要と考えられる [7, 1].
そこで,本研究では次の 2 つを目的とする.(1) 知識発見分野におけるルールの興味深さの指標を調査し,これ
らを使ったルールの評価結果と専門家によるルールの評価結果を比較する.(2) 興味深さの指標をシステムと人間
のインタラクションに利用できるかを議論する.
本論文の第 2 節では,これまでに提案された興味深さの指標と,これまでの我々の研究について解説するととも
に,本研究の目的に合う指標を選定し,選定した指標を使って慢性肝炎のルールを評価し,その結果を専門家の
評価結果と比較する.さらに,興味深さの指標の有用性と医学的な興味深さについて議論する.第 3 節では,本
論文をまとめるとともに,今後の展望について述べる.
2
主要成果
2.1
我々の先行研究で得られた成果
これまでに我々は,慢性肝炎のデータを用い,病状を把握し推定するルール発見のケーススタディを行ってき
た.そして,マイニングシステムによるルール生成と専門家によるルール評価を 2 回繰り返し,専門家が興味深
いと評価するルールの発見に至った.
データセットには,ウィルス性肝炎患者の検査履歴を用いた [10].ただし,現実の医療データは構造化が不十分
でノイズや欠損が多いため,専門家からのヒアリング結果に基づき細やかな前処理を施した.そして,時系列パ
ターンの組合せで表現され,将来の病状を示すルールを得る方針を立て,クラスタリングによる代表パターン抽
出と決定木によるルール生成 [2] を行った.
図 1 に,1 回目のマイニングで得たルールの一例を示す.これは,過去 2 年間の検査値変動から,将来 1 年の
GPT(病状を表す主要な検査項目の 1 つ) の値の変動を推定している.専門家は,このルールは GPT 値が約 3 年
周期で変動することを示唆し,GPT 値は単調減少するという従来の認識と異なる点で興味深い,と述べた.そこ
で我々は,システム改善と観察期間の延長を施し,再度,マイニングを行った.図 2 に,第 2 回目のマイニング
結果の一例を示す.専門家は,このルールは過去 5 年間で GPT 値が大局的に 2 回変動することを示唆し,GPT
の仮説をさらに支持すると述べた.
上述した先行研究の詳細 (前処理の方法,開発したシステム,ルール生成とルール評価のプロセス) については,
文献 [24] を参照されたい.
図 1: 第一回目のマイニングにおいて高く評価されたルールの一例.
図 2: 第二回目のマイニングにおいて高く評価されたルールの一例.
次に我々は,2 回のルール生成とルール評価の過程で,医療データに適した前処理・後処理,システムと人間の
インタラクションについて得られた知見を,体系的にまとめようと試みた.特に,インタラクションについては,
医学分野に特化して,システムと人間の役割と機能を示す概念モデル (図 3) と,このモデルに基づくインタラク
ションの半自動化のフレームワーク (図 4) を提案した.
図 3 に示すように,マイニングシステムはデータ構造に忠実にルールを生成し,専門家の仮説の形成・検証の材
料を提供する.一方,専門家は自身が持つ領域知識に基づいてルールを評価しながら,新しい知識の元となる仮説
を形成・検証する.このプロセスを円滑に支援するシステムには,データ構造の観点,および専門家の主観的な
基準の観点の両方から,妥当なルールを生成して専門家に提示する機能が望まれる.図 4 の中央における system
evaluation と human evaluation の流れはこれを意味する.
ここまでに述べた先行研究の詳細 (インタラクションの概念モデル,半自動化のフレームワーク) については,
文献 [25] を参照されたい.
以上の経緯から,我々は,図 4 の半自動化フレームワークを実現する第 1 歩として,system evaluation に利
用可能な指標,および,system evaluation と human evaluation の関係を調べる必要があると考えた.本研究で
は,system evaluation の指標として,従来,提案されているルールの興味深さの客観的指標を選定し,human
evaluation,つまり,専門家が実際に与えたルールの評価結果と比較する.
図 3: 概念レベルでのシステムと専門家のインタラクションモデル.
図 4: インタラクションの半自動化フレームワーク.
2.2
ルールの興味深さの指標
知識発見分野では,ルールの興味深さの指標を定義し,人間の代りにルールを評価させる試みがなされてきた.
一般に,興味深さの指標は客観的指標と主観的指標に大別される.客観的指標は,データの分布構造に基づき,数
理的にルールが有意義であるかを示す.主観的指標は,人間がビリーフ,バイアス,ルールのテンプレートを与
え,ルールがこれらにどの程度合致するかを示す [11].
客観的指標は領域知識を含まないため,人間にとって興味深いルールの獲得よりも,データ構造上妥当でない
ルールの除去に用いられる場合が多い [27, 30, 8, 3, 5, 22, 4, 20, 13, 33].主観的指標は領域知識を含むため,興
味深いルールの選定に役立つが,人間が自分の興味深さを明示的に定義でき,それをシステムに与えられる前提
上に成り立つ [15, 14, 18, 19, 26, 28, 29].主観的指標の中には,システムと人間のインタラクションによって人
間の興味深さを学習するものも,少ないが存在する [32].
このように,従来の興味深さの指標は人間が本当に感じる興味深さを,直接的には意味しない.これ以降,従
来の興味深さの指標と人間が持つ興味深さの混同を避けるため,次のように用語を定義する.なお,これらのう
ち真の興味深さは著者らによる定義であるが,客観的指標と主観的指標の定義は,従来の様々な研究に基づき決
定した.
客観的指標: データの分布構造を数理的に解析して得られる,ルールの信頼性や特異性.人間は介在しない.
主観的指標: 人間が明示的に定義し与えた情報との類似度や差異.類似度や差異の算出には,数理的な基準が用
いられる.
真の興味深さ: 人間が実際にルールに対して感じる心的な興味深さ.人間の本来の認知特性,個人が持つ領域知
識や経験,これまでに評価してきたルールの影響の総合から形成される.
表 1: ルールの興味深さの客観的指標の一覧.本研究で用いたものには*を付けた.Calculation の列における以下
の記号は,指標の算出に何を使うかを意味する.N: ルールの条件部,結論部に含まれる事例数.P: ルールの条
件部,結論部の生起確率.S: ルールの条件部,結論部の生起確率に基づく統計量.I: ルールの条件部,結論部の
情報量.D: ルールの属性値に基づくルール間の距離.C: ルールの木構造の複雑さ.
Name
Calcu
Evaluation Criterion
lation
Rule Interest [27]
N
Dependency between the antecedent and the consequent
Support *
P
Generality of the rule
Precision (Confidence) *
P
Performance of the rule to predict the consequent
Recall *
P
Performance of the rule not to leak the consequent
Accuracy
P
Summation of the precision and its converse of contrapositive
Lift *
P
Dependency between the antecedent and the consequent
Leverage *
P
Dependency between the antecedent and the consequent
Reliable Exceptions [20]
P
Rule with small support and high precision
Gray and Orlowska’s
P
Multiplication of the support and the antecedent-consequent dependency
measure (GOI) * [6]
Surprisingness [4]
P
Rule occurring Sympson’s paradox
2
S
Dependency between the antecedent and the consequent
2
χ measure 2 [22]
S
Similarity between two rules
J-Measure [30] *
I
Dependency between the antecedent and the consequent
General Measure [13]
S&I
Fusion of the χ2 measure 1 and the information gain measure
Distance Metric [5]
D
Distance of the rule from the rule with the highest coverage
Dong and Li’s measure [3]
D
Distance of the rule from the other rules
Peculiarity [33]
D
Distance of the attribute value from frequent attribute values
I-Measure [8]
C
Complexity of the rule
χ measure 1 * [22]
2.2.1
客観的指標
客観的指標は,データ分布構造の数理的な解析結果である.多くの客観的指標が提案されており,これらは,評
価対象,および,解析の基礎となる理論によって分類できる [11].評価対象とは,ルール 1 つ 1 つの質を評価す
るか,ルール集合の傾向を評価するかを意味する.本研究は各ルールの質に着眼するため,ルール集合を評価す
る指標 [9, 11] ではなく各ルールの客観指標のみを扱う.
表 1 に主要な客観指標を示す.これらは,以下に示すような興味深さの評価基準をあらかじめ想定している.そ
して,この評価基準に基づき,データとルール,あるいは,ルールの条件部と結論部の間で事例数の分布構造を
差異を求め,ルールがどの程度評価基準に適合するかを調べる.
正確さ: ルールの条件部や結論部に事例の漏れがないか,あるいは,ルールの条件部と結論部の結合 (依存関係)
が強いか [27, 30, 22, 20, 13].
情報の多さ: ルールが多くの情報を含むか [8].
一般性: ルールがデータ全体の傾向を反映するか [5].
意外性: ルールがデータ全体と異なる傾向を示すか [3, 4, 33],あるいは他のルールと似ていないか [5, 22].
客観的指標は人間の介入が不要なので,非常に多くのルールから明らかに無意味なルールを除去することに役
立つ.しかし,一般性と意外性のように,客観的指標の評価基準の中には相反するものがある.また,客観的指
標の評価基準が真の興味深さと合致するとは限らず,むしろ真の興味深さと矛盾する場合も多い.例えば,多く
の情報を与えるルールは複雑すぎて,人間が理解できないかもしれない.客観的指標の提案者の多くは,数学的
な証明やベンチマークデータによって,その有効性を検証しているが,様々な客観的指標の比較や,客観的指標
と真の興味深さとの関係を調べた研究は少ない.
2.2.2
主観的指標
主観的指標は,人間が明示的与えた情報とルールが持つ情報との類似度,あるいは差異である.主観的指標の研
究は多くないが,あえて分類すれば,人間の評価基準,人間からの情報の与え方,および,類似度や差異の算出の
基礎となる理論で分けられる.人間の評価基準とは,人間にとって何が興味深いかを意味し,主に Unxepectedness
と Actionability が挙げられる.人間からの情報の与え方は,事前に与えるか,インタラクティブに与えるかを意
味する.
人間の評価基準で分類すると,人間の認知特性や領域知識を数式やルールのテンプレートで表現したもの [21, 15,
17],人間が与えたビリーフに対する差異で Unexpectedness を表現したもの [29, 14, 26, 18],類似度で Actionability
を表現したもの [19] などがある.
主観的指標の多くは人間が事前に与えた情報を用いるが,生成や後処理においてインタラクティブに人間から
情報を受け取るものも,少ないが存在する.文献 [15] では,人間が事前に与えたルールのテンプレートを用いる
が,インタラクションを通したテンプレート修正もできる.文献 [32] では,インタラクティブに真の興味深さを
学習する手法が提案されている.
主観的指標は,客観的指標の不要なルールの除去という消極的な用途に比べ,興味深いルールの選定という積
極的な用途に適する.しかし,その一般性・正確性と有用性の間にトレードオフ関係がある.現時点では,前者
を求めて,高い抽象レベルで数学的に興味深さを定義した指標,後者を求めて,分野に特化し作り込んだ指標に
二極化しており,両者をつなぐ Generic な指標は少ない.また,様々なルールを見ることで生じる真の興味深さの
変化に,柔軟に適応する機能を持つものも少ない.
2.2.3
本研究で用いる指標の選定
本研究では医学領域を対象として,客観的指標と人間の真の興味深さを比較し,客観的指標の有用性を実証的
に調べる.客観的指標は主に無意味なルール除去を意図するため,本来の意味において,客観的指標と真の興味
深さは当然異なる.しかし,客観的指標が真に興味深いルールの選択に少しでも役立つならば,客観的指標の可
能性が広がる.また,真の興味深さをある程度要素還元し,客観的指標が持つ評価基準と対応付けられれば,シ
ステムと人間のインタラクションに客観的指標を使えるかもしれない.これらの理由から,我々は客観的指標と
真の興味深さを比較することにした.
今回は,表 1 に示した客観的指標のうち,最も一般的な指標 (Support, Precision, Recall, Lift, Leverage),確
率に基づく指標 (Gray and Orlowska’s Interestingness = GOI),統計に基づく指標 (χ2 指標),情報量に基づく指
標 (J-Measure),の計 8 指標を調査対象とした.
表 2: 1 回目のマイニングで得たルール群に対して,専門家と客観的指標が与えた評価の結果.
表 3: 2 回目のマイニングで得たルール群に対して,専門家と客観的指標が与えた評価の結果.
各行は,専門家,客観的指標がルールに与えた評価結果を意味し,各列は 1 つ 1 つのルールを意味する.ルール
は,専門家の評価が高いものから降順にソートした.
「興味あり」と評価されたルールをボックスで囲い,
「特に興味
あり」と評価されたルールには灰色を付けた.専門家の評価において,EI: 特に興味あり,bf I: 興味あり,NU:
理解不能,NI: 興味なし,である.客観的指標の評価において,□: 専門家と一致,■: 専門家と不一致,である.
表の右側 4 つの列において,#1: 「興味あり」の抽出精度,#2: 「特に興味あり」の抽出精度,#3: 専門家の
評価の推定精度 (一致数),#4: 専門家の評価傾向の推定精度 (相関係数),である.
2.3
2.3.1
真の興味深さと客観的指標の比較
実験条件
第 2.1 節で述べたように,我々は慢性肝炎データを使ってマイニングを 2 回行い,各マイニングでルール群を得
た.そして,専門家にルールを見せ,
「興味あり」「理解不能」「興味なし」の 3 種類の評価を与えてもらった.そ
の結果,1 回目のマイニングでは 12 個,2 回目のマイニングでは 8 個の「興味あり」ルールを得た.また,1 回目
における仮説 (GPT の周期性) の形成,および,2 回目における仮説の検証において,キーとなった重要なルール
も選定してもらった.これらのルールは,前者では 3 個,後者では 2 個であった.
次に,ルール群に客観的指標を適用し,算出した評価値でルールを降順に並べた.そして,最上位のルールか
ら,専門家が「興味あり」と評価したルールの個数まで,つまり,1 回目のマイニングで 12 個,2 回目のマイニ
ングで 8 個を,客観的指標が「興味あり」と評価したルールと見なした.
なお,GOI [6] は,条件部と結論部の依存性の強さとルールの一般性のバランスを調整するパラメータを持つた
め,2 種類の異なるパラメータ値を使って個別に値を算出した.1 つは,相関の強さが一般性の 2 倍の重みを持つ
1 回目
2 回目
図 5: 1 回目 (左側),および,2 回目 (右側) のマイニングで得たルール群に対して,専門家と客観的指標が与えた
評価の結果のまとめをレーダーチャートで表した.各レーダーチャートにおいて,#1: 「興味あり」の抽出精度,
#2: 「特に興味あり」の抽出精度,#3: 専門家の評価の推定精度 (一致数),#4: 専門家の評価傾向の推定精度
(相関係数),である.
GOI-D(依存性=Dependency),もう 1 つは,逆の傾向を持つ GOI-G(一般性=Generality) である.
2.3.2
結果と考察
表 2 に 1 回目,表 3 に 2 回目のルールの評価結果を示す (詳細はキャプション参照).表 2,表 3 は,客観的指標
による評価結果が,専門家の評価結果,すなわち,正解とどの程度一致するかを表す.表左側の四角内で白抜きセ
ル (□) が多いほど,この一致度合いが高く,客観的指標の真に興味深いルールの発見性能が高いと言える.さら
に,灰色に着色したルールに対して□が多いほど,仮説の形成・検証のキーとなる重要なルールを取りこぼさな
いと言える.
実験結果の全体傾向を把握するため,我々は客観的指標の総合評価基準 (ここでは,メタ評価基準と呼ぶ) を,以
下のように 4 つ設定した.表 2 の右側 4 列は,以下の基準を使ったメタ評価の結果である.
#1: 興味深さの抽出精度 (専門家,客観的指標が「興味あり」と評価したルールの一致率).
#2: 重要さの抽出精度 (専門家,客観的指標が「重要」と評価したルールの一致率).
#3: 専門家による評価の推定精度 (専門家,客観的指標の全評価の一致率).
#4: 専門家による評価傾向の推定精度 (専門家,客観的指標の評価間の相関係数).
まず,主に#1 の結果をもとに,2 回実施したメタ評価を独立に検討する.表 2 より,1 回目のメタ評価では,
Recall と χ2 指標 1 の評価値が共に高い.また,J-Measure の評価値が最も低く,次に Support,GOI-D,GOI-G
の 3 つの評価値が共に低い.表 3 より,2 回目のメタ評価では,χ2 指標 1,Lift の順に評価値が高い.また,Support
の評価値が最も低く,次に GOI-D,J-Measure2 つの評価値が共に低い.
客観的指標は,データの分布構造を数理的に解析し,正確性,一般性等の評価基準にどの程度合致するかを意
図しており,ルールに含まれる知識の意味には踏み込まない.したがって,興味深いルールの発見への適用には,
自ずと限界がある.とは言え,本実験条件では,数十個のルール群に対してある程度の精度が得られ,発見支援
への客観的指標の積極的利用の可能性が見られた.
次に,1 回目,2 回目のメタ評価値を比較し,値が連続して高いもの,連続して低いもの,大きく変化したもの
について検討する.1 回目,2 回目ともに χ2 指標 1 の評価値は最高,Support,GOI-D,J-Measure はの評価値
は最低であった.1 回目から 2 回目に移行するにしたがって,Precision の評価値は変化し,Recall,Lift の性能は
若干変化し,その他の指標の評価値はあまり変化しなかった.
ここで,なぜ上記の傾向が現れたのかを考察する.まず,専門家がルールの評価基準について述べたコメントを
解析すると,以下のことが分かった.(1) 専門家は,ルールの病状の推定性能よりも,検査項目の時系列パターン
の変動に着目する.(2) 医学的な知識には厳密さが要求されるため,ルールの信頼性や一般性を常に考慮しながら
ルールを評価している.(3) しかし,これらが高いルールの多くは,専門家にとって既知であり興味がない.
χ2 指標 1 の評価値が高くなるのは,(1) に起因すると考えられる.今回用いた指標の中で χ2 指標 1 のみが,
「ルー
ルの条件部を満たす/満たさない」「ルールの結論部を満たす/満たさない」の全組合せの事例を用いている [22].
したがって,χ2 指標 1 は,条件部と結論部の依存性が最も高く,条件部から結論部にかけて,検査項目の時系列
パターンがスムースに繋がったルールを高く評価した.これが,長期的に時系列パターン全体の傾向を把握した
い,という専門家のニーズに合致したと言える.
Recall の評価値が高いことも (1) に起因すると考えられる.Recall はルールの結論部から見てその条件部の関わ
りが非常に強いというものを高く評価する.よって,長期的に時系列パターン全体の傾向を把握したい,という
専門家のニーズに合致したと言える.
Support の評価値が低いのは,(3) から考えて一般的でありすぎるというルールは既知であるといえ,当然の結
果と言える.
フェーズが進むにつれて,Precision の評価値が下がるのは,(3) と関連させて,専門家がそれほど高い信頼性を
要求しなくなることが考えられる.
一方,GOI-D,GOI-G,J-Measure の評価値が低くなる原因は (2) から類推される.これらは,ルールの一般
性,条件部と結論部の依存性の両方を反映した指標である [30, 6].両者のバランスを考慮することは理論的には
妥当であるが,結果的に真の興味深さとは合致しなかった.これは,これらの指標が持つバランスが,専門家の
心の中にあるバランスと一致していないからと言える.複雑で可変な専門家の持つバランスを事前に知ることは
困難なため,興味深いルールの発見支援には,一般性と依存性を別々に扱う客観的指標の方が有用かもしれない.
また,表 2,表 3 全体から,各客観的指標で発見された興味深いルールは異なっていることがわかる.これは複
数個の客観的指標をパラメータとするような関数を合成して利用できる可能性を示唆している.例えば,Recall と
χ2 指標の論理和演算を興味深いとするような合成関数を考えると,#1: 興味深さの抽出精度と#2: 重要さの抽
出精度の正解率が共に 100%となる.これは,今回のルールの条件部と結論部が一体化されて興味深いルールが発
見されたということに大きく依存するが,他のケーススタディでもこのような発見方法は考えられる.
以上より,今後,システムと人間のインタラクションに客観的指標を利用するには,χ2 指標 1 のようにルール
の条件部と結論部を総合的に評価する指標,一般性や,依存性のみを表現する単一指標を利用することが考えら
れる.ただし,χ2 指標 1 に見られるように,重要なルールの取りこぼしの可能性も考えられる.これを防ぐため,
単一指標を使わずに,合成関数を使える可能性がある.さらに,できる限り専門家が理解可能な表現で,客観的
指標の持つ評価基準を提示し,インタラクション過程で専門家が持つ真の興味深さが,どの評価基準に近いかを
フィードバックしてもらう仕組みが必要である.
3
今後の予定
本研究では,慢性肝炎データセットを使った実証実験を通し,ルールの興味深さの客観的指標が,人間が感じ
る真に興味深いルールの発見に,どの程度寄与できるかを調べた.客観的指標は,主に,明らかに無意味なルー
ルの除去に用いられてきた.しかし,本実験の結果からは,システムと人間のインタラクションを通した発見支
援に向けた,積極的な適用の可能性が示唆された.本研究のテーマは,データマイニングの「結果の後処理」に
止まらず,
「結果の品質管理」に発展していくと考えられる.今後,この視点での考察を進めていきたい.
参考文献
[1] K. J. Cios, and G. W. Moore, “Uniqueness of medical data mining,” Artificial Intelligence in Medicine,
vol.26, no.1–2, pp.1–24, 2002.
[2] G. Das, L. King-Ip, M. Heikki, G. Renganathan, and P. Smyth, “Rule Discovery from Time Series,” Proc.
of Int’l Conf. on Knowledge Discovery and Data Mining (KDD-98), New York, USA, pp.16–22, 1998.
[3] G. Dong and J. Li, “Interestingness of Discovered Association Rules in Terms of Neighborhood-Based
Unexpectedness,” Proc. of Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD’98),
Melbourne, Australia, pp.72–86, 1998.
[4] A. A. Freitas, “On Rule Interestingness Measures,” Knowledge-Based Systems, vol.12, no.5–6, pp.309–315,
1999.
[5] P. Gago and C. Bento, “A Metric for Selection of the Most Promising Rules,” Proc. of European Conference
on the Principles of Data Mining and Knowledge Discovery (PKDD’98), Nantes, France, pp.19–27, 1998.
[6] B. Gray and M. E. Orlowska, “CCAIIA: Clustering Categorical Attributes into Interesting Association
Rules,” Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD’98), Melbourne, Australia,
pp.132–143, 1998.
[7] C. Hausdorf and C. Muller, “A Theory of Interestingness for Knowledge Discovery in Databases Exemplified
in Medicine,” Int’l Workshop on Intelligent Data Analysis in Medicine and Pharmacology (IDAMAP’96),
Budapest, Hungary, pp.31–36, 1996.
[8] H. J. Hamilton and D. F. Fudger, “Estimating DBLearn’s Potential for Knowledge Discovery in Databases,”
Computational Intelligence, vol.11, no.2, pp280–296, 1995.
[9] H. J. Hamilton, N. Shan, and W. Ziarko, “Machine Learning of Credible Classifications,” Proc. of Australian
Conf. on Artificial Intelligence (AI’97), Perth, Australia, pp.330–339, 1997.
[10] “Hepatitis Dataset for Discovery Challenge,” European Conf. on Principles and Practice of Knowledge
Discovery in Databases (PKDD’02), Helsinki, Finland, http://lisp.vse.cz/challenge/ecmlpkdd2002/, 2002.
[11] R. J. Hilderman and H. J. Hamilton, Knowledge Discovery and Measure of Interest, Kluwer Academic
Publishers, 2001.
[12] O. Hogl, H. Stoyan, and W. Stuhlinger, “On Supporting Medical Quality with Intelligent Data Mining,”
Proc. of Hawaii Int’l Conf. on System Sciences (HICSS’01), no. HCDAM03, 2001.
[13] S. Jaroszewicz and D. A. Simovici, “A General Measure of Rule Interestingness,” Proc. of European Conf.
on Principles of Data Mining and Knowledge Discovery (PKDD’01), Freiburg, Germany, pp.253–265, 2001.
[14] M. Kamber and R. Shinghal, “Evaluating the Interestingness of Characteristic Rules,” Proc. of Int’l Conf.
on Knowledge Discovery and Data Mining (KDD’96), Portland, Oregon, USA, pp.263–266, 1996.
[15] M. Klementtinen, H. Mannila, P. Ronkainen, H. Toivone, and A. I. Verkamo, “Finding Interesting Rules
from Large Sets of Discovered Association Rules,” Proc. of Int’l Conf. on Information and Knowledge
Management (CIKM’94), Gaitersburg, Maryland, pp.401–407, 1994.
[16] N. Lavrac̆, “Selected Techniques for Data Mining in Medicine,” Artificial Intelligence in Medicine, vol.16,
pp.3–23, 1999.
[17] B. Liu, W. Hsu, and S. Chen, “Using General Impressions to Analyze Discovered Classification Rules,”
Proc. of Int’l Conf. on Knowledge Discovery and Data Mining (KDD’97), Newport Beach, California, USA,
pp.31–36, 1997.
[18] B. Liu, W. Hsu, S. Chen, and Y. Mia, “Analyzing the Subjective Interestingness of Association Rules,”
Intelligent Systems, vol.15, no.5, pp.47–55, 2000.
[19] B. Liu, W. Hsu, and Y. Mia, “Identifying Non-Actionable Association Rules,” Proc. of Int’l Conf. on
Knowledge Discovery and Data Mining (KDD’01), San Francisco, USA, pp.329–334, 2001.
[20] H. Liu, H. Lu, L. Feng, and F. Hussain, “Efficient Search of Reliable Exceptions,” Proc. of Pacific-Asia
Conf. on Knowledge Discovery and Data Mining (PAKDD’99), Beijing, China, pp.194–203, 1999.
[21] C. J. Matheus and G. Piatetsky-Shapiro, “Selecting and Reporting What Is Interesting: The KEFIR
Application to Healthcare Data,” in U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy
(eds.), “Advances in Knowledge Discovery and Data Mining,” AAAI Press/MIT Press, pp.401–419, 1995.
[22] Y. Morimoto, T. Fukuda, H. Matsuzawa, T. Tokuyama, and K. Yoda, “Algorithms for Mining Association Rules for Binary Segmentations of Huge Categorical Databases,” Proc. of Int’l Conf. on Very Large
Databases (VLDB’98), New York, USA, pp.380–391, 1998.
[23] H. Motoda (eds.), “Active Mining,” ISO Press, 2002.
[24] M. Ohsaki, Y. Sato, H. Yokoi, and T. Yamaguchi, “A Rule Discovery Support System for Sequential
Medical Data, – In the Case Study of a Chronic Hepatitis Dataset –,” Int’l Workshop on Active Mining
(AM-2002) in IEEE Int’l Conf. on Data Mining (ICDM’02), Maebashi, Japan, pp.97–102, 2002.
[25] M. Ohsaki, Y. Sato, S. Kitaguchi, H. Yokoi, and T. Yamaguchi, “A Rule Discovery Support System for
Sequential Medical Data, – In the Case Study of a Chronic Hepatitis Dataset –,” Technical Report of
the Institute of Electronics, Information, and Communication Engineers (IEICE), AI2002-81, 2003 (in
Japanese).
[26] B. Padmanabhan and A. Tuzhilin, “A Belief-Driven Method for Discovering Unexpected Patterns,” Proc.
of Int’l Conf. on Knowledge Discovery and Data Mining (KDD’98), New York, USA, pp.94–100, 1998.
[27] G. Piatetsky-Shapiro, “Discovery, Analysis and Presentation of Strong Rules,” Knowledge Discovery in
Databases, pp.229–248, AAAI/MIT Press, 1991.
[28] S. Sahara, “On Incorporating Subjective Interestingness Into the Mining Process,” Proc. of IEEE Int’l
Conf. on Data Mining (ICDM’02), Maebashi, Japan, pp.681–684, 2002.
[29] A. Silberschatz and A. Tuzhilin, “On Subjective Measures of Interestingness in Knowledge Discovery,”
Proc. of Int’l Conf. on Knowledge Discovery and Data Mining (KDD’95), Montreal, Canada, pp.275–281,
1995.
[30] P. Smyth and R. M. Goodman, “Rule Indcution using Information Theory,” Knowledge Discovery in
Databases, pp.159–176, AAAI/MIT Press, 1991.
[31] P. Tan, V. Kumar, and J. Srivastava, “Selecting the Right Interestingness Measure for Association Patterns,” Proc. of Int’l Conf. on Knowledge Discovery and Data Mining (KDD’02), Edmonton, Alberta,
Canada, pp.32–41, 2002.
[32] T. Terano and M. Inada, “Data Mining from Clinical Data using Interactive Evolutionary Computation,”
in A. Ghosh and S. Tsutsui (eds.), “Advances in Evolutionary Computing,” Springer, pp.847–862, 2003.
[33] N. Zhong, Y. Y. Yao, and M. Ohshima, “Peculiarity Oriented Multi-Database Mining,” IEEE Transactions
on Knowledge and Data Engineering, vol.15, no.4, pp.952–960, 2003.
2.3.7 プロトタイプラインを用いた肝炎データの可視化(A02-07-1)
2.3.7 プロトタイプラインを用いた肝炎データの可視化
(A02-07-1)
1
概要
情報可視化は,結果の直観的分かりやすさにより,ユーザとのインタラクションが重視される応用分野において
重宝されており,データマイニングにおいても重要性を増している [3, 5].医療検査データは,不規則な計測,患
者の個人差,計測バイアス等の課題をデータマイニング研究者に示している [9].本研究領域 [6] の共通データに位
置付けられる慢性肝炎データは,これらの問題点を全て含み,ECML/PKDD Discovery Challenge [1, 2] などの
データマイニングコンテスト型 [7] 国際ワークショップで用いられるなど,内外の研究者たちの注目を集めている.
分かりやすく使いやすい情報可視化手法として,われわれはプロトタイプライン [8] を提案した.プロトタイプ
ラインは医療検査データを統計的類型を用いて変換し,新しい情報量規準に基づいて色を割り振り表示する.本
稿では,プロトタイプラインを用いた発見例と,慢性肝炎データの可視化結果を示す.
2
プロトタイプライン
2.1
動機
医療検査データ D は,n 人の患者から計測されたデータ d1 , d2 , · · · , dn から構成される D = {d1 , d2 , · · · , dn }.
患者 i のデータ di は,l(i) 個の医療検査 ti1 , ti2 , · · · , til(i) に関する di = {ti1 , ti2 , · · · , til(i) }.本稿では,検査結果
は (検査名,値) の集合であると仮定する.
通常は,医療検査データは各医療検査に関してまとめられており,グラフを用いて時系列データの集まりとし
て表示される.図 1 は,患者 404,702,763,および 629 の医療検査 GPT,CHE,T-BIL,および PLT に関す
る時系列データを示す.図において,x 軸の単位は日であり,0 は最初の肝生検の日を表す.医療検査値は,各医
療検査毎にカテゴリ化されており,水平方向の点線は低い,普通,高いなどのカテゴリ間の境界を表す.慢性肝炎
データに関する典型的な問題は,数百人の患者と10個以上の医療検査が関連するため,図 1 の形式では 21 イ
ンチ画面でも数人の患者に関する結果の表示がやっと可能であり,効率的な分析は困難である.
可視化特有の諸問題を鑑み,本稿で扱う問題を一般的に定義する.医療検査データ D は,可視化手法に基づい
て表示結果 D に変換され,D は医療専門家などのユーザ Ω に示され,Ω は興味深い知識の発見を目指す.
図 1 の患者たちは,同じ線維化グループ F4 に属し,問題の難しさを直観的に訴えている.これらの患者たち
は,医療検査の間隔や医療検査値の範囲などいくつかの観点から異なっており,時系列データの形状が似ていな
い.数十枚のグラフを注意深く観察することにより,医療の専門家ではない鈴木は患者 702 が F4 患者としては
例外的に状態が良く,患者 629 が最初の肝生検直前に例外的に悪い状態となったことに気づいた.これらの例外
は興味深いが,医療の専門家が同様の作業を引き受けるとは思えず,異なる形式の可視化が望ましいと考えた.
2.2
プロトタイプラインの直観的説明
前節の議論に基づき,習熟度が低くても,医療検査データから容易に興味深い知識を発見できる可視化手法を
提案した [8].本節では提案したプロトタイプラインを直観的に説明する.
統計的混合モデルは,データを類型の線形和として表す手法であり,統計学において頻繁に用いられている.こ
の方法は,大規模なデータを少数の類型 (基本モデル) で表すため,全体的な傾向の把握を容易にすると考えられ
る.われわれは,データから EM 法 [4] に基づいて類型を得,各医療検査結果を類型の線形和に変換する手法を
用いることにした.
GPT
404
CHE
400
300
200
100
0
200
0
1000 2000 3000
0
GPT
600
200
400
100
200
0
1000 2000 3000
0
1000
2000
0
1000
2000
0
1000
2000
4
400
3
200
2
0
0
1000
GPT
629
1000
0
CHE
700
600
500
400
300
200
100
0
200
0
0
0
-2000 -1000
0
1000
PLT
4
3
2
1
0
400
-2000 -1000
1000
T-BIL
600
2000
400
300
200
100
0
1
0
1000
PLT
100
0
0
T-BIL
600
1000 2000 3000
400
300
200
100
0
CHE
200
0
PLT
4
3
2
1
0
GPT
763
1000 2000 3000
T-BIL
0
0
400
300
200
100
0
CHE
300
PLT
4
3
2
1
0
400
0
702
T-BIL
600
400
300
200
100
0
-2000 -1000
0
-2000 -1000
0
図 1: 慢性肝炎データの一部.ただし各行と各列はそれぞれ各患者と各医療検査を表す
類型を分かりやすく表示するために,われわれは情報媒体として色相だけを用いる.新しい情報理論規準に基
づき,類型は良い結果から悪い結果に整列され,色相を割り当てられる [8].色相は寒色から暖色になるにつれ,
悪い結果を表すようになる.
3
主要成果
3.1
得られた類型
慢性肝炎の性質により,肝生検の前500日間と後500日間においては,線維化程度は不変と見なせる.デー
タから線維化程度が分かっている患者のデータを選択した.データにおいて,医療検査結果のカテゴリは,きわ
めて高い (UH),とても高い (VH),高い (H),普通 (N),低い (L),とても低い low (VL),あるいはきわめて低
い (UL) に分類される.各医療検査について,カテゴリと閾値を表 1 に示す.EM 法は,初期値をランダムに 100
通り決めて実行し,本稿では最良の結果を報告する.
表 1: 慢性肝炎データにおける重要な医療検査
医療検査 (閾値)
カテゴリ
GOT (40, 100, 200), GPT (40, 100, 200), ZTT (12, 24, 36), TTT (5, 10, 15)
T-BIL (1.2, 2.4, 3.6), D-BIL (0.3, 0.6, 0.9), I-BIL (0.9, 1.8, 2.7)
ALB (3.0, 3.9, 5.1, 6.0), CHE (100, 180, 430, 510)
T-CHO (90, 125, 220, 255), TP (5.5, 6.5, 8.2, 9.2)
WBC (2, 3, 4, 9), PLT (50, 100, 150, 350)
RBC (3.75, 5.0), HGB (12, 18), HCT (36, 50), MCV (84, 95)
N, H, VH, UH
N, H, VH, UH
VL, L, N, H, VH
VL, L, N, H, VH
UL, VL, L, N, H
L, N, H
医療検査を 5 種類にグループ分けし,各グループから類型の集合を得た.各グループの類型数は,類型間の相
違と類型の生起確率を考慮して決めた.決定すべきパラメータが類型数だけだったため,この過程は容易だった.
図 2 に,各カテゴリの平均値と得られた類型を,各グループに関して示す.N は緑色で表し,より高いカテゴリ
とより低いカテゴリはそれぞれ暖色と寒色で表した.“GOT” グループに関しては,平均値と各類型は 2 種類の
医療検査から構成され,各医療検査の結果は垂直の割合グラフで表されている.このグループにおいて,5 個の類
型は良いから悪いの順に左から右に並べられている.ID の後に続く括弧内の割合は,該当する類型の生起確率を
表す.図より,GOT の N と H は全体では約 40 % ずつ起こるが,類型 1 においてはそれぞれ 99 % と 1 % 起
こることが分かる.
3.2
プロトタイプラインを用いた発見
本節では,プロトタイプラインを用いてなされた発見を 3 例紹介する.最初の 2 例は医療の専門家ではない学
生である渡辺氏によってなされ,医療の専門家である横井氏によって確認された.最後の 1 例は,プロトタイプ
ラインに関するわれわれの説明を数分間聞いた医療の専門家によってなされた.
最初の例は,インターフェロン治療の例外的な結果に基づいて発見され,データに不在の病気を特定できた可
能性がある.図 3 より,患者 104 番のインターフェロン治療結果は良い (Re: response) であり,グループ 1 の
医療検査 GOT と GPT が改善したことが分かる.しかし,グループ 1 の医療検査 TTT と ZTT は,治療によ
り悪化したため,渡辺氏はこの患者を例外と認識した.横井氏が生データを検証してこの患者がデータに記載し
ていない別の病気を持っていると判断したため,渡辺氏の推論は正しいことが確認された.
第 2 の発見例は肝生検データにおける例外的患者に関し,データに記載されていない病気を指摘することが出
来た.患者 105 は F1 に属するが,医療検査をグループ化しないでプロトタイプラインを適用すると表示結果が
きわめて悪い.渡辺氏は,医療検査をグループ化してプロトタイプラインを適用し,図 4 に示す表示結果を調べ
た.その結果,ビリルビン (BIL) に関するグループ 3 の結果が悪いことが分かった.横井氏は生データを検証し,
この患者が体質性黄疸である可能性がきわめて高く,この記載がデータから洩れていることを指摘した.
最後の例は,患者の例外的な状態に関し,典型的な医療専門家にとってもプロトタイプラインの表示結果が分
かりやすいことを示している.われわれがプロトタイプラインを医療の専門家に数分間説明したところ,専門家
の一人が患者 285 番が最後の時期において血を吐いて貧血になったことを,多数の患者の表示結果の中にあった
図 5 を見て指摘した.彼は,右端付近においてグループ 5 の血算関係の医療検査結果が悪いことから,このこと
に気づいた.われわれはプロトタイプラインを説明する前に,別のデータマイニング手法に関して 1 時間以上も
議論したため,彼の発見は集中した結果ではなく,プロトタイプラインが使い易いことを示すと考える.
他のいくつかの発見などにより,プロトタイプラインは先入観や不注意によって見落とされた点を気づかせるこ
とや,一見異なって見える類似患者を特定することに有用であることが分かった.医療の専門家は,治療に直接
関連するデータマイニング手法をより尊重する傾向があるが,彼らはプロトタイプラインが教育と研究に有用で
あると考えている.彼らによれば,現在の医療教育は時系列的な推論を教える点が弱く,プロトタイプラインは
この問題に対して有効な対策になりうる.
3.3
肝生検データの表示結果
肝生検データの表示結果を図 6 から図 8 に示す.患者たちは,線維化程度 (F0 to F4) に基づいて整列されて
いる.図 6 の左上の上半分より,17 種類の医療検査は 2,2,3,4,6 個にグループ分けされ,それぞれから 5,
4,3,5,8 個の類型が導出されたことが分かる.紫,青,· · ·,赤で表された長方形は類型を表し,それらは寒色
から暖色になるにつれて悪い結果を表す.各類型の生起確率は,その下の割合グラフに示されている.例えば,グ
ループ “GOT” において紫色で表されている最良の類型は,医療検査結果の約 25 % を占める.図の残りは,肝生
図 2: 肝生検の前 500 日間と後 500 日間のデータから発見された類型.17 種類の医療検査は,5 個のグループに
分けられた
図 3: プロトタイプラインによる患者 104 の表示結果
図 4: プロトタイプラインによる患者 105 の表示結果
検の結果 (bio) を有する各患者のデータであり,インターフェロン治療 (ifn) の期間があれば表示されている.各
患者の左側にある 1,2,3,4,5 は,医療検査グループに相当する.
3.4
インターフェロン治療データの表示結果
インターフェロン治療を受けた患者の表示結果を図 9 から図 13 に示す.インターフェロン治療の結果は,Re
(レスポンス),PR (部分的レスポンス),NC (変化なし),Ag (悪化),および ? (不明) に分類された.各患者に
関し,医療検査結果がある期間をすべて可視化し,情報量規準 “SCORE” を用いて,同じ治療結果の患者が悪い
者から良い者に整列するようにした.
4
今後の計画
3.3 節と 3.4 節の結果を医療の専門家に検討していただくと共に,例外的患者や例外的時期の特定を進める予定
である.
参考文献
[1] P. Berka:
ECML/PKDD 2002 Discovery Challenge, Download Data
http://lisp.vse.cz/challenge/ecmlpkdd2002/, 2002 (current September 28th, 2002).
about
Hepatitis,
[2] P. Berka: ECML/PKDD 2003 Discovery Challenge, http://lisp.vse.cz/challenge/ecmlpkdd2003/, 2003 (current April 26th, 2003).
図 5: プロトタイプラインによる患者 285 の表示結果
図 6: 線維化程度を有する患者の表示結果 (F0 の 425 番から F1 の 615 番まで)
図 7: 線維化程度を有する患者の表示結果 (F1 の 625 番から F2 の 926 番まで)
図 8: 線維化程度を有する患者の表示結果 (F2 の 927 番から F4 の 913 番まで)
図 9: インターフェロン治療を受けた患者の表示結果 (レスポンス中,最悪の結果を示す者たち)
図 10: インターフェロン治療を受けた患者の表示結果 (レスポンス中,それほど悪くない結果を示す者たち)
図 11: インターフェロン治療を受けた患者の表示結果 (レスポンス中,最良の結果を示す者たち,部分的レスポ
ンスの者たち,および変化なしにおいて最悪の結果を示す者たち)
図 12: インターフェロン治療を受けた患者の表示結果 (変化なし中,それほど悪くない結果を示す者たち)
図 13: インターフェロン治療を受けた患者の表示結果 (変化なし中,最良の結果を示す者たち,悪化の者たち,お
よび不明の者たち)
[3] S. K. Card, J. D. Makinlay, and B. Shneiderman (eds.): Readings in Information Visualization, Morgan
Kaufmann, San Francisco, 1999.
[4] A. P. Dempster, N. M. Laird, and D. B. Rubin: ”Maximum likelihood from incomplete data via the EM
Algorithm”, Journal of the Royal Statistical Society B, Vol. 39, No. 1, pp. 1–38, 1977.
[5] U. Fayyad, G. G. Grinstein, and A. Wierse (eds.): Information Visualization in Data Mining and Knowledge
Discovery, Morgan Kaufmann, San Francisco, 2002.
[6] H. Motoda (ed.): Active Mining, IOS Press, Amsterdam, 2002.
[7] 鈴木英之進,津本周作:「データマイニングコンテスト 編集にあたって」,情報処理,Vol. 42,No. 5,pp.
443-444,2001.
[8] E. Suzuki, T. Watanabe, H. Yokoi, and K. Takabayashi: “Detecting Interesting Exceptions from Medical Test Data with Visual Summarization”, Proc. Third IEEE International Conference on Data Mining
(ICDM), 2003 (accepted for publication).
[9] S. Tsumoto: “Rule Discovery in Large Time-series Medical Databases”, Principles of Data Mining and
Knowledge Discovery (PKDD), LNAI 1704, pp. 561–567, 1999.
2.3.8 時系列決定木を用いた肝炎データからの肝硬変予測(A02-07-2)
2.3.8 時系列決定木を用いた肝炎データからの肝硬変予測
(A02-07-2)
1
概要
決定木 [4, 8, 9] は内部ノードで分割テストを行い葉でクラスを予測する木構造形式の分類モデルであり,帰納
学習において頻繁に用いられている.決定木を学習する種々のアルゴリズムは欠落値やノイズに対する頑健性に
優れ,数多くの応用領域で成功を納めてきた.
われわれは分類モデルの分かりやすさを重視し,時系列データの形を陽に扱い時系列データ全体を対象とする
決定木の分割テストを提案した [11].時系列決定木は,この分割テストを用いる新しい決定木であり,慢性肝炎
データに適用されて重要な知識を発見するなどの成功を収めた.本稿では,時系列決定木を用いた発見例と,慢
性肝炎データ領域により配慮した解析結果を示す.
2
時系列決定木
2.1
時系列分類問題
時系列データ A は,時間の経過とともに記録された計測値 a1 , a2 , · · · , aI を,時間順に時刻と共に並べた系列
データである.本稿では計測値が等間隔時間 (=1) で得られるか補間されている場合を扱う.以下においては見や
すさを重視し,時系列データを曲線で表示する場合がある.
time-series
attributes
GPT
ALB
200
examples
PLT
6
class
400
300
5
100
200
4
84
0
-500 -250
0
250 500
200
3
-500 -250
non-LC
100
0
250
500
6
0
-500 -250
0
250 500
400
300
5
100
200
4
85
0
-500 -250
0
250 500
200
3
-500 -250
non-LC
100
0
250
500
6
0
-500 -250
0
250 500
400
300
5
100
200
930
4
0
-500 -250
0
250 500
3
-500 -250
LC
100
0
250
500
0
-500 -250
0
250 500
図 1: 時系列属性から構成されるデータ集合
データ集合 D は n 個の例 e1 , e2 , · · · , en から構成され,各例 ei は m 個の属性 a1 , a2 , · · · , am とクラス属
性 c によって記述されるとする.属性 aj は値に順序がない値をとる名目属性,連続値をとる連続値属性,あるい
は時系列データをとる時系列属性である1 .クラス属性 c は名目属性であり,属性値をクラスと呼ぶ.図 1 に,時
系列データから構成されるデータ集合の例を示す.
1 木構造属性
[1, 2] や集合属性 [10] など,他の種類の属性を加えることも問題ないが,紙面の都合上考えない
時系列データからの分類学習では,入力データ集合 D から,例 e のクラス c(e) を予測する分類モデルの導出
を目的とする.本稿では,分類モデルとして決定木 [4, 8, 9] を考える.
2.2
時系列決定木の学習
われわれが提案した時系列決定木は,時系列データ,属性,および類似閾値を内部ノードに持ち,例集合を該当
する時系列データと内部ノードの時系列データの相違度に基づいて分割する [11].分割ノードにおいて訓練デー
タに存在する時系列データを用いるため,分類モデルの分かりやすさが向上すると考えられる.なお,分割ノー
ドの時系列データは,全探索によって求める.時系列データ間の相違度は,動的時間伸縮法 [7] に基づく.
この分割テストを,標準例分割テストと呼ぶ.標準例分割テスト σ(e, a, θ) は,標準例 e,属性 a,および閾値
θ から構成される.例 e の属性 a に関する値を e(a) で表す.標準例分割テストは,例集合 e1 , e2 , · · · , en を,各
例 ei が G(e(a), ei (a)) < θ を満たす例集合 S1 (e, a, θ) と,残りの例集合 S2 (e, a, θ) に分割する.この分割テスト
を,θ ギロチンカットとも呼ぶ.
分割テストの評価規準として,決定木の帰納学習で頻繁に用いられる利得比 [9] を用いる.θ ギロチンカットで
は,各例について最大 n − 1 個の分割点が調べられ,すべての例が標準例の候補になるため,利得比の最大値を
示す分割点が複数個存在する場合が頻繁に起こる.われわれは,分かりやすい分類モデルを得るためには時系列
データの形状を考慮することが不可欠と考え,このような場合には子ノードにおけるギャップが最大となる分割テ
ストを選択する.標準例分割テスト σ(e, a, θ) のギャップ gap(e, a, θ) は,G(e (a), e(a)) − G(e (a), e(a)) に等し
い.ただし,e と e はそれぞれ S1 (e, a, θ) において G(e(a), ei (a)) が最も大きい例 ei (a) と S2 (e, a, θ) において
G(e(a), ej (a)) が最も小さい例 ej (a) であるとする.
なお,比較のためクラスタ例分割テスト σ (e , e , a) も提案した.クラスタ例分割テストは例集合 e1 , e2 , · · · , en
を d(e (a), ei (a)) < d(e (a), ei (a)) を満たす例 ei (a) の集合 U1 (e , e , a) と,残りの例集合 U2 (e , e , a) に分割す
る.分割テストの評価規準は,θ を省略した標準例分割テストのそれと同じである.
3
主要成果
3.1
得られた肝硬変予測手続き
慢性肝炎は,ウイルス感染により肝細胞が炎症を起こし傷害される疾患である.炎症が長期に持続した場合,肝
硬変と呼ばれる終末像を呈する.肝硬変に至る道程においては線維化と呼ばれる指標が進行度を表し,線維化の
全くない F0 から肝硬変を表す F4 の5段階がある.線維化は,直接肝臓に器具を挿入し肝組織を採取する肝生検
によって診断するが,肝生検は出血などの危険性を伴い短期入院を必要とするため,頻回に検査できない.した
がって,この検査と同等以上の線維化指標が,血液検査のような簡便な検査で代替できれば大きな意義がある.
本節の実験で得られる分類子は,この実現につながる可能性がある.われわれは最初の肝生検だけを対象とし,
肝硬変 (LC) かそうでない (非 LC) かをクラスとする,51 例 (内 LC は 21 例,非 LC は 30 例) 14 属性から構
成されるデータ集合を得た.このデータ集合を,慢性肝炎データ 0 と呼ぶ.慢性肝炎データ 0 から学習された基
準例分割テストを用いる時系列決定木を図 2 に示す.ただし,属性の次の括弧内に記述されているのは患者番号
であり,葉は多数クラスを予測するものとする.グラフ中の横点線は,検査値の分類 (普通や高いなど) が変わる
境界値を表す.
学習された時系列決定木とその分割テストで用いられている時系列データは医師らの関心を呼び,重要な発見
であると認められた.この時系列決定木は,まず CHE (コリンエステラーゼ) で肝臓の予備能を調べ,予備能が
劣っている患者を肝硬変と予測する.それ以外の患者については,GPT (ALT) で炎症の度合を調べ,度合が激し
い者を肝硬変と予測する.それ以外の者については,ALB (アルブミン) で肝臓の別の予備能を調べ,優劣で肝硬
600
500
400
300
similar
CHE(278)
200
100
-500 -250
0
LC patients = 13
400
300
dissimilar
250 500
GPT(404)
200
100
0
-500 -250
similar
0
250 500
dissimilar
6
LCpatients = 5
ALB(281)
5
4
similar
3
-500 -250
0
250
non-LC patients = 30
(LC patients = 1)
500
dissimilar
LC patients = 2
図 2: 最初の肝生検を対象とする慢性肝炎データから学習された時系列決定木
表 1: 慢性肝炎データで leave-one-out 法を用いた実験結果
手法
正答率 (%)
時間 (s)
サイズ (個)
基準例分割
88.2
0.5
6.9
クラスタ例分割
62.7
82.4
74.5
0.5
0.0
0.1
8.5
10.1
N/A
平均値決定木
最小近傍法
変でないかそうであるかを予測する.この判断基準は医師が日常行っている血液検査の解釈に非常に合致してい
た.肝炎に関与するという属性を設定したこと以外にはほとんど医学知識を使用しないアルゴリズムであるにも
関わらず,妥当性の高い結果を出したとの評価を受けた.
慢性肝炎データ 0 に,各種手法を適用した実験結果を表 1 に示す.われわれの決定木は可読性に優れる上に,
予測正答率が 88 % 以上と最も正確であり,この結果も医師にとって評価された.さらに,leave-one-out 法で誤
予測された患者を検討した所,それらのほとんどが例外的な患者であることが判明した.われわれが提案する基
準例分割テストを用いる時系列決定木は,例外的な患者の特定にも有用であることが分かった.
これらの解析に関して,医療の専門家から次のコメントを得た.
• 提案手法は新規性を示し,きわめて興味深い.ほとんどの時系列決定木について上方の分割は妥当であり,
学習結果は属性に関する領域知識だけを用いた手法としては驚くほど良い.
• 肝生検後に測定された医療検査結果は,インターフェロン (IFN) などの治療に影響されている場合が多い.
肝生検前に測定された医療検査結果だけを用いる方が良い.
• 患者数 n が小さいため,1000 日間は計測期間としては長い.365 日間など,計測期間をより短くする方が
良い.
• 必要な医療検査数は例えば年間 4 回などに減らすことが可能かも知れない.医療においては,より少ない数
の医療検査結果から肝硬変を予測できる方が価値が高い.
• 医療の専門家は,分類モデルの評価指標として,敏感度,特異度,あるいは ROC 曲線に慣れている.LC
患者を見落とすことは,非 LC 患者を間違えることよりも深刻である.
3.2
3.2.1
誤分類コストに関する実験
実験条件
前節のコメントに基づき,肝生検後の医療検査データを用いないで時系列決定木学習法を評価した.C4.5 [9] は,
連続値属性に関して値が閾値よりも大きいかを調べる分割テストを用いる.本稿では,時系列データを平均値に変
換した場合のこの分割テストを平均値分割テストと呼ぶ.標準例分割テストと平均値分割テストの両方を用いる
手法を,複合分割テストと呼ぶことにする.比較のため,平均値分割テストだけを用いる手法と,次に説明する
線分分割テストも用いた.線分分割テストは,標準例の時系列データを線分に置き換える手法である.この線分
は,医療検査値を α − 1 区間の等頻度離散化手法で分割し,2 点 (l1 , p1 ) と (l2 , p2 ) を結ぶことによって出来る.
ただし l1 と l2 は計測期間のそれぞれ始まりと終りであり,p1 と p2 は各々,離散化された区間の端点を表す.例
えば,α = 5 なら 25 通りの線分が考慮される.クラスタ例分割テストは,[11] の実験において性能が悪かったた
め,用いなかった.
表 2: 混同行列
LC (予測)
非 LC (予測)
LC
非 LC
TP
FN
FP
TN
表 2 に混同行列を示す.医療の領域専門家がコメントしたように,間違えた非 LC 患者数 F P より,見落とし
た LC 患者数 F N を減らすことが重要である.このため,実験においては評価指標として予測正答率に加えて敏
感度,特異度,および誤分類コストを用いる.追加した評価指標は次の順に重要であると考えられる.
C FN + FP
C(T P + F N ) + (T N + F P )
TP
Sensitivity (敏感度) =
TP + FN
TN
Specif icity (特異度) =
TN + FP
Cost =
(1)
(2)
(3)
ただし C はユーザが値を指定する重みを表す.実験においては C = 5 とし,leave-one-out 法を用いた.上記に
おいては,異なるデータ集合からの結果を比較するために,コスト Cost を正規化している.
ラプラス修正は決定木学習において誤分類コストを減らす効果があると報告されている [3].ν 個の例中にクラ
ス a の例が ν(a) 個ある際,a の確率 Pr(a) を次式で求めた.
Pr(a) =
ν(a) + l
ν + 2l
(4)
ただし l はラプラス修正のパラメータを表し,断らない限り l = 1 とした.
各実験においてデータ選択の基準を変更し,表 3 に示すデータ集合を用いた.データ集合名において,最初の
数字は肝生検前の測定期間日数,“p” の直後の数字は必要検査数,“i” の直後の数字は補間における日数を表す.
すべての実験において,B 型患者と C 型患者の両方を用いたため,各データ集合名は文字列 “BC” を含んでい
る.[11] の後で新しい肝生検データを得たため,実験においては新旧データを統合して用いた.
3.2.2
実験結果
最初に,検査期間を 180 日,補間間隔を 5 日間に固定し,必要検査数を 6,3,2 と変化して実験を行った.実
験結果を表 4 に示す.表より,平均値分割テストと線分分割テストはそれぞれ p2 と p6 に関し,他手法よりもコ
ストに関して優れていることが分かる.p3 に関しては,これらの手法はコストが同じであり,複合分割テストよ
りも優れている.われわれの手法が劣っているのは,時系列データの形と例数に関する情報が不足しているため
だと考えられる.p2 では前者の情報が欠如しているため平均値分割テストが有利であり,p6 では後者の情報が欠
如しているため線分分割テストが有利であると考える.分類モデルの簡潔性も考慮すれば,p2 から得られた平均
値分割テストを用いる決定木が最良の結果であると考えられる.
第 2 に,補間間隔を 5 日間,必要検査数を 30 日間につき 1 に固定し,検査期間を 90,180,270,360 日間と
変化して実験を行った.実験結果を表 5 と表 6 に示す.表より,平均値分割テストと線分分割テストは,互いの
優劣はつけがたいが,コストに関してほとんどいつも複合分割テストよりも優れていることが分かる.この理由は
やはり,時系列データの形と例数に関する情報が不足しているためだと信じる.複合分割テストは 90 と 180 に
関して比較的性能が良く,これはこれらのデータ集合が比較的多くの例を含むためかもしれない.分類モデルの
簡潔性も考慮すれば,180 から得られた線分分割を用いる決定木が最良の結果であると考えられる.
第 3 に,検査期間を 180 日,必要検査数を 6 に固定し,補間間隔を 2,4,· · ·,10 日間と変化して実験を行っ
た.実験結果を表 7 と表 8 に示す.表 7 より,複合分割テストと線分分割テストは,互いの優劣はつけがたいが,
コストに関して平均値分割テストよりも優れていることが分かる.表 5 と表 6 における 180 は 180BCp6i5 を表
すため,この表に示す場合は i5 と表される.複合分割テストが i5 に関してコストが 0.35 と悪いことは,この手
法が短い補間間隔と長い補間間隔に関して性能が良いことを示すが,このことはさらに調べる必要がある.分類
モデルの簡潔性も考慮すれば,線分分割テストが最良と判断され,この理由はやはり複合分割テストにとって情
報が不足しているためだと考える.
最後に,検査期間を 180 日,必要検査数を 6,補間間隔を 6 日間に固定し,ラプラス修正のパラメータ l を
0, 1, · · · , 5 と変化して実験を行った.実験結果を表 9 に示す.表より,ラプラス修正はわれわれの期待に反して複
合分割テストと線分分割テストについてコストを増大させることが分かった.平均値分割テストに関しても,ラ
プラス修正なしの場合 (l = 0) は,ラプラス修正ありの最も良い場合 (l = 1) とほぼ同じである.これはラプラス
修正が敏感度を下げるためであることが表より分かるが,より詳しく調べる必要がある.
表 3: 実験で用いたデータ集合
実験
医療検査数に関する実験
選択期間に関する実験
補間間隔に関する実験
ラプラス修正に関する実験
データ集合 (LC 患者数:非 LC 患者数)
180BCp6i5 (68:23), 180BCp3i5 (133:40), 180BCp2i5 (149:42)
90BCp3i5 (120:38), 180BCp6i5 (68:23), 270BCp9i5 (39:15), 360BCp12i5 (18:13)
180BCp6i2, 180BCp6i4, 180BCp6i6, 180BCp6i8, 180BCp6i10 (all 68:23)
180BCp6i6 (68:23)
表 4: 医療検査数に関する実験結果.ただしデータ集合 p6,p3,および p2 はそれぞれ 180BCp6i5,180BCp3i5,
および 180BCp2i5 を表す
手法
複合
平均
線分
正答率 (%)
p6
p3
p2
78.0 75.7 80.6
83.5 82.1 87.4
84.6 82.7 85.9
p6
10.9
3.2
9.0
サイズ
p3
20.5
24.7
22.7
p2
18.9
7.4
3.6
p6
0.35
0.39
0.30
コスト
p3
0.35
0.27
0.27
p2
0.33
0.27
0.34
p6
0.52
0.39
0.57
敏感度
p3
0.53
0.63
0.63
p2
0.52
0.57
0.43
p6
0.87
0.99
0.94
特異度
p3
0.83
0.88
0.89
p2
0.89
0.96
0.98
表 5: 選択期間に関する実験の正答率,サイズ,およびコストに関する結果.ただしデータ集合 90,180,270,お
よび 360 はそれぞれ 90BCp3i5,180BCp6i5,270BCp9i5,および 360BCp12i5 を表す
手法
複合
平均
線分
90
77.8
79.7
77.2
正答率
180
78.0
83.5
84.6
(%)
270
64.8
79.6
74.1
360
45.2
71.0
48.4
サイズ
180
270
10.9
8.5
3.2
8.7
9.0
8.7
90
19.5
23.7
18.7
360
5.5
6.4
6.5
90
0.36
0.30
0.41
コスト
180
270
0.35 0.52
0.39 0.41
0.30 0.40
360
0.69
0.40
0.58
表 6: 選択期間に関する実験の敏感度と特異度に関する結果
手法
複合
平均
線分
90
0.50
0.61
0.39
敏感度
180
270
0.52
0.33
0.39
0.40
0.57
0.47
360
0.23
0.54
0.38
90
0.87
0.86
0.89
特異度
180
270
0.87
0.77
0.99
0.95
0.94
0.85
360
0.61
0.83
0.56
表 7: 補間間隔に関する実験の正答率,サイズ,およびコストに関する結果.ただしデータ集合 i2,i4,i6,i8,お
よび i10 はそれぞれ 180BCp6i2,180BCp6i4,180BCp6i6,180BCp6i8,および 180BCp6i10 を表す
手法
複合
平均
線分
i2
85.7
84.6
85.7
正答率 (%)
i4
i6
i8
85.7 82.4
81.3
84.6 83.5
84.6
83.5 83.5
84.6
i10
82.4
82.4
79.1
i2
10.9
3.0
9.0
サイズ
i6
12.4
3.2
8.9
i4
10.9
3.0
9.0
i8
12.3
3.9
9.1
i10
12.4
5.1
11.2
i2
0.29
0.36
0.29
i4
0.31
0.36
0.32
コスト
i6
0.33
0.39
0.32
i8
0.33
0.36
0.30
i10
0.33
0.39
0.32
表 8: 補間間隔に関する実験の敏感度と特異度に関する結果
手法
複合
平均
線分
i2
0.57
0.43
0.57
i4
0.52
0.43
0.52
敏感度
i6
0.52
0.39
0.52
i8
0.52
0.43
0.57
i10
0.52
0.39
0.57
i2
0.96
0.99
0.96
i4
0.97
0.99
0.94
特異度
i6
0.93
0.99
0.94
i8
0.91
0.99
0.94
i10
0.93
0.97
0.87
表 9: データ集合 180BCp6i6 を用いたラプラス修正に関する実験結果.ただし C,A,および L はそれぞれ複合,
平均,および線分を表す
値
0
1
2
3
4
5
正答率 (%)
C
A
L
86.8 85.7
82.4
82.4 83.5
83.5
81.3 83.5
80.2
83.5 73.6
83.5
81.3 83.5
79.1
82.4 83.5
82.4
C
10.9
12.4
9.1
9.1
9.2
9.1
サイズ
A
10.8
3.2
3.0
2.5
2.6
2.7
L
7.4
8.9
9.0
9.0
8.9
8.9
C
0.28
0.33
0.36
0.30
0.36
0.35
コスト
A
0.29
0.39
0.39
0.63
0.39
0.39
L
0.33
0.32
0.38
0.34
0.39
0.37
C
0.57
0.52
0.48
0.57
0.48
0.48
敏感度
A
0.57
0.39
0.39
0.00
0.39
0.39
L
0.52
0.52
0.43
0.48
0.43
0.43
C
0.97
0.93
0.93
0.93
0.93
0.94
特異度
A
0.96
0.99
0.99
0.99
0.99
0.99
L
0.93
0.94
0.93
0.96
0.91
0.96
3.2.3
実験結果の分析
[11] の実験においては,本稿の実験よりも時系列データは長く,訓練データの例数は多い.さらに [11] におけ
る実験ではクラス比はほぼ等しい.われわれが提案した時系列決定木学習法は,このような問題に適していると
思われる.本節で行った分類学習問題は,肝生検後のデータを無視するために逆の性質を示し,平均値分割テス
トや線分分割テストのようにより頑健な手法が有利となっている.医学的観点からは肝生検後のデータを無視す
る方が妥当だが,われわれの時系列決定木学習法には逆効果であることが分かった.
複合分割テストと平均値分割テストを用いて構築された決定木は,LC を予測する葉を多く含む.これらの葉の
ほとんどは訓練例データを少数だけ含むため,テスト例が該当することは稀だった.平均値分割テストを用いる
決定木が特異度が高くコストが低いことは,そのような決定木が複合分割テストを用いた場合よりも LC を予測
する葉を多く含むためであるかもしれない.このことより,特異度を増やしコストを減らすために決定木の構造
を変更することを考えるに至った.
3.3
3.3.1
分割規準に関する実験
動機
表 10: 分割テストに関する 2 つの例
分割テスト
テスト 1
テスト 2
左
右
利得
利得比
6 ( 0, 6)
47 (42, 5)
113 (76, 37)
98 (34, 38)
0.077
0.122
0.268
0.160
前節の議論より,肝生検後のデータを用い,利得比の代わりに利得を用いることにした.前者は [11] のデータ
を使用することで実現した.後者は,表 10 におけるテスト 1 とテスト 2 に関し,分割テストとしての性質を考
慮した結果である.[9] では,利得比は片方の子ノードがきわめて少ない例数を含むアンバランスな分割テストを
選好する傾向があると述べられており,テスト 1 はこの場合に相当すると考えられる.2 つの評価規準を実験で
評価し,決定木の構造を調べる必要があると考えた.
3.3.2
実験
実験においては,標準例分割テスト,クラスタ例分割テスト,平均値分割テスト,Geurts の手法 [5],および
Kadous の手法 [6] を比較した.Geurts の手法では Nmax = 5 とし,Kadous の手法では離散化区間数とクラス
タ数を 5 とした.実験においては leave-one-out 法を用い,ラプラス修正は用いなかった.
実験結果を表 11 に載せ,標準例分割テスト,クラスタ例分割テスト,および平均値分割テストを用いて全ての
データから学習した決定木をそれぞれ図 3,4,および 5 に載せる.図示した条件は,該当手法においてコストが
最小となる場合を選択した.
表より,コストに関しては,標準例分割テストは利得比の方が性能が良く,クラスタ例分割テストと平均値分割
テストは利得の方が性能が良いことが分かる.前者は,アンバランスな分割を選ぶ傾向がある利得比と,標準例
との類似度に基づいて例集合を分割する標準例分割テストとの相性のためだと考えられる.同様に,後者はアン
バランスな分割を選ぶ傾向がない利得と,両方の子ノードにおける時系列データの形状を考慮するクラスタ例分
割テストとの相性のためだと考えられる.実際,標準例分割テストを用いると少数の訓練例を含む葉が出来,ク
ラスタ例分割テストを用いると比較的バランスがとれた分割が多いことが分かった.
表 11: 利得と利得比に関する実験結果
手法
標準例分割
クラスタ例分割
平均値分割
Geurts
Kadous
1-NN
評価規準
利得
利得比
利得
利得比
利得
利得比
利得
利得比
利得
利得比
正答率
H1
64.1
79.7
81.2
65.6
79.7
73.4
68.8
71.9
65.6
71.9
82.8
(%)
H2
78.1
85.9
76.6
73.4
79.7
70.3
70.3
67.2
62.5
65.6
84.4
サイズ
H1
H2
10.6
7.2
9.0
7.1
9.0
8.7
9.4
7.2
7.8
10.8
10.9
11.4
10.1
9.7
10.0
9.2
12.6
12.0
8.8
13.2
N/A N/A
Cost=0.18
similar
similar
LC=8
30
20
10
T-CHO
0
-10 (gradient)
-20
-30
-500 -250 0
250
コスト
H1
H2
0.34
0.25
0.24
0.18
0.20
0.23
0.36
0.31
0.22
0.24
0.31
0.39
0.28
0.32
0.29
0.29
0.38
0.41
0.29
0.27
0.19
0.18
480
460 CHE
440
420
400
380
360
-500 -250
敏感度
H1
H2
0.67 0.73
0.73 0.80
0.80 0.77
0.63 0.67
0.77 0.73
0.67 0.57
0.73 0.67
0.70 0.73
0.60 0.57
0.70 0.77
0.80 0.80
特異度
H1
H2
0.62 0.82
0.85 0.91
0.82 0.76
0.68 0.79
0.82 0.85
0.79 0.82
0.65 0.74
0.74 0.62
0.71 0.68
0.74 0.56
0.85 0.88
dissimilar
0
250
500
LC=15
dissimilar
500
2
1.5
I-BIL
1
similar
0
-500 -250
LC=6
dissimilar
0.5
0
250
500
non-LC=34
LC=1
図 3: 標準例分割を用いた決定木 (H2,利得比)
4
今後の計画
今後は肝生検前後のデータを用いて,誤分類コストなどを調べて行きたい.時系列決定木で特定される例外的
患者は,興味深い例外知識のスパイラル的発見に有用であると期待できる.さらに医療の専門家は,正確性を犠
牲にしても予測モデルの安定性を重視する傾向があるため,この要望に応える分類学習手法も考案したい.
参考文献
[1] H. Almuallim, Y. Akiba, and S. Kaneda: “On Handling Tree-structured Attributes in Decision Tree Learning”, Proc. Twelfth International Conference on Machine Learning, pp. 12–20, 1995.
[2] H. Almuallim, Y. Akiba, and S. Kaneda: “An Efficient Algorithm for Finding Optimal Gain-ratio Multiplesplit Tests on Hierarchical Attributes in Decision Tree Learning”, Proc. Thirteenth National Conference on
Artificial Intelligence, pp. 703–708, 1996.
[3] J. P. Bradford, C. Kunz, R. Kohavi, C. Brunk, and C. E. Brodley: “Pruning Decision Trees with Misclassification Costs”, Proc. Tenth European Conference on Machine Learning (ECML), pp. 131–136, 1998.
[4] L. Breiman, J. Friedman, R. Olshen, and C. Stone: Classification and Regression Trees, Chapman and
Hall, Belmont, California, 1984.
Cost = 0.20
180
160
140
120
100
80
140
PLT-275 non-LC=1
LC=21
120
100
-500 -250
8
7.8 TP-37
7.6 non-LC=24
7.4
7.2
7
6.8
6.6
-500 -250 0
160
PLT-37
0
250
500
-500 -250
0
250
500
TP-206
7.8
7.4
7
6.6
250
500
110
100
GPT-913
90
LC=7
80
70
60
50
40
-500 -250 0
-500 -250
0
250
500
90
GPT-925
70
50
30
10
-500 -250
250 500
0.8
0
T-BIL-278
0.7 non-LC=9
0.6
0.5
0.4
-500 -250
0
250
500
250 500
0.9
0.8 T-BIL-758
0.7 LC=2
0.6
0.5
0.4
0.3
0.2
-500 -250 0
250
500
図 4: クラスタ例分割を用いた決定木 (H1,利得)
Cost = 0.22
CHE
< 207.83
>= 207.83
LC=15
T-BIL
< 0.96
>= 0.96
GOT
< 111.07
non-LC=32
LC=4
>= 111.07
non-LC=1
LC=8
non-LC=1
LC=3
図 5: 平均値分割を用いた決定木 (H1,利得)
[5] P. Geurts: “Pattern Extraction for Time Series Classification”, Principles of Data Mining and Knowledge
Discovery (PKDD), LNAI 2168 , pp. 115–127, 2001.
[6] M. W. Kadous: “Learning Comprehensible Descriptions of Multivariate Time Series”, Proc. Sixteenth
International Conference on Machine Learning (ICML), pp. 454–463, 1999.
[7] E. J. Keogh: “Mining and Indexing Time Series Data”, Tutorial at The 2001 IEEE International Conference
on Data Mining (ICDM), http://www.cs.ucr.edu/%7Eeamonn/tutorial on time series.ppt, 2001.
[8] S. K. Murthy: “Automatic Construction of Decision Trees from Data: A Multi-disciplinary Survey”, Data
Mining and Knowledge Discovery, Vol. 2, No. 4, pp. 345–389, 1998.
[9] J. R. Quinlan: C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, Calif., 1993.
[10] F. Takechi and E. Suzuki: “Finding an Optimal Gain-ratio Subset-split Test for a Set-valued Attribute in
Decision Tree Induction”, Proc. Nineteenth International Conference on Machine Learning, pp. 618–625,
2002.
[11] Y. Yamada, E. Suzuki, H. Yokoi, and K. Takabayashi: “Decision-tree Induction from Time-series Data
Based on a Standard-example Split Test”, Proc. Twentieth International Conference on Machine Learning
(ICML), pp. 840-847, 2003 (erratum: http://www.slab.dnj.ynu.ac.jp/erratumicml2003.pdf).
2.3.9 多面的マイニングによる肝炎データの分析(A02-07-3)
2.3.9 多面的マイニングによる肝炎データの分析 (A02-07-3)
概要
1
一般的なデータマイニング手法は, 一つのデータソースに対し, 一面的な分析のみを行う. しかし, それぞれの手
法は各々が得意とする分野・データ形式があり, この問題を解決するために, 複数のデータベースを組み合わせた
マルチデータベースマイニング, 複数のエージェントを用いた多視点多面的分析が必要である.
慢性肝炎患者に対し, インターフェロン投与による治療を行う場合には, \どのような病状のときに投与すると肝
炎が治るか", \どのような検査項目を重点的に調べる必要があるか" といったことを知ることで, 患者の負担を軽
減することができる. 1 つ目は肝炎が治るかを示す属性値学習, 2 つ目は特に検査が必要となる属性を示す属性間
のオーダー関係を表している. しかし, これらはマイニングの目的が異なり, ひとつのマイニング手法だけでは知
ることができない. そこで, 我々は分類ルールを GDT-RS [1], オーダー関係をオーディングルール [2], 特異性指
向マイニング [3] のそれぞれの手法を用いることにより, それぞれのルール発見を行う.
投与を開始する前に行った患者の血液検査の結果に対し前処理を行い, それぞれの手法に適用した. 1 つ目の
GDT-RS を用いた手法では, 治療が有効かどうかを知ることができるルールの導出を試みる. 2 つ目のオーディン
グルールを用いた手法では, どの属性値が C 型肝炎の治療に大きく影響を与えているかを調べる.
前処理
2
2.1
検査データの抽出とクラス分け
検査データの抽出条件は, 以下のとおりである.
² IFN を投与されたことがある慢性 C 型肝炎患者である
² 肝炎ウイルスの有無による IFN の効果判定結果が存在する患者である
² IFN 投与前 1 年間に検査データが存在する患者である
以上の条件より抽出された患者は 197 名である.
また, 使用する条件属性は, 表 1 に示す 11 の検査項目である.
表 1: 条件属性
T-CHO
T-BIL
CHE
D-BIL
ALB
I-BIL
WBC
HGB
GPT
TP
PLT
使用する決定クラスは, 肝炎ウイルスの存在の有無による IFN 効果判定結果である. これを用いて, 抽出された
197 名の患者を表 2 のようにクラス分けをした.
2.2
条件属性値の評価
条件属性の評価を, 以下のように行った.
1. 各患者の IFN 投与前の 1 年間に存在する検査を前半・後半に分割し, グループ分けをする (図 1).
クラス
表 2: 決定クラス
IFN による治療後の患者の状態
属する患者数
R
N
ウイルスの消滅が確認された
ウイルスの存在が確認された
58 名
86 名
?
ウイルスの動向不明・データの信頼性欠如
53 名
2. 前半の検査値の平均値と後半の検査値の平均値の差の絶対値が閾値を越えた場合 up, down(上がった, 下がっ
た) と評価し, 閾値を越えなかった場合 {(変化なし) と評価する. また, 検査していない場合や, 検査回数が 1
回しかない時は, \?" と評価する.
図 1: 条件属性値の評価方法
閾値については, 以下のように決めた.
² GPT 以外の閾値
GPT 以外の閾値は, 各検査値の正常範囲の 10%とした. 肝炎患者の GPT の検査値は, その変動の大きさが
正常範囲をはるかに越えてしまうので, 後述の方法で閾値を求める. 条件属性値の評価のために用いた閾値
を表 3 に示す.
² GPT の閾値
GPT では, 図 2 に示すように, 各患者について隣り合う 2 回の GPT 検査値の差の標準偏差を求め, 各患者
につき 1 つずつ求められた標準偏差の標準偏差を閾値とする.
図 2: 差の標準偏差
GPT 検査において, 抽出した患者数 M , (患者により異なる) 検査回数 tm (1 · m · M ), 隣り合う 2 回の
検査値の差 dmi (1 · i · tm ¡ 1) であるとする. このとき, 閾値を以下のように定義する.
v
u
M
u 1 X
2
GPT の閾値 =t
(sm ¡ s)
M m=1
(1)
ここで, sm (1 · m · M ) は, 患者一人一人について求めた検査値の差 dmi の標準偏差であり, s は, sm の平
均値である.
最終的に, 表 3 のように閾値を設定した.
表 3: 条件属性評価のための閾値
T-CHO > 9.5
CHE > 25
ALB > 0.12
T-BIL > 0.1
D-BIL > 0.03
I-BIL > 0.07
WBC > 0.5
HGB > 0.6
GPT > 54.56
TP > 0.17
PLT > 20
主要成果
3
3.1
GDT-RS が導出したルール
正確率 60%で実験を行った GDT-RS の実行結果のうち, ルールの条件部の属性数が 3 つ以下であるものを抜粋
した. これは, 条件部に含まれる属性数が多くなると分かりにくいルールになってしまうことを考慮した結果であ
る. 表 4, 表 5 は, それぞれ決定クラス R, N に関するルールである.
表 4: 決定クラス R に関するルール (一部)
ID
rule 001
rule 002
rule 003
rule 004
ルール & 正確率, 一般化の強さ s
GPT(up) & (10/16)=62%, s = 16 ¤ (3=E)
T-CHO(down) ^ PLT(down) & (6/9)=66%, s = 9 ¤ (9=E)
T-BIL(up) ^ GPT(down) & (3/4)=75%, s = 4 ¤ (9=E)
TP(down) ^ GPT(down) & (3/4)=75%, s = 4 ¤ (9=E)
表 5: 決定クラス N に関するルール (一部)
ID
rule 101
rule 102
rule 103
rule 104
rule 105
rule 106
rule 107
rule 108
3.2
ルール & 正確率, 一般化の強さ s
D-BIL(down) & (26/43)=60%, s = 39 ¤ (3=E)
T-CHO(down) ^ I-BIL(down) & (7/11)=63%, s = 11 ¤ (9=E)
I-BIL(down) ^ WBC(down) & (7/8)=87%, s = 8 ¤ (9=E)
D-BIL(up) ^ PLT(down) & (4/6)=66%, s = 6 ¤ (9=E)
TP(up) ^ I-BIL(down) & (5/6)=83%, s = 6 ¤ (9=E)
TP(up) ^ T-BIL(down) & (4/6)=66%, s = 6 ¤ (9=E)
TP(up) ^ PLT(down) & (4/5)=80%, s = 5 ¤ (9=E)
CHE(up) ^ T-BIL(down) & (2/4)=50%, s = 4 ¤ (9=E)
後処理の結果
後処理として, GDT-RS が発見したルールがカバーする患者を調べた. これに基づいて, 行に患者 ID, 列にルー
ルを並べた表を作り, ルールをカバーする患者が一目でわかるように整理した (表 6). この処理によって, あるルー
ルをカバーする患者群が明確になり, その患者群に何か特徴が見いだせることを期待できる.
表 6: 決定クラス R のルールをカバーする患者
Rule ID
rule 001
rule 002
rule 003
rule 004
158
909
91
431
37
351
923
351
592
71
Positive
534
940
650
700
730
患者 ID
547
778
942
703
732
801
35
913
169
122
122
Negative 患者 ID
188
273
452
623
712
712
952
また, Positive 患者 ID はポジティブインスタンスをカバーする患者で, Negative 患者 ID はネガティブインスタ
ンスをカバーする患者である.
後処理の例として, クラス R に関する後処理の結果を表にしたものを抜粋し, 表 7 に示す. この表の行は患者 ID,
列はルール ID を表す. 行と列が交わった所にある \★" と \☆" は, ルールがカバーする患者を示す. \★" は「ポ
ジティブインスタンス」, \☆" は「ネガティブインスタンス」をカバーする患者を表している. この表からは, 例
えば rule 001 を満たす患者は f158, 778, 801, 909, 923, 940, 942g であることがわかる.
表 7: クラス R に関する後処理
患者 ID
35
37
71
78
91
122
158
169
¢¢¢
778
801
909
913
923
¢¢¢
940
942
¢¢¢
rule 001
☆
rule 002
rule 003
rule 004
★
★
★
☆
☆
¢¢¢
¢¢¢
¢¢¢
¢¢¢
¢¢¢
¢¢¢
¢¢¢
¢¢¢
★
¢¢¢
★
★
★
☆
¢¢¢
★
★
¢¢¢
★
★
¢¢¢
専門家による評価
4
GDT-RS により導出されたルールと後処理の結果の評価を専門家に依頼した. 今回は, 発見したルールから 1 つ
の仮説を得ることができた. ルールは, 納得性と新規性を 1∼5 の 5 段階(数字が大きいほど興味がある)で評価
していただいた. 後処理は, その結果から何かわかることがあるかを報告していただいた. 以下に, 専門家のコメ
ントを要約する.
4.1
ルールの評価
サポートの多いルール(クラス R の rule 001 とクラス N の rule 101)から言えることは, GPT が上がっている
(肝炎の悪化を示す)時期に IFN を投与した例に奏功例が多く, D-BIL が下がっている時期に IFN を投与した例
に無効例が多いということである.
IFN の奏功率についてはっきりと分かっているのは, \肝炎ウイルスの型によって違いがある", \肝炎ウイルス量
が多い例は効きにくい" という 2 点であり, rule 001 と rule 101 は既存の医学知識に抵触しないと考えられる.
この 2 つのルールからは, 「IFN は肝炎の炎症が強いときほど効く」という仮説が形成される. この仮説に基づ
いてルールを評価すると, クラス R では肝機能悪化を示すルールの納得性の評価が良く, クラス N では肝機能改善
を示すルールの納得性の評価が良くなる. したがって, 表 8, 表 9 のように評価できる. クラス N で納得性の評価
が 2 であるルールは, 肝機能の改善と悪化の両方の指標が示されている.
表 8: 決定クラス R に関するルールの評価
Rule ID
rule 001
rule 002
rule 003
rule 004
ルール
GPT(up)
T-CHO(down) ^ PLT(down)
T-BIL(up) ^ GPT(down)
TP(down) ^ GPT(down)
正確率
(10/16)=62%
(6/9)=66%
(3/4)=75%
(3/4)=75%
一般化の強さ
s = 16 ¤ (3=E)
s = 9 ¤ (9=E)
s = 4 ¤ (9=E)
s = 4 ¤ (9=E)
納得性
4
3
4
4
新規性
5
5
5
5
納得性
4
2
2
1
3
3
2
3
新規性
5
3
3
1
4
4
3
4
表 9: 決定クラス N に関するルールの評価
Rule ID
rule 101
rule 102
rule 103
rule 104
rule 105
rule 106
rule 107
rule 108
4.2
ルール
D-BIL(down)
T-CHO(down) ^ I-BIL(down)
I-BIL(down) ^ WBC(down)
D-BIL(up) ^ PLT(down)
TP(up) ^ I-BIL(down)
TP(up) ^ T-BIL(down)
TP(up) ^ PLT(down)
CHE(up) ^ T-BIL(down)
正確率
(26/43)=60%
(7/11)=63%
(7/8)=87%
(4/6)=66%
(5/6)=83%
(4/6)=66%
(4/5)=80%
(2/4)=50%
一般化の強さ
s = 39 ¤ (9=E)
s = 11 ¤ (9=E)
s = 8 ¤ (9=E)
s = 6 ¤ (9=E)
s = 6 ¤ (9=E)
s = 6 ¤ (9=E)
s = 5 ¤ (9=E)
s = 4 ¤ (9=E)
後処理の評価
導出されたルールの中で, 特にクラス N に多く見られるビリルビン (T-BIL,D-BIL,I-BIL) をサポートした患者
は, ある程度のリンクが見られた. T-BIL=D-BIL+I-BIL という関係から, 三者が絡んだルールではある程度サポー
トする集団の交わりがあり得ることは, 必然性がある.
また, 充分とは言えないが, 「ルールが示す医学的背景 (肝炎の改善・悪化) が患者の状態と矛盾しないのか」と
いう命題を検討するため, 表 10 のように肝機能の改善, あるいは悪化を示すのか, 両方のパラメータが含まれてい
るのかを基準にルールを分けてみた1 .
表 10: 導出されたルールの分類
クラス R
クラス N
rule
rule
rule
rule
007
011
101
108
肝炎改善
rule 008
rule 105
rule 110
rule 009
肝炎悪化
rule 001
rule 002
rule 106
rule 104
rule 109
rule
rule
rule
rule
003
006
102
111
改善・悪化
rule 004
rule 010
rule 103
rule 005
rule 107
その結果, ルールの条件に合致した集団が交わっているところではルールに同じ条件文が含まれている場合が多
く, 条件文上では分からない医学的な背景は必ずしも一致するわけではなかった. これは, ルールが間違っている
わけではなく, 「肝炎の改善・悪化」という大雑把なクラス分けではルールの統合ができないということを示して
いるのかもしれない.
例えば, 白血球とアルブミンの検査値の低下は肝機能悪化を示すが, 恐らく両者の検査値の低下を引き起こすメ
カニズムに関しては, あまり関連性がないのではないかと思われる. 一方, 白血球と血小板は同じ「血球成分」な
ので, もしかすると関連性があるかもしれない. また, コレステロールとアルブミンは肝臓が作るタンパクに関連
しているので, 相関性 (検査値の上下が一致する) はある. しかし, 両者を規定するのは肝臓だけではなく, コレス
テロールは食生活, アルブミンは腎臓などとも関連しており, そちらの病気がある患者であれば, この 2 つでさえ
相関しない. このような観点から言うと, ビリルビンのような数学的関連性のあるものについてははっきりと相関
性があるが, それ以外のパラメータについて相関性を見いだすのは簡単ではないことが分かった.
1 実際には,
表 7 のように後処理された表上で分類されている.
ただし, 患者集団は同種な集団でないのはある程度仕方がないことである. その集団の中で \「肝炎の改善・悪
化」というような大雑把な分け方であるが, 統計的に妥当性がありそうなルールを見いだす手法", \そのような大
雑把な分け方では十分ではないことを示す手法" の 2 つが必要なのではないかと考えられる.
オーディングルールを用いた分析
5
オーディングルールマイニングとは, 背景知識とする「オーダー関係」を用いて, オーディングルールを発見す
る手法である. 発見されたオーディングルールを用い, あるクラスを決定するための重要属性を知ることができる.
例えば T-CHO ならば, より高いほうがいいためオーダー関係は 1 Â 0 のようになる. 決定クラスは, R(response),
N(no response) の二種類でありオーダー関係は R Â N となる. これらのオーダー関係を利用すると, バイナリ情
報テーブルを作成することができる. このバイナリ情報テーブルから, GDT-RS を用いて仮説の生成をするが, こ
れは class=0(N) のときと 1(R) のときのオーディングルールを生成することになる.
class=1 のときに発見された仮説は, よりインターフェロン投与の効果が期待できると判断できる. また, ある属
性に関する仮説が多数出た場合は, その属性は決定属性を決めるために重要であるといえる. 同様に, ある属性が
含まれるルールが全くでない場合は, 決定属性に影響を及ぼしていないため必要がないのではないのかと推測する
ことができる.
GDT-RS で得た仮説には, そのまま有用な仮説も存在するが, バイナリ化したために, 仮説として使えないもの
も存在する. そこで, 全ルールの中にどれくらい属性が含まれているかを計算し, その割合からどの属性が重要か
を調べることも必要である.
この手法により, いくつかの仮説を得たが, まだ十分な解釈が行えていない.
LC, 非 LC の分類モデル
6
現在, 横浜国立大学の鈴木らと共同で LC と非 LC を分ける知識 (モデル) の作成を行っている. このモデルでは
特に, 検査 \期間", 検査 \間隔" を考慮し, 検査回数が多かったり, 間隔が短いものほど正確に分類できるものを目
指している. また, システムを利用するのはコンピュータについて詳しくない人であると想定されるため, 表現さ
れる知識の形式は, \正確性", \妥当性"", \わかりやすさ" が求められる.
このモデルでは, 各患者の例外性や特異性を考慮し, 目標知識を洗練して行う. 各患者の分類は, 誤分類コストを
最小化するように, Naive Biyes を用いて事後確率から推定する. しかし, LC 患者を見逃すことはその患者の命に
関わることなので, 可能な限り見逃さないようにする必要がある. 逆に, 間違えて LC と判断する (疑いがあると判
断する) 分には問題ないと考えられる.
今後の予定
7
前処理において, 検査値の評価のための閾値, 特に GPT における閾値を式 (1) で求めたがこの方法で妥当であ
るか検討する必要がある. また, クラス分けについては, 専門家の評価にもあったように, 「肝炎の改善・悪化」と
いう大雑把なもので良いのか, もう少し細かく分類するとしたら, どこまで細かく分類すれば良いのかを検討して
いくことが大切な課題である. 一方, 後処理に関しては, 発見されたルールから, ルール生成に利用されたデータに
関する表の他に, より良い表などを作る方法考える.
オーディングルールに関しては, 得た仮説に関して十分な解釈をし, GDT-RS 単体で得られた知識との比較を行
う. また, それぞれから得られた知識, 特異性指向マイニングを元に LC, 非 LC 患者の分類モデルの生成を行って
いく.
参考文献
[1] 鍾 寧, 董 菊珍, 大須賀 節雄, \確率的ラフ帰納学習システム GDT-RS による共通データからの知識発見", 人
工知能学会誌 Vol.15, No.5 (2000) 774{781.
[2] Zhong, N., Yao, Y.Y., Dong, J.Z., Ohsuga, S., \Gastric Cancer Data Mining with Ordered Information", J.J.
Alpigini et al(eds.) Rough Sets and Current Trends in Computing, Lecture Notes in Arti¯cial Intelligence
2475, Springer-Verlag (2002) 467{478.
[3] Zhong, N., Yao, Y.Y., Ohshima M., \Peculiarity Oriented Multidatabase Mining", IEEE Transactions on
Knowledge and Data Engineering, World's Computer Society, Vol.15, No.4 (2003) 952{960.
2.3.10 文の役割を考慮した Medline アブストラクトからの情報検索
2.3.10 文の役割を考慮したMedlineアブストラクトからの情報検索(A02-08) (A02-08)
1
概要
科学・技術文献の増加に伴い,適切な文献を効率良く検索するシステム、また、新しい知見や知識を抽出する
ことのできるシステムの必要性が増している.論文アブストラクトや,論文全体を検索可能な NLM PubMed [8]
や NEC CiteSeer [5] のようなオンライン検索サービスがより一般的になってきている.
PubMed では,Medline アブストラクト [7] の全文検索が可能であり,タイトルや発行年月日などを限定するな
ど,検索結果に対する様々な絞り込み方法がある.これらの絞り込み手法はアブストラクト内のテキスト情報では
なく,アブストラクト外にある情報を用いている.本研究では,アブストラクト内から有用な医学知識を取り出
す手法の構築を目指して,アブストラクトのテキスト構造解析,および,文解析の自動化について研究を行った.
文解析については,新しい領域のアブストラクトの文解析に柔軟に対応するため,単語係り受け解析済みの文
集合を訓練データとして,単語係り受け解析を行う統語解析システムの提案を行った.
アブストラクトの文章解析については,各文の役割を自動推定するシステムを構築した.これにより,文の役割
を考慮したアブストラクトの検索を行うことのできるシステムを開発した.本システムでは,アブストラクトの一
部分に限定した検索を行なうことが可能になる.検索対象の部分とは,研究背景,研究の目的,実験方法,結論
など,アブストラクトを構成する各文が果たす意味的役割を指す.ユーザの興味が特定の役割(セクション)に限
られているならば,他のセクションに関する検索結果はユーザにとって無駄な情報となる.セクションを限定す
ることにより,ユーザは大量の検索結果を効率的に絞り込むことができる.例えば,医師が病気に対するある薬
品の効果が知られているかどうかを調べる時,結果や結論セクションのみを対象として,病名と薬品名が共起す
る部分を検索すればよい.このような検索・絞り込みは単に検索語を追加するだけでは不可能である.また,検
索語の追加のみでは,多くの場合ユーザはどのようなキーワードを追加すれば,効果的に絞り込みが行なえるか
がわからないという問題もある.文の役割の指定を行なうことにより,ユーザの求める情報の検索を効率的に行
なうことができる.
Medline データベース中の全ての文に役割ラベルを人手で付与することは,現実的ではないため,このラベルの
付与を自動的に行なう方法を考えなければならない.我々の以前の報告 [11, 14] では,テキスト分類の手法を用い
たラベルの推定の結果を示した.本節では,Medline 文書検索システムという応用に焦点を当てたその後の結果を
報告する.
本節の主な話題は次のとおりである.
1. 文の分類器の訓練のためのデータを人手をできるだけ介さずにどのようにして得るか.
2. 文の役割を限定した検索の際,どのセクションをユーザに提示するべきか.これは文分類の精度と有用性は
トレードオフの関係にあるためである.
3. 文分類にはどのような素性が有効であるか.
2
学習に基づく単語係り受け解析システム
新しい領域のアブストラクト内の文解析を柔軟に実行できるようにするため,単語係り受け解析済みの文集合
を訓練データとして,単語係り受け解析を行う統語解析システムの提案を行った.訓練データとしては,Penn
Treebank の文を単語係り受け関係に変換したものを用意し,そのデータから隣接する単語の間に係り受け関係が
存在するかどうかを学習する Support Vector Machine を構築した.その結果,単語係り受けレベルで 90%以上の
表 1: 2002 年度の Medline における構造化アブストラクトと非構造化アブストラクトの比
# of abstracts /
%
Structured
Unstructured
Total
374,585 /
6.0%
5,912,271 / 94.0%
11,299,108 / 100.0%
表 2: 2002 年度の Medline での構造化アブストラクト中の各セクションの頻度
Sections
# of abstracts # of sentences
CONCLUSION(S)
RESULTS
METHODS
BACKGROUND
OBJECTIVE
..
.
352,153
324,479
209,910
120,877
165,972
..
.
Total
246,607
1,378,785
540,415
264,589
166,890
..
.
2,597,286
精度を達成できることを確認した [13].これにより,文に対する単語係り受けデータを蓄積することにより,新た
な領域の文解析を精度よく解析するシステムを構築することができた.
3
主要成果
Medline アブストラクトの各文の役割推定,および,その情報を利用した論文概要検索システムについて述べる.
3.1
Medline アブストラクトに関する統計
Medline 文書検索システムの構築には,まず,各文を役割に応じたセクションに分類する必要がある.Medline
データベース中には,“構造化 (structured)” アブストラクトと呼ばれる,各段落の先頭に BACKGROUND や
CONCLUSIONS といったその段落の役割を明記したものが一部ある.この構造化アブストラクトを訓練データに
用いて文分類器を構築し,残りの非構造化アブストラクトを分類を行なうという手法をとる.しかし,訓練デー
タによって分類器の性能が決まるため,そのデータの質を分析する必要がある.以下では Medline に含まれる構
造化アブストラクトの統計と,検索システムへの影響を述べる.
3.1.1
構造化アブストラクト
“構造化アブストラクト” は,1987 年の提案 [1] 以来,多くの生物・医学雑誌が採用してきた.これらの雑誌は
著者に対して,アブストラクトを BACKGROUND や OBJECTIVES, CONCLUSIONS のようなセクションに分
けて書くことを要求している.このセクションの構成は雑誌によって異なり,場合によっては著者に任されてい
る.このような構造化アブストラクトは,各セクションの先頭にセクション名が大文字で書かれているため,後
に続く文のカテゴリ(役割)は容易に同定できる.しかし,Medline データベース中の非構造化アブストラクトの
量は構造化アブストラクトの量をはるかに上回っている (表 1).構造化アブストラクトに現れる各セクション名の
頻度と,その構成の頻度を表 2,3 に示す.
表 3: セクション構成の頻度 (アブストラクト数) と構造化アブストラクトの中で占める割合.‘∗’ と ‘†’ は 3.2.3 節
の実験で用いる系列
Rank
#/
%
Section sequence
1
∗2
61,603 / 16.6%
54,997 / 14.7%
BACKGROUND / METHOD(S) / RESULTS / CONCLUSION(S)
OBJECTIVE / METHOD(S) / RESULTS / CONCLUSION(S)
∗3
4
†5
25,008 /
11,412 /
8,706 /
6.6%
3.0%
2.3%
PURPOSE / METHOD(S) / RESULTS / CONCLUSION(S)
PURPOSE / MATERIALS AND METHOD(S) / RESULTS / CONCLUSION(S)
BACKGROUND / OBJECTIVE / METHOD(S) / RESULTS / CONCLUSION(S)
6
7
∗8
8,321 /
7,833 /
7,074 /
2.2%
2.1%
1.9%
OBJECTIVE / STUDY DESIGN / RESULTS / CONCLUSION(S)
BACKGROUND / METHOD(S) AND RESULTS / CONCLUSION(S)
AIM(S) / METHOD(S) / RESULTS / CONCLUSION(S)
9
10
..
.
6,095 / 1.6%
4,087 / 1.1%
..
..
.
.
Total
374,585 / 100.0%
3.1.2
PURPOSE / PATIENTS AND METHOD(S) / RESULTS / CONCLUSION(S)
BACKGROUND AND PURPOSE / METHOD(S) / RESULTS / CONCLUSION(S)
..
.
セクションタイトルと文役割
大部分のアブストラクトが非構造化アブストラクトであるため,このようなアブストラクトの各文に自動的に
ラベルを付与するというタスクが考えられる.このラベルの自動付与というタスクは,アブストラクト中の各文
を一定のセクション(カテゴリ)集合に分類するという,テキスト分類問題として定式化できる.
このとき,ユーザに提示し,検索を限定するセクション(カテゴリ)をどのように決めるか,という問題があ
る.構造化アブストラクトの文を分類器の訓練データとして用いるため,構造化アブストラクトに出現するセク
ション名を選び出せばよいが,2002 年度の MEDLINE 中には 6,000 種以上のセクション名が出現する.
ここで,ユーザに提示するカテゴリをクラスとし,アブストラクト中に出現するセクション名をヘディングと呼
ぶことにする.ユーザに提示するクラスの数はシステムの利便性を損ねない程度に少なくなければならない.ク
ラスの数を少なくすると,クラス名と構造化アブストラクトに現れるヘディングが一致しないという問題が起き
るが,クラス名と一致しないヘディングには “OBJECTIVES” と “PURPOSE” のように同じ役割と判断するこ
とで解決できるものもある.しかし,“BACKGROUND AND PURPOSES” のようなヘディングがあり,もし,
ユーザに BACKGROUND と PURPOSES を別に提示する場合にはこのセクションに属する文を分類しなければ
ならない.このように,構造化アブストラクトの文であっても,ユーザに提示するクラスと異なるヘディングを
持つものに対しては非構造化アブストラクトと同じようにラベルの付与を行なわなければならない.
さらに,ヘディングがクラス名に一致するような場合でも,構造化アブストラクトの文を分類しなければなら
ない場合もある.上で述べた OBJECTIVE(または PURPOSE)のヘディングを持つものも,各文の分類を行な
うべきクラスの一つである.以下でそのような状況の分析を行なう.
表 3 で示したように,最も頻度の高いヘディングの系列は (1) BACKGROUND, METHOD(S), RESULTS, and
CONCLUSION(S) で,次いで,(2) OBJECTIVE, METHOD(S), RESULTS, and CONCLUSION(S) となって
いる.(1) と (2) の対応するセクションを調べてみると,(1) の BACKGROUND セクションと (2) の OBJECTIVE
セクションには,ほとんど研究の背景と目的の両方の内容を含んでいた.
この主張を確認するため,各セクションに含まれる文の Gibson’s information radius (Jensen-Shannon divergence) [6] を測ってみた.二つの確率分布 p(x) と q(x) の information radius DJS は Kullback-Leibler divergence
DKL を用いて以下のように定義できる.
表 4: 各セクション間の information radius
Class
BACKGROUND
RESULTS
CONCLUSION(S)
0.3064
0.2916
0
0.3152
0.3256
0.2168
0.2023
0.2370
0.3201
0.3152
0.3256
0.2168
0.2023
0.2370
0.3201
(b) Word unigrams and bigrams
BACKGROUND OBJECTIVE METHODS
0
0.2703
0.2703
0
RESULTS
CONCLUSION(S)
BACKGROUND
OBJECTIVE
METHODS
RESULTS
CONCLUSIONS
Class
(a) Word bigrams
OBJECTIVE METHODS
0
0.1809
0.3064
BACKGROUND
OBJECTIVE
0.1809
0
0.2916
0
0.1099
0.1099
0
0.2114
0.1965
0.2171
0.2221
0.1202
0.1465
METHODS
RESULTS
0.2114
0.2171
0.1965
0.2221
0
0.1397
0.1397
0
0.2201
0.1847
CONCLUSIONS
0.1202
0.1465
0.2201
0.1847
0
DJS (pkq)
=
=
µ °
¶
µ °
¶i
1h
° p+q
° p+q
DKL p °
+ DKL q °
2
2
2
"
#
X
X
1
p(x)
q(x)
¢
¢
p(x) log ¡
+
q(x) log ¡
.
2 x
p(x) + q(x) /2
p(x) + q(x) /2
x
(1)
表 4 では,BACKGROUND と OBJECTIVE に属する文の単語 2-gram の分布は単語 1-gram と 2-gram の組合
せと同程度似ていることがわかる.さらに,この二つのクラス間の距離は他のクラスとの距離に比べて小さいこ
とがわかる.これから,この二つのセクションをそれぞれ別のクラスとみなすべきではできないと結論できる.
3.2
3.2.1
分類器の設計
カテゴリの種類と数
以前の報告 [11, 14] で,我々は BACKGROUND, OBJECTIVE, METHOD(S), RESULTS, CONCLUSION(S)
の 5 つのクラスを扱った.これらのクラスは,各ヘディングの出現頻度によって決定した (Table 2).このクラス
の設定は,システムの有用性においても,クラス数の限定で生じる曖昧性においても妥当だと考える.上で述べ
たように,BACKGROUND と OBJECTIVE のヘディングは各文のクラスラベルとしては信頼性に欠けるが,こ
の 2 つをまとめて 1 つのクラスにすることは適当ではない.なぜなら,それぞれのアブストラクトの構造上の役
割の違いから,1 つにまとめることがシステムの有用性に大きく影響を与えると考えるためである.
3.2.2
Support Vector Machine と属性情報
以前の報告と同様に,soft marin を用いた Support Vector Machines (SVMs)[2, 12] を分類器として用いた.ま
ず,BACKGROUND, OBJECTIVE, METHODS, RESULTS, CONCLUSIONS の各クラスに対して,そのクラ
スか、それ以外かを分類する分類器を構築した.これは,2 値分類器である SVM を,このタスクである 5 クラス
の分類に適用するためである.構築した複数の分類器を以下のように組み合わせる.テスト事例 x は SVM の出力
する fi (x) の値の最も大きいクラス i に決定される.fi (x) は i 番めのクラスを決定する SVM の決定関数であり,
最適化された分離平面からの距離を正規化したものを出力する.
学習,分類に用いる素性は,単語と単語 2-gram を用いた.以前の報告 [11, 14] では,連続・非連続単語列をパ
ターン素性として用いたが,今回は単語 2-gram をパターン素性のかわりに用いた.これは,大量の文書を処理す
るにはパターン素性を選び出すのは時間がかかり過ぎるためである.
3.2.3
文脈情報
アブストラクト中の一連の文にラベルを付与するため,属性としてに文脈情報を追加することにより精度の向
上が期待できる.たとえば,実験結果 (RESULTS) は実験の設定の記述 (METHODS) の前に記述されることはな
いため,RESULTS のラベルが付与されるためには,それより前に METHODS のラベルが付与された文がある,
ということが条件となる.また,同じクラスに属する文は高い確率で連続していると予想される.
どのような文脈情報がよりよいかを調べるため,以下の文脈情報を用いて実験を行なった (Section 3.3.1).
1. 前 1 文のクラス
2. 前 2 文のクラス
3. 後 1 文のクラス
4. 後 2 文のクラス
5. アブストラクト中の相対位置
6. 前文の素性
7. 後ろの文の素性
8. 前後の文の素性
9. 前文までにどのクラスが何文連続したか
3.3
実験
本節では,文にクラスラベルを付与するための分類器の性能を調べるために行なった予備実験について述べる.
3.3.1
文脈情報に関する実験
予備実験に用いたデータは,2002 年度の Medline アブストラクトデータを用いた.アブストラクトが OBJECTIVE(S), METHOD(S), RESULTS, CONCLUSION(S) の 4 つのセクションからなるものを対象に実験を行
なった.これは,最終的にシステムで用いる 5 つのクラスとは異なる.これは,表 3 では,BACKGROUND /
METHOD(S) / RESULT(S) / CONCLUSION(S) というヘディングの系列に次ぐものであるが,PURPOSE(S),
AIM(S) が OBJECTIVE(S) と同じ内容を持つと考えると,最も頻度の高いヘディング系列となるので予備実験と
して採用した.実験対象に用いたデータはヘディングの系列が以下のものである.
1. OBJECTIVE(S) / METHOD(S) / RESULTS / CONCLUSION(S),
2. PURPOSE(S) / METHOD(S) / RESULTS / CONCLUSION(S),
表 5: 文脈属性の違いによる精度実験
Accuracy (%)
sentence
abstract
(0)
Features
文脈情報なし
83.6
25.0
(1)
(2)
(3)
前 1 文のクラス
88.9
89.9
88.9
48.9
50.6
50.9
(4)
(5)
(6)
後 2 文のクラス
89.3
91.9
87.3
51.2
50.7
37.5
(7)
(8)
(9)
後ろの文の素性
88.1
89.7
90.6
39.0
46.4
50.9
前 2 文のクラス
後 1 文のクラス
アブストラクト中の相対位置
前文の素性
前後の文の素性
前文までにどのクラスが何文
連続したか
3. AIM(S) / METHOD(S) / RESULTS / CONCLUSION(S).
これらのアブストラクトに UIUC Sentence Splitter[9] を用いて文分割を行ない,記号を取り除き,数字を’#’ に
置き換えた.数字の置き換えは数字そのものではなく,数字の連続というのが分類に有効な手がかりになりうる
と考えたため行なった.また,文分割の結果,3 単語以内からなるような文が出現した場合は,文分割誤りととら
え,分割誤りを含むアブストラクトは学習・テストデータには用いなかった.その後,文の重複を除き,最終的
に 82,936 アブストラクトを得た.
その後,素性の数を減らすため,各クラスの 0.05%以上の文に含まれる連続 2 単語列を 9,078 種類の単語 2-gram
素性を用いた.また,単語素性として,データに出現する 104,733 単語を用いた.
訓練データとして,10,000 アブストラクト, 103,962 文(事例)を上記の構造化アブストラクトから無作為に抽
出し,テストデータとして,1,000 アブストラクト, 10356 文(事例)を残りから抽出した.
SVM のカーネル関数として多項 2 次カーネルを用い,最適な soft margin のパラメータ C を調節して,前に述
べた様々な文脈情報の属性を加えて実験を行なった.表 5 に結果を示す.
文単位での精度は文脈情報の違いはそれほど見られなかった.(1)–(9) のすべての文脈情報において 90%程度の
精度が見られ,(0) の文脈を用いない場合に比べ 4 から 8%程度精度が向上した.アブストラクト単位の精度は,ア
ブストラクト中の全ての文が正しく分類された時のみ,正解とした.文脈属性の追加により,最大 50% 程度の精
度が得られ,文脈情報なしの場合に比べ 25%の精度向上がみられた.最も精度のよい文脈情報の属性は (3),(4),
(5) であった.
3.3.2
Objectives と Background の区別
3.1.2 で述べたように,BACKGROUND と OBJECTIVE のヘディングはそのセクションに含まれる文のクラ
スラベルとしては信頼性に欠けている.つまり,BACKGROUND のヘディングをもつセクションの中の文には
OBJECTIVE に分類されるべきものが含まれており,その逆もまたある.しかし,単にこれらのクラスにまとめ
るこの 2 つをまとめて 1 つのクラスにすることは適当ではない.なぜなら,これらはのアブストラクトの構造上の
役割が異なるため,クラスを 1 つにまとめることによってシステムの有用性を大きく失うこととなるからである.
この問題を解決するため,2 クラスを分類する分類器を用いる.分類器の訓練に用いるデータは,構造化アブ
ストラクトのうち,表 3† のヘディング系列のように,BACKGROUND と OBJECTIVE の両方を含むものを用
いた.
BACKGROUND と OBJECTIVE の両方のヘディングを含む構造化アブストラクトを収集した結果,11,898 ア
ブストラクトを得,前の実験で行なったものと同様の前処理を施した結果,BACKGROUND,OBJECTIVE セク
ションの合計で 34,761 文を得た.SVM を用いて分類を行ない,10 分割交差検定の結果,文単位での F 値は 96.4
であった (precision 95.6%,recall 97.2%).SVM には多項 2 次カーネルを用い,素性は,単語と 2-gram のみを用
い,文脈情報の属性は用いなかった.
3.4
検索システム
3.2.2 節で述べた属性集合と,3.2.3 節で述べた文脈属性のうちの (5) を用いて,BACKGROUND, OBJECTIVES,
METHODS, RESULTS, CONCLUSIONS の 5 つのクラスに分類するための 5 つの SVM 分類器を構築した.こ
れらの分類器を用いて,2003 年度の MEDLINE データのうち,2001 年から 2002 年に発行された非構造化アブス
トラクトの各文にラベルを付与した.また,構造化アブストラクトのうち,ヘディングがユーザに提示する 5 の
クラスのどれにも該当しないセクションの文については,非構造化アブストラクトと同じ方法でラベルを付与し
た.また,BACKGROUND と OBJECTIVE(またはそれ相当の)ヘディングを持つセクションがアブストラク
ト中にどちらかしか出現しない場合は,そのセクションの各文を 3.3.2 節で作成した分類器を用いて分類した.
これらのラベル付データに対し,eRuby と全文検索エンジン Namazu を用いて検索システムを試作した.これ
は,アブストラクト全体と,クラスを限定した検索が可能である.また,検索語の ‘and’, ‘or’, ‘not’ も可能である.
ユーザが ‘Select from’ ボタンにチェックを入れ,‘Background,’ ‘Objectives,’ ‘Methods,’ ‘Results,’, ‘Conclusions’
ののチェックボックスにチェックを入れると対応するセクションに限定した検索が可能になる.検索語に一致する
単語があると,強調表示をする.また,ヘディングか分類器によって決定されたそれぞれのセクションは異なる
背景色で示される.
3.5
まとめ
本稿ではアブストラクトのテキスト構造に基づいた Medline 文書検索システムの構築の第一段階について報告
したが,このシステムにはまだ残された問題がある.
まず,ユーザに提示する 5 つのクラスは,ユーザにとって適当なものであるか評価する必要がある.特に,OB-
JECTIVE と CONCLUSIONS の違いは著者が何をしようとしたかと何を達成したかを表しており,論文で扱う
問題についての概要という点で同じ意味を持っている.さらに,この 2 つは実験の詳細を述べている訳でもなく,
今まで何がなされてきたということを述べている訳でもない.そのため,この 2 つのクラスを 1 つのクラスにま
とめた方がユーザにとって有益であるかもしれない.
今後の課題として,アブストラクト中のクラス系列の一貫性を保つようなラベル付与の修正手段が考えられる.
一貫性とは,結論部分はアブストラクトの最初には現れないであろうし,同じクラスの文はアブストラクト中に
離れて現れることはほとんどない,というクラス系列の尤度を用いる手法である.これに似た研究 [4, 10] が自然
言語処理や機械学習の分野で報告されている.この手法を用いて,分類結果の系列の最適化を行なう,というこ
とが考えられる.また文同士の一貫性を素性として追加するということも考えられる [3].
4
今後の計画
我々の研究の目的は,医学・生物学分野の論文からの知識抽出である.特に肝炎関係の論文概要を対象にして,
因果関係のような知識の抽出を目指している.そのために,これまで,概要中に出現する薬品名,病名などの専
門用語の抽出と分類,英語の単語係り受け解析,そして,今回の文役割の同定を行ってきた.今後は,肝炎に関
する論文アブストラクトを対象に,検査項目と共起する言語記述のマイニングを行い,検査項目および症状との
関連などの因果関係を記述した文を,文役割を考慮しつつ抽出する手法について研究を進めて行く予定である.
参考文献
[1] Ad Hoc Working Group for Critical Appraisal of Medical Literature. A proposal for more informative
abstracts of clinical articles. Annals of Internal Medichine, 106(4):598-604, 1987.
[2] C. Cortes and V. Vapnik. Support-vector networks. Machine Learning, 20:273-297, 1995.
[3] M. A. K. Halliday and R. Hasan. Cohesion in English. Longman, London, 1976.
[4] J. Lafferty, A. McCallum, and F.Pereira. Conditional random fields: Probablistic models for segmenting
and labeling sequence data. In Proceedings of the 18th International Conference on Machine Learning
(ICML-2001), 282–289, Morgan Kaufmann, 2001.
[5] S. Lawrence, C. L. Giles, and K. Bollacker. Digital libraries and autonomouse citation indexing. IEEE
Computer, 32(6):67–71, 1999.
[6] L. Lee. Measure of distributional similarity. In Proceedings of the 37th Annual Meeting of the Association
for Computational Linguistics (ACL-99), 25–32, 1999.
[7] MEDLINE. http://www.nlm.nih.gov/databases/databases medline.htm, 2002-2003. U.S. National Library
of Medicine.
[8] PubMed. http://www.ncbi.nlm.nih.gov/PubMed/, 2003. U.S. National Library of Medicine.
[9] Sentence splitter software. http://l2r.cs.uiuc.ecu/c̃ogcomp/cc-software.htm, 2001. University of Illinois at
Urbana-Champaign
[10] F.Sha and F. Pereira. Shallow parsing with conditional random fields. In Proceedings of the Human Language Technology Conference North American Chapter of Association for Computational Linguistics(HLTNAACL 2003), 213–220, Edmonton, Alberta, Canada, 2003. Association for Computational Linguistics.
[11] M. Shimbo, T. Yamasaki, and Y. Matsumoto. Automatic classification of sentence in the MEDLINE abstracts. In Proceedings of the 6th Sanken (ISIR) International Symposium, 135–138, Suita, Osaka, Japan,
2003.
[12] V. Vapnik. Statistical Learning Theory Jhon Wiley & Sons, 1998.
[13] H. Yamada and Y. Matsumoto. Statistical dependency analysis with Support Vector Machines. In Proceedings of the 8th International Workshop on Parsing Technologies (IWPT), 195–206, 2003.
[14] T. Yamasaki, M. Shimbo, and Y. Matsumoto Automatic classification of sentences using sequential patterns. Technical Report of IEICE AI2002-83, The Institute of Electronics, Information and Communication
Engineers, 2003. (in Japanese)
2.3.11 慢性ウイルス性肝炎検査データを対象とした長期時系列類型化法
2.3.11 慢性ウイルス性肝炎検査データを対象とした長期時系列類型化法の
の比較(A03-09)
比較 (A03-09)
概要
1
時系列の類型化 [1] は時間的変化の類似性からデータの特徴を探る手段として注目を集めている。医療分野にお
いても,投薬の有無で条件付けた場合の病態推移の分類など,有用な情報を病院情報システムに蓄積されたデー
タから獲得するための効果的な手段の1つとして期待されている。
空間データの場合と同様に,時系列データの類型化においても,対象の比較法と類型化法の適切な選択が有用
な情報もたらすクラスタを生成するための鍵となる。特に,慢性ウイルス性肝炎検査データのような長期時系列
医療データの場合,(1) 患者の受検日が不等間隔であるためデータそのものが不等間隔サンプリングデータとなる
こと,さらにその間隔自体が患者の病態を表す重要な情報となること,(2) 受検期間が患者により異なるため,系
列長が不揃いとなること,など,一般的な時系列データと異なる性質を持つことから,系列の比較法を選択する
過程の重要性が増大する。対象の比較にユークリッド距離を利用できる単純な空間データにおいてさえ,以後の
類型化法の変化でクラスタが変化し,さらにはデータの解釈が変化することから,長期時系列医療データを類型
化する場合,比較法と類型化法の両方の特性を考慮して結果を解釈することが肝要となる。
本研究計画では,類型化を通じて肝炎検査データの特徴を視覚的に表現し,ユーザの解釈とリアクションを促
すシステムの構築を目指しており,昨年度までに中核となる系列の比較法および類型化法として多重スケールマッ
チングとラフクラスタリングをそれぞれ開発してきた。また,これらの方法により,GPT の推移パターンの特徴,
血小板数と肝炎進行度の関係など,興味深い知識を獲得し報告してきた。本年度は,データのより多面的な解釈
を可能とするため,他の要素技術との組み合わせがどのように異なる解釈を与えるか,より詳細な比較実験を実
施した。
対象および方法
2
2.1
対象
慢性ウイルス性肝炎データセット [2] に含まれる 771 患者の検査データから,生検結果が提供されておらずウイ
ルス型が特定できない 268 患者のデータを除外し,残る 503 患者のデータを使用した。ウイルス型の構成比は B
型:C 型= 206:297 であり,C 型における IFN(インターフェロン) 治療の非適用例(C-noIFN と略記)と適用
例(C-IFN と略記)の構成比は C-noIFN:C-IFN = 100:197 である。ただし,患者により受検状況が異なるた
め,例数比は検査項目ごとに若干異なる。
同データセットには合計 983 種類の検査結果が含まれているが,ここでは簡単のため肝機能に関連の深い以下
の 13 項目の血液検査結果を対象として選択した:ALB, ALP, G-GL, G-GTP, GOT, GPT, HGB, LDH, PLT,
RBC, T-BIL, T-CHO, TTT。受検日が1日から数年の範囲で変化するため,各検査系列は不等間隔でサンプリ
ングされた時系列データとなっている。そこで前処理として,患者ごとに最頻検査曜日を調べ,その曜日を基準
とした1週間間隔の等間隔系列を近傍検査値の線形補間により作成した。生成された系列の構成点数は,例えば
ALB(n = 499) の場合,平均 456.87, 標準偏差 300, 最大 1080, 最小 7 である。1 点は 1 週に該当するため,平均
である 456.87 点はおよそ 8.8 年に該当する。
la
(k )
i
a
la
(k )
i
i
θ ak
(
)
ϕA
i
k
( )
(k )
LA k
( )
ΦA
g a( k )
i
k
( )
図 1: セグメント相違度の構成要素
2.2
方法
異長系列の比較が可能な 2 種類の時系列比較法を 3 種類の類型化法とそれぞれ組み合わせ,各検査項目の時系列
データ集合を類型化し,その結果を視覚的に検証した。時系列の比較法としては,dynamic time warping (DTW)
[3] および1次元多重スケールマッチング [5] を実装した。多重スケールマッチングについては,セグメント間相
違度を以下のとおり更新している。
(k)
(h)
d(ai , bj ) = max(θ, l, φ, g),
(k)
(h)
(1)
(k)
ここで,d(ai , bj ) はスケール k および h に位置する2つのセグメント ai
(h)
と bj
の相違度を示し,θ, l, φ, g
の各項は以下に定義する回転角,長さ,位相,勾配の相違度をそれぞれ表す。
(k)
(h)
(h)
θ(ai , bj ) =| θa(k)
− θbj | /2π,
i
(k)
(h) lbj lai
= (k) − (h) ,
LB LA
(k)
(h) φ
φai
bj (k) (h)
φ(ai , bj ) = (k)
− (h)
,
ΦB ΦA
(k) (h)
l(ai , bj )
(k)
(h)
(h)
g(ai , bj ) =| ga(k)
− gbj | .
i
(2)
(3)
(4)
(5)
図 1 に各項目の表現する差異を図示する。多重スケールマッチングでは一般的に,高位スケールにおいて過剰な平
滑化が行われ,輪郭が曲率中心に向けて縮小することが問題となる。この問題を回避するため,本研究では Lowe
らにより提案された縮小補正法 [8] を適用した。
クラスタリング法としては,相対的類似度の取り扱いが可能であることを条件に,古典的な階層的クラスタリ
ング法 [9] (AHC) およびラフ集合に基づくクラスタリング法 [10] (RC) を実装した。階層的クラスタリング法で
は,比較的チェーン効果の起こりにくい最遠隣法 (complete-linkage; CL-AHC) および群平均法 (average-linkage;
AL-AHC)の2種類の結合基準を採用した。
実験手順は以下のとおりである。
1. 13 種類の検査項目から 1 種類の検査項目を選択する。当該検査の系列集合をウイルス型と IFN 治療の適用
状況により前出の B, C-noIFN,C-IFN の 3 種類の部分集合へ分割する。
2. 1 つの部分集合を選択し,含まれる全ての系列の組について,DTW を適用して系列間相違度を算出する。
同様の処理を 3 種類全ての部分集合について行う。
3. 前項の DTW を多重スケールマッチングに切り替えて同様の処理を行う。これにより,2 方法 × 3 系列集合,
計 6 種類の相違度集合を得る。
4. 6 つの相違度集合に対し,AL-AHC,CL-AHC, RC の3種類の類型化法をそれぞれ適用し,系列を類型化す
る。これにより,計 18 通り類型化結果を得る。
表 1: 生成クラスタ数の比較. 表中の a/b/c はそれぞれ B / C-noIFN / C-IFN の各集合における生成クラスタ数
を示す。
Exam
ALB
ALP
G-GL
G-GTP
GOT
GPT
HGB
LDH
PLT
RBC
T-BIL
T-CHO
TTT
Number of
Instances
204
204
204
204
204
204
204
204
203
204
204
204
204
/
/
/
/
/
/
/
/
/
/
/
/
/
99
99
97
99
99
99
99
99
99
99
99
99
99
/
/
/
/
/
/
/
/
/
/
/
/
/
196
196
195
196
196
196
196
196
196
196
196
196
196
AL-AHC
8/3/3
6/4/6
2/2/5
2 / 4 / 11
8 / 10 / 25
3 / 17 / 7
3 / 4 / 13
7/7/9
2 / 13 / 9
3/4/6
6/5/5
2/2/7
7/2/5
DTW
CL-AHC
10 / 6 / 5
7 / 7 / 10
2 / 2 / 11
2/6/7
8/4/7
7/4/7
2/3/9
15 / 10 / 8
2/7/6
3/4/7
9/5/4
5/2/5
8/2/6
Number of Generated Clusters
Multiscale Matching
RC
AL-AHC
CL-AHC
RC
38 / 22 / 32
19 / 11 / 12
22 / 21 / 27
6 / 14 /
21 / 12 / 29
10 / 18 / 14
32 / 16 / 14 36 / 12 /
1 / 1 / 21 15 / 16 / 194 16 / 24 / 194
24 / 3 /
1 / 17 / 4 38 / 14 / 194
65 / 14 / 19
35 / 8 /
50 / 18 / 60
19 / 12 / 24
35 / 19 / 19 13 / 14 /
55 / 29 / 51
23 / 30 / 8
24 / 16 / 16
11 / 7 /
1 / 16 / 37
43 / 15 / 15
55 / 19 / 22
1 / 12 /
15 / 15 / 15 20 / 25 / 195
24 / 9 / 195 32 / 16 /
1 / 15 / 19
33 / 5 / 12
34 / 15 / 17
1 / 11 /
1 / 14 / 26
32 / 16 / 13
40 / 23 / 17
1/6/
203 / 20 / 30
17 / 25 / 6 20 / 30 / 195 11 / 23 /
20 / 1 / 27
12 / 13 / 13
17 / 23 / 19
12 / 5 /
25 / 1 / 32
29 / 10 / 6
39 / 16 / 16 25 / 16 /
31
46
49
51
15
25
78
18
25
17
48
23
23
5. 残りの 12 検査項目についても同様の処理を適用し,最終的に 12 × 18 個の類型化結果を得る。
ここでは,同一検査項目を対象とした比較に限定しており,異検査系列の比較は行っていない。なお,RC で用い
たパラメータは予備実験を通じて σ = 5.0, Th = 0.3 と定めた。また,AHC における結合中断点は,相違度の増
加が最初に mean+1SD を超えた時点とした。
主要成果
3
表 1 に各比較法と類型化法の組み合わせにより生成されたクラスタの数を示す。以下の各小節においてそれぞ
れの組み合わせの特徴を述べるが,先に本節において ALB の場合を例に同表の見方を説明する。まず,第2列
“Number of Instances” はその検査の系列集合に含まれる例数を示す。ALB の場合 204/99/196 であり,204 例の
B 型患者の検査系列 (B),99 例の C 型 IFN 治療非適用患者の検査系列 (C-noIFN),196 例の C 型 IFN 治療適用
患者の検査系列 (C-IFN) が含まれることを示す。第3列は,各比較法と類型化法の組み合わせによりその系列集
合から生成されたクラスタ数を示す。例えば,DTW と AL-AHC の組み合わせの項は 8/3/3 であり,B 型患者の
ALB 系列は 8 つのクラスタに類型化され,C-noIFN および C-IFN の ALB 系列はそれぞれ 3 つのクラスタに類型
化されたことを示している。
3.1
DTW and AHCs
DTW-AL-AHC と DTW-CL-AHC の比較から,肝炎検査データにおいても結合基準の相違が生成クラスタの相
違に繋がることがわかる。図 2 左側に DTW-AL-AHC を用いて B 型患者の GPT 検査系列から生成された樹状図
を示す。この樹状図は通常最近隣法で観察される chaining と類似した形状を呈し,明瞭な階層構造が得られてい
ないことを示している。この場合,適切な結合終了点の選択は困難であり,結果として 193, 9, 1 という構成例数
に極端な偏りをもつ 3 つのクラスタが生成された。図 3 に最大クラスタに含まれる系列の一部を示す。ほぼ全て
の系列がこのクラスタに取り込まれており,差別化が不十分なため興味深い特徴は見いだせない。
対照的に,図 2 右側に示す CL-AHC による樹状図ではよく階層化された構造が観察される。この例では,それ
ぞれ 27, 21, 52, 57, 43, 2, 1 例を含む計7つのクラスタが生成された。これらの内,先頭から3つのクラスタに含
図 2: DTW-AHC による樹状図. 左:AHC-AL. 右:AHC-CL.
図 3: DTW-AHC-AL による類型化。
第 1 クラスタ (193 例)。
図 4: DTW-AHC-CL による類型化。左から第 1(27 例), 第 2(21 例), 第 3 クラスタ (52 例)。
まれる系列の例を図 4 に示す。最初のクラスタに含まれる系列では GPT 値の激しい振動が続いており,何らかの
要因,例えばウイルスの周期的な活動等によって繰り返し肝機能が障害されていく傾向が見られる。2番目のク
ラスタは短系列の集合で,患者が早期に治療を終了したか,何らかの理由で中断した例を示すと考えられる。3
つ目のクラスタは GPT 値が上下変動の後に低値平坦化しており,治療あるいは自然治癒によってウイルスの活動
が抑制され肝臓の障害が中断した例を示すと考えられる。
3.2
DTW and RC
前節と同じデータに対し,RC では 55 個のクラスタが生成された。204 例から生成されるクラスタの数として
は比較的多数であるが,そのうち 41 個のクラスタは系列数が 3 以下の小クラスタであり,さらにそれらのうち 31
個のクラスタはただ 1 つの系列を含むものであった。これは,隣接する大クラスタの境界部分に小クラスタを生
成するというこの類型化法の性質を反映している。これらを除外すると,それぞれ 53, 16, 10, 9, 6. . . 例から構成
される計 17 クラスタが得られた。最大のクラスタは短系列の集合で,前出 CL-AHC の場合とほぼ同一の例を含
んでいた。図 5 に2番目から5番目のクラスタに分類された系列の例をそれぞれ示す。この類型化法は対象間の
識別不能度を閾値処理するため,生成される各クラスタには類似度が特に高いものが集められている。各クラス
タの構成例数は多くはないが,CL-AHC の項に示したいくつかのパターンについて,特に明瞭な特徴を持つ系列
がさらに細かくまとめられている。
図 5: DTW-RC による類型化。左から第 2(16 例), 第 3(10 例), 第 4(9 例), 第 5 クラスタ (6 例)。
図 6: MSMatch-AHC による樹状図. 左: AHC-AL. 右: AHC-CL.
図 7: MSMatch-AHC-AL による類
型化。第 1 クラスタ (182 例)。
3.3
Multiscale Matching and AHCs
表 1 において多重スケールマッチング-AHC による類型化結果と DTW-AHC による類型化結果を比較すると,
多重スケールマッチングが DTW と比べて多数のクラスタを生成させる傾向があることがわかる。これは,以下
に示すとおり,多重スケールマッチングの実装に際して生じる非対応例に関する例外処理が原因と考えられる。
全ての系列は,十分に高位なスケールにおいて単一のセグメントに変換されるため,理論的には全ての系列組
で対応を取ることが可能である。しかしながら,スケール段数の増加は計算時間の級数的な増加に繋がるため,実
用的にはスケール間隔を広くとるか,比較的低い位置にスケールの上限を設ける必要がある。前者では特に重要
な下位スケールにおいて生じる細やかな構造変化についての情報を失うこととなるため,後者を採用することに
なるが,それによりマッチングの成功を必ずしも保証できなくなる。例えば,ただ1つのセグメントからなる単
純な系列と,数百のセグメントからなる複雑な系列の対応を考える。スケールが十分高位まで広がる場合,セグ
メント置換が進み後者の系列は最終的には単一のセグメントとなり,前者との対応をとることができる。しかし
ながら,スケールの広がりが不十分な場合,後者は最高位のスケールにおいても単一セグメントには置換されな
いため,両者の間に対応漏れが生じてマッチングは失敗に終わる。この場合,系列間相違度としては無限大か対
応失敗を示す任意の規定値を返すこととなる。
相違度にこのような特異的な値が含まれる場合,CL-AHC および AL-AHC では適切に処理することができな
い。図 6 に AHC によって C-IFN の GPT 系列から生成された樹状図を示す。本実験では,非対応系列間の相違
度を対応系列間の相違度の最大値と同一にしている。AL-AHC の樹状図では,非対応系列を含むクラスタ間の相
違度が非常に大きくなるため,相違度の平均値を適切に算出することができず,適切な構造が得られていないこ
とがわかる。一方,CL-AHC の樹状図では,非対応系列を互いに含むクラスタが最後まで結合されず,それ以上
の大局的な階層構造が得られないことがわかる。
図 8: MSMatch-AHC-CL による類型化。左から第 1(71 例), 第 2(39 例), 第 3(29 例) クラスタ。
図 9: MSMatch-RC による類型化。左から第 1(80 例), 第 2(60 例), 第 3(18 例),第 4(6 例) クラスタ。
結果として,AL-AHC では 8 個のクラスタが生成されたが,DTW の場合と同じく,大部分の系列 (182/196)
が図 7 に示す単一のクラスタに分類され,興味ある特徴は見いだせなかった。一方,CL-AHC ではそれぞれ 71,
39, 29, . . . 例を含む計 16 個のクラスタが生成された。図 8 に最大のものから3番目までの各クラスタに類別され
た系列の例を示す。類似した系列が同一クラスタに見られるが,同時に明らかに異なる系列もそれらと同じクラ
スタに含まれている。
3.4
Multiscale Matching and RC
ラフ集合に基づく類型化法では,それぞれ 80, 60, 18, 6. . . 例からなる計 25 クラスタが生成された。図 9 に最
大のものから4番目までの各クラスタに分類された系列の例を示す。C 型 IFN 有の例においても,前節で示した
B 型の例と同様に,上下変動の継続,平坦化,及び短系列の3種類の系列がそれぞれ類型化できている。これは,
この方法が識別不能度に基づく類型化を行うため,非対応系列組を含むクラスタについても,他の大多数の系列
が対応可能でそれらの相違度が小さければ同一クラスタにまとめられるためと考えられる。
4
まとめと今後の予定
肝炎検査データを類型化するにあたり,系列比較法と類型化法の選択がどの程度クラスタ構成を変化させるか
に着目し,昨年度までに我々の開発した方法を含めて比較実験を行った。全ての属性における比較には至ってい
ないが,(1)CL-AHC と AL-AHC は明らかに異なる樹状図を与え,階層構造把握の容易さと類型化結果の解釈の
容易さにおいて,CL-AHC は AL-AHC より優れていること,(2)DTW と CL-AHC の組み合わせが解釈の容易な
結果を安定して生成し得ること,(3) DTW と RC の組み合わせでは各クラスタの代表的な系列が得られること,
(4) 多重スケールマッチングは非対応系列の取り扱いが問題となり AHC との組み合わせでは良い結果が得られな
かったが,RC を類型化法として用いた場合には問題が回避できること,等の結果が得られた。
これらは,長期時系列医療データにおいても一般的な空間データの場合と同様に,異なる比較分類法が異なる
解釈を与え得ること,さらには,単一の方法に縛られることなく,様々な方法を相補的に使用してデータを多面的
に解釈する必要があることを示している。比較分類法を様々に変化させて長期時系列医療データを類型化し,そ
れらの差異を視覚化して多面的な解釈を可能とするシステムはこれまでにない。今後,その構築を目指して各方
法をリンクさせるユーザインタフェースを整備していく予定である。
参考文献
[1] E. Keogh (2001): Mining and Indexing Time Series Data. Tutorial at the 2001 IEEE International Conference on Data Mining.
[2] URL: http://www.shimane-med.ac.jp/med info/tokuteiB/index.htm
[3] Chu, S., Keogh, E., Hart, D., Pazzani, M. (2002). Iterative Deepening Dynamic Time Warping for Time
Series. In proceedings of the second SIAM International Conference on Data Mining.
[4] D. J. Berndt and J. Clifford (1994): Using dynamic time warping to find patterns in time series. Proceedings
of AAAI Workshop on Knowledge Discovery in Databases: 359-370.
[5] S. Hirano and S. Tsumoto (2002): Mining Similar Temporal Patterns in Long Time-series Data and Its
Application to Medicine. Proceedings of the IEEE 2002 International Conference on Data Mining: pp.
219–226.
[6] N. Ueda and S. Suzuki (1990): A Matching Algorithm of Deformed Planar Curves Using Multiscale Convex/Concave Structures. IEICE Transactions on Information and Systems, J73-D-II(7): 992–1000.
[7] F. Mokhtarian and A. K. Mackworth (1986): Scale-based Description and Recognition of planar Curves and
Two Dimensional Shapes. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-8(1):
24-43
[8] Lowe, D.G (1980): Organization of Smooth Image Curves at Multiple Scales. International Journal of
Computer Vision, 3:119–130.
[9] B. S. Everitt, S. Landau, and M. Leese (2001): Cluster Analysis Fourth Edition. Arnold Publishers.
[10] S. Hirano and S. Tsumoto (2003): An Indiscernibility-based Clustering Method with Iterative Refinement
of Equivalence Relations. Journal of Advanced Computational Intelligence and Intelligent Informatics, (in
press).
2.3.12 複数データベースからの知識発見
2.3.12 複数のデータベースからの知識発見
―肝機能検査データベースに関する因果モデルの比較と評価―
(A03-11-1)
−肝機能検査データに関する因果モデルの比較と評価−(A03-11-1)
1
概要
データマイニングの医療応用においては,意外性や新規性のある知識の発見に期待が高ま
る一方で,EBM(Evidence-Based Medicine)[1]に貢献し得る確実な知識の獲得も重要な課
題である.EBM では,慎重に計画された臨床試験の結果を中心とした科学的根拠が求めら
れており,医学統計学の世界では,研究目的外に取られたデータからの後ろ向き研究の危
険性が論じられている[2].EBM の文脈の中で,データマイニングが Evidence 生成に補完
的な役割を果たすには,確実な知識を提供できなければならない.
データの質に関する考察を行なう方法の一つとして,複数施設のデータベースの比較が挙
げられる.一般に,病院のデータベースは受診患者の偏りを含み,臨床検査データは採用
する測定法によってそのデータの正確さや精密さに違いがある.患者属性や測定法が異な
る施設間でのデータの互換性は保証されない場合が多い.従って,ここから得られる結論
が即座に一般性を持つ Evidence になるとは考え難い.仮説生成であるとの立場に立ってみ
ても,その仮説がどの程度有力であるかの見通しも不明な場合が多い.そこで,仮説の有
力さを知る一つの方法として,複数施設のデータベースにおいて共通モデルを探索するこ
とは興味深い.
本稿では,アクティブマイニングの一例として,対話型進化計算を用いて2つの医学データベ
ースから肝機能検査に関する共通の因果モデルを探索する.データの互換性が保証されない複数
のデータセットにおいては,単なる併合やモデルの統合はできない.そこで,各データセットか
ら因果モデルを同時に探索する問題を設定し,属性選択の手続きに対話型進化計算を取り入れた
データマイニングツールを試作した.モデルに対して人間が対話的に主観的評価を行うことで,
利用者の積極的なフィードバックの下に,進化計算によって効率的な仮説空間の探索を実現した.
最終的に,利用者に支持され,高い適用性の期待される因果モデルが得られた.
2
主要成果
得られた知識の妥当性を評価するためには,専門家(利用者)が積極的に知識発見のプロ
セスに関わる必要がある.ある特定の基準に従う自動的なモデル選択では,バイアスや交
絡の存在によって不適切なモデルが選択される危険がある.利用者が対話的にモデルの選
択を行なえる環境が求められる.
著者らは昨年,アクティブユーザーリアクションの医療における具体的事例として,肝機
能検査データの因果モデルの構築を試みた[3].そこでは,「学習結果からの学習」という
Chan らのメタ学習の定義[4]にならい,複数のデータマイニング手法を適用し,得られたマ
イニングに関する知見を利用して因果モデルを構築した.この事例は,一総合病院の臨床
検査データベースの肝機能検査データを対象にしたものであり,得られたモデルの一般性
は確認できていなかった.
今回,他施設の肝機能検査データを入手し,因果モデルを比較評価する機会を得ることが
できた.当初,2施設のデータセットの併合やモデルの統合を目指したものの,データの
質の面から単に併合・統合することに危険があったため,共通モデルの探索問題として取
り組む方針とした.
共通モデルの探索において,2つのデータセットを同時にマイニングする対話的進化計算
[5]を導入した.利用者の主観的な選好を取り入れた属性選択と進化計算の組合せにより,
利用者の積極的なレスポンスの下に効率のよいモデル探索を試みた.
本研究の主要な成果は,2 施設において独立に測定した共通の検査項目に対して,対話型
進化計算を適用したモデル探索を実施し,共通性の高い知識を抽出できたことである.
本稿の構成は以下の通りである.3章では対象問題を考察し,その解法として対話型進
化計算を考える.4章では2施設のデータセットを概観した上で問題を設定し,本問題に
特化した対話型進化計算(対話型 EC)を設計する.5章ではモデル探索の結果を示すとと
もに,比較のために線形回帰分析による結果を示す.6章において考察を述べたあと7章
にて今後の予定を述べる.
3 問題の背景
3.1 対象問題の考察
今 回 対 象 と し た デ ー タ セ ッ ト は , 虎の門病院および千葉大学医学部附属病院の臨床検査
データベースから ICG 検査の依頼のあったレコードを抽出したものである.著 者 らの興 味
は,虎 の門 病 院 のデータセットから構 築 された肝 機 能 検 査 データの因 果 モデルが他
施 設 のデータでも支 持 されるか否 か,あるいは,データの互 換 性 の問 題 を超 えて2つ の
データセッ トに共 通 する因 果 モデルを見 出 せるか否 かである.
獲得した因果モデルは予測モデルとしての利用を想定している.すなわち,肝臓の異物排
泄機能試験のひとつである ICG 検査(インドシアニングリーン試験)[6]の成績を,肝機能
を反映する他の臨床検査データから予測するシステムの実用化である.ICG 検査は,生体
に薬剤を静注してその排泄(停滞率)を追跡する検査であり,生体に対する負担が大きい
上に,厳密な時間管理が求められる.故に過誤が比較的発生しやすい検査である.臨床検
査室にとって,ICG 検査の実測値と他の検査データによる予測値との乖離から過誤を発見
する業務支援システムが構築されれば有益である.
検査データの予測モデルの要件として,その予測精度ばかりではなく,モデルの内部構造
に関して医学的な意義が求められる.モデルの振る舞いについて利用者が容易に理解でき
ることが求められる.この要件に応えるためには,利用者が積極的にモデル探索に関与す
る必要がある.また,特定の施設だけではなく,複数の施設で利用可能な普遍的なモデル
が望まれる.
以上の背景から,対象問題においては,利用者がマイニング結果に対して積極的に反応し,
新たなマイニングの方向性を見出すことを支援するアクティブユーザーリアクション[7]の
環境が求められる.ここでは,複数のマイニング結果の比較や複数データセットからのマ
イニングといったメタ学習の方法論が必要となる.
3.2
対話型進化計算
アクティブユーザーリアクション環境を実現する技術として対話型 EC が注目される.対
話型 EC は,グラフィックアートや意匠・工業デザインなど芸術の分野,音声処理をはじめ
とする工学分野へと幅広く普及しつつある技術[5]であり,マーケティング情報分析をはじ
めとしたデータマイニングにも応用されている[8][9].対話型 EC とは遺伝的アルゴリズム
(GA)[10]を利用する問題解決において,利用者が対話的にそのプロセスに介入する手法
全般を指す.その特徴は,遺伝的操作における個体評価を,あらかじめ定義した評価関数
の代わりに,個体の表現型の評価を人間の主観的判断で行なう点にある.
石野らが提案した SIBILE(Simulated Breeding and Inductive Learning)[8]は,帰納
学習の属性選択問題向けのツールである.属性選択の問題は適切な仮説空間の選択問題で
あり,機械学習の文脈においては帰納バイアスの選択[11]というメタ学習の一つである.仮
説空間の選択の適否はマイニングの結果に大きく影響することがあり,利用者が積極的に
介入すべきフェーズとも言える.
今回の対象問題の解法として,SIBILE と同様に属性選択に利用者が対話的に介入する仕
組みを用いた,2つのデータセットからの同時マイニングが挙げられる.
4
問題設定
本研究では,2つのデータセットの質的な違いから,データセットの併合やモデルの統合
ではなく,共通因果モデルの探索タスクとして問題を設定する.因果モデルを構造方程式
モデリング[12][13]で記述・推定し,対話型 EC の枠組みによって探索を行なう.
4.1
2つのデータセットとデータ互換性
本研究では2つのデータセットを対象とする.各データセットは,ICG 検査データのほ
か,表1に示す 15 の生化学的検査項目[6]から構成される.
虎の門病院のデータセットは,同院臨床検査データベースから ICG 検査の検査に依頼の
あった 166 件のレコードを抽出したものである.
1千葉大学医学部附属病院のデータセットは,同院医療情報部より提供された肝炎データ
から ICG 検査の依頼のあったレコードを抽出(15 の生化学的検査データは ICG 検査の前
後1日以内のレコードを抽出)したものである.ただし,ICG 投与量が不明なため,実際
の ICG 値から標準的な投与量と思われる 91 レコードのみを抽出している.
両データセットにはデータの互換性に関する問題が指摘される.例えば表1から明らかな
ように,CHE では単位が異なり,ALB では単位は同じであっても平均値に有意な差が認め
られる.同じ検査項目であっても,測定法や検査機器,検査の手順は施設において任意に
選ばれており,単位の違いばかりではなく,項目によっては正確さや精密さが異なってい
る可能性もある.臨床検査の標準化の歴史は浅く,本データセットの中でも AST,ALT,
LDH,ALP,GGT の項目が標準化されたに過ぎない[14].しかし,これらの項目において
も,今回抽出した千葉大病院のデータセットは,標準化前のデータが大部分を占めており
互換性は保証されない.
そこで本研究では,単なるデータセットの併合やモデルの統合による危険を避けるために,
各データセットから独立して因果モデルを探索し,共通因果モデルを発見するタスクとし
て問題を設定する.
表1) データセットの概要
単位
平均
標準偏差
変数
検査名称
虎の門 千葉大 虎の門 千葉大 虎の門 千葉大
ICG ICG試験*
%
%
1.41
1.41 0.30 0.30
TP
g/dl g/dl 7.35
7.36 0.66 0.83
総タンパク
g/dl g/dl 3.40
3.97 0.48 0.44
ALB アルブミン
S-HU
U
12.84
4.87 8.88 3.17
TTT チモール混濁試験
ZTT 硫酸亜鉛混濁試験
KU
U
11.00 14.21 4.34 5.93
**
mg/dl mg/dl 1.29
1.26 0.77 0.56
TBIL 総ビリルビン
mg/dl mg/dl 0.71
0.50 0.42 0.26
DBIL 直接ビリルビン
AST AST
IU/l
U/l
62
104
56
82
IU/l
U/l
65
106
74
133
ALT ALT
LDH LD
IU/l
U/l
171
193
39
69
IU/l
U/l
315
125
173
78
ALP ALP
IU/l
U/l
85
61
115
63
GGT γ-GTP
LAP LAP
U/l
U/l
42
275
26
115
0.75
3.48 0.33 1.19
CHE コリンエステラーゼ ΔpH U/l
mg/dl mg/dl
161
175
42
40
TCH 総コレステロール
***
AG
0.88
1.24 0.20 0.32
A/G比
最小
最大
虎の門 千葉大 虎の門 千葉大
0.78
5.04
1.93
0.40
1.40
0.32
0.16
13
7
92
57
7
22
0.11
85
0.44
0.60 1.94
5.40 9.83
2.80 4.40
1.20 39.80
1.20 24.40
0.40 4.51
0.10 2.71
17
526
13
513
101
326
39 1136
7 1154
47
104
0.96 1.63
74
391
0.62 1.40
1.93
9.70
4.80
12.00
28.50
3.70
1.60
506
677
459
382
415
805
8.02
279
1.96
欠測
虎の門 千葉大
0%
0%
0%
8%
8%
0%
1%
1%
1%
0%
0%
0%
95%
0%
2%
8%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
5%
5%
5%
0%
0%
*常用対数変換済, **DBILを含む, *** A/G=ALB/(TP-ALB)
4.2
因果モデルの記述と推定
因果モデルの記述・推定には,昨年のマイニング結果[3]を踏まえて,構造方程式モデリ
ングを用いる.構造方程式モデリングは,基本的に線形モデルであるが,潜在変数(実 際 に
は観 測 されていない変 数 ) を導入できるために高いモデル記述力があり,因果関係の記述
に適したツールである[15][16].
図 1 には,ALB,DBIL,CHE および ICG 値 による因 果 モデルの例 を示 す.このモ
デルは,各 検 査 データが肝 機 能 という一 つの潜 在 因 子 と各 独 自 因 子 で説 明 される単
回 帰 モデルから構 成 される一 因 子 モデルである. ICG 値 のパス係 数 に 1,切 片 を 0 に
指 定 することで,肝 機 能 の尺 度 は ICG 値 と同 じ尺 度 となる.モデル内 のパス係 数 およ
び平 均 値 ・ 切 片 は学 習 用 データから推 定 される.
推 定 された因 果 モデルを用 いて,ALB,DBIL,CHE から ICG 値 を推 定 することがで
きる.この ICG の推 定 値 と実 測 値 から決 定 係 数 を計 算 することができ,推 定 に用 いた
デ ー タ セ ッ トを 使 えば 学 習 誤 差 を ,未 知 のテスト デ ー タ セ ッ ト を 使 えば予 測 精 度 を 見 積
もることができる.今 回 は,データ数 が少 ないことと,現 象 記 述 のモデルの探 索 という目
0
0
e1
0
e2
0
e3
e4
1
1
1
1
CHE
DBIL
ALB
ICG
0
1
Liver
図1) 因果モデルの例
○で囲まれた変数は潜在変数,□で囲まれた変数は観測変
数を表す. 矢印は変数間の因果関係(パス)を表す.この図は
CHE,DBIL,ALB, ICGの各変数が,共通の潜在因子 Liver
と各変数独自の誤差変数から説明されることを表している.
○,□,矢印付近の数値は,平均値, 切片,パス係数が固定
されていることを意味する.数値の示されていないところは
データから推定される.
的 から学 習 誤 差 をモデルの客 観 的 な評 価 指 標 とする.
今 回 のモデルの探 索 では,図 1の因 果 モデルにおいて,潜 在 変 数 Liver と ICG を
固 定 し , そ の 他 の 変 数 の セ ッ ト を 変 化 さ せ , 推 定 さ れ た モ デ ル の 比 較 と ICG 値 推 定
における学 習 誤 差 の比 較 を行 なう.
本来,構造方程式モデリングはモデル検証のツールであるが,しばしば,モデルの構造
がデータから識別できない場合や分散が負値として推定される不適解の場合があり,モデ
ルの修正が必要となる[15][16].モデルの修正を拡張し,広く探索に利用することは実務的
に興味深い.本研究では,構造方程式モデリングを対話型 EC による属性選択の枠組みの中
で探索ツールとして利用する.
4.3
対話型進化計算による共通モデルの探索
導入する対話型 EC の概略を以下に示す.実際の対話によるモデル探索は著者が行なった.
個体数:10 (初期世代はランダムに生成)
遺伝子型:15 bit
ビット列は属性セットに対応する.各遺伝子座は各変数に対応し,その変数が選択されて
いるときに 1,選択されていないとき 0 を表す.
表現型:構造方程式モデルおよび学習誤差
属性セットに対応する構造方程式モデル:パス係数推定の収束状況,推定されたパス係数
の符号と大きさ,その標準誤差,切片,誤差分散,標準化パス係数,および,学習誤差(決
定係数)を評価の対象とする.
選択:エリート戦略
主観的基準と客観的基準により2つの個体を次世代に残す.主観的基準:利用者が各個体
の表現型に応じて 0∼1の選好度を与え,この選好度の最も高い個体を残す.客観的基準:
各個体毎に虎の門および千葉大データセットでの学習誤差(決定係数)に各々ランクを付
け,そのランクの和が最も小さい個体を残す.なお,構造方程式モデルの推定においてモ
デルが識別されない場合や不適解が得られた場合は,選好度 0,決定係数0の評価を与える.
残りの個体は主観的な選好度に応じたルーレット方式で選択する.
交差:0.6 の確率で一点交差を起こす.
突然変異:0.03 の確率でビットを反転させる.
世代数:10∼20
対話型 EC の終了後,利用者による主観的評価の一貫性および選好に関わる要因について,
属性セット(ビット列)を説明変数,選好度を目的変数として数量化理論1類を用いて分
析を行なう.
4.4
線形回帰分析によるモデルの探索
比較のために各データセットにおいて線形回帰分析による重回帰モデルの探索を行なう.
変数選択はステップワイズ法(変数投入 p<0.05,変数除去 p>0.10)で行なう.なお,欠測
値はペアごとに削除する.
5 結
5.1
果
共通因果モデル
図2に対話型 EC の過程における選好度と決定係数のメディアンの推移を示す.初期世代
では識別不能なモデルや不適解のモデルが多勢を占めていたが,第2世代からは適切に推
定できたモデルが多勢を占めている.また,最適解とは言えないものの,通常の GA に比
べて少ない世代数で,利用者が支持する解を得ている点は特徴的である.
1.0
1.0
選好度
0.8
0.6
0.6
決定係数:虎の門
0.4
0.4
決定係数:千葉大
0.2
決定係数
選好度
0.8
0.2
0.0
0.0
0
2
4
6
8 10
世代
12
14
16
18
図2)対話型進化計算の過程における選好度
と決定係数のメディアンの推移
表2に利用者が最も高い選好を与えた因果モデルの概要を示す.変数として ALB,TTT,
TBIL,CHE が選ばれている.各変数のパス係数を虎の門データセットと千葉大データセッ
トで比較すると,単位の違い等も影響して両者で異なるものの,標準化パス係数ではほぼ
表2) 利用者が選んだ構造方程式モデルの概略
パス係数 ALB
TTT
TBIL
CHE
ICG
切片
ALB
TTT
TBIL
CHE
ICG
標準化
ALB
パス係数 TTT
TBIL
CHE
ICG
虎の門
係数 検定統計量
-1.562
-11.0
13.625
4.6
1.433
5.8
-1.068
-11.1
1(固定)
5.600
27.9
-6.491
-1.5
-0.726
-2.1
2.253
16.5
0(固定)
-0.810
0.340
0.464
-0.815
0.835
千葉大
係数 検定統計量
-1.756
-5.0
5.283
2.5
1.310
3.4
-5.744
-5.1
1(固定)
6.444
12.9
-2.579
-0.9
-0.592
-1.1
11.586
7.2
0(固定)
-0.716
0.300
0.423
-0.851
0.608
近い値を示している.また,学習誤差を反映する決定係数では虎の門で 0.57,千葉大で 0.28
であった.これらの値は必ずしも対話プロセス全体を通しての最大値ではなかった.
選好度に関する数量化理論1類による分析では,重相関重相関係数が 0.83 であり,利用
者の選好の一貫性が示唆されている.また,各変数の回帰係数を比較すると,LAP や ALP,
TBIL,AST がモデルの選好に負の影響を与えている一方,CHE,ALB,TTT,GGT が正
の影響を与えていることを読み取とることができる(図3).
AG
TCH
CHE
LAP
GGT
ALP
LDH
ALT
AST
DBIL
TBIL
ZTT
TTT
ALB
TP
回帰係数
0.5
0.4
0.3
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
-0.5
図3) 選好度に関する数量化理論1類分析の結果
5.2
重回帰モデル
表3にステップワイズ変数選択により両データセットについて得られた重回帰モデルの
概要を示す.虎の門データセットでは,ALB,ZTT,DBIL,CHE が有意な説明変数とし
て選ばれ,重相関係数が 0.78 であった.千葉大データセットでは,TTT,TBIL,AG が選
表3) 重回帰モデルの比較
虎の門
r
0.780
n = 166
(定数)
ALB
ZTT
DBIL
CHE
千葉大
r
0.705
n = 91
(定数)
TTT
TBIL
AG
2
2
2
2
r
調整済み r
0.608
0.598
回帰係数 標準誤差 有意確率
2.029
0.158
<1%
-0.212
0.046
<1%
0.010
0.004
1.4%
0.209
0.042
<1%
-0.209
0.070
<1%
r
調整済み r
0.498
0.480
回帰係数 標準誤差 有意確率
1.977
0.147
<1%
-0.018
0.009
3.7%
0.193
0.041
<1%
-0.582
0.085
<1%
ばれ,重相関係数は 0.71 であった.
6.
考
察
今回用いた対話型 EC は,データマイニングタスクの中で,モデルの選択(属性選択)に
利用者の主観的判断が反映されるよう設計したものである.2つのデータセットに共通す
る因果モデルを探索するような問題では,モデルの良さを明示的に評価関数として表すこ
とが困難であり,人間の主観的な評価が有力な手がかりになる.以下では,本事例におけ
る対話型 EC の役割を論じた後,得られた共通モデルの特徴を考察する.
本事例での対話型 EC の過程は 16 世代で完了している.明示的な評価関数を持たない対
話型 EC では,評価者による任意の評価によって収束しない可能性があるが,今回の事例で
は,識別不能,不適解といった致命的なモデルは早期に消失し,第2世代以降では利用者
の選好度は安定している(図2).もし,ランダムに属性セットを生成する対話処理を行っ
ていたならば,利用価値の低いモデルを繰り返し評価する必要に追われたものと推察され
る.また,属性セットと選好度の関係には,数量化理論1類による分析の結果,統計的に
有意な構造(重相関係数 0.83)が認められ,主観的評価の一貫性が示唆されている.今回
の事例では,対話型 EC によって効率的・効果的な探索が実現されているといえる.
利用者が最も高い選好度を与えたモデルは,ALB,TTT,TBIL,CHE を含むモデルで
ある(表2)
.ALB と CHE については,昨年のマイニング事例[3]でも支持された変数であ
り,臨床的な意義としても真の意味での肝機能を反映する指標として ICG 検査と同等の意
義が知られている[17][18].この2つの検査項目が利用者のモデルの選好要因として寄与し
ていることは図3にも現われている.一方 TBIL は,利用者のモデル選好要因としては負の
影響が示唆される(図3)ものの,対話型 EC の過程の中に残されてきた変数である.臨床
的意義としても,図4に示すように ALB,CHE,ICG との関連があり注目すべき変数であ
る. TTT は明確な反応機序が不明なまま,肝機能検査の一つとして経験的に使われてきた
検査項目である.利用者もモデル選好要因として暗黙のうちに正の評価を与えている変数
であり,従来から知られている臨床的意義以外の知見を示している可能性がある.
次に,比較のために行なった重回帰モデルの結果を概観する.ステップワイズ変数選択に
よって,虎の門では ALB,ZTT,DBIL,CHE が,千葉大では TTT,TBIL,AG が統計的
に有意な変数として採択されている.重回帰モデルは ICG 値が他の検査データによって説
明されることを意味するモデルであり,構造方程式モデリングで記述した因果モデルとは
異なる現象記述モデルである.しかしここには,興味深い結果が示唆されている. ZTT と
TTT は反応原理が多少異なるものの非常に似た検査法である.DBIL は TBIL の一部の成
分であり,AG は ALB の値を用いて計算する項目である(表1欄外).すなわち,一見異な
るモデルのように思われるが,比較的似たモデルとも言える.さらに,利用者が最も選好
した因果モデル(表3)は,これらを融合したモデルとして解釈できる点も興味深い.
今回対象としたデータセットは,研究目的外に蓄積された過去の検査データについて,異
なる2つの施設から抽出したものであり,ノイズやバイアスの存在という潜在的な問題を
抱えている.しかしながら,主観的判断の下に選ばれた因果モデルは,客観的な基準で得
られた重回帰モデルとも比較的似た属性から構成されるものであった.広範囲な実用化の
ためには検証実験を行なう必要があるものの,今回対話型 EC を経て得られたモデルには,
広い適用性が期待される.
7
今後の予定
本稿では,肝機能検査データに関わる因果モデルの構築において,情報源の異なる2つの
データセットから共通因果モデルを探索する問題を設定し,属性選択に対話型 EC を用いて
モデル探索を試みた.モデルに対する主観的評価を対話的に取り入れたことで,利用者の
積極的なフィードバックの下に,進化計算によって効率的な仮説空間の探索を実現した.
本事例においては,背景知識が反映された意図的な探索過程で,多くの解候補を評価した
中から,利用者に支持されるモデルが得られた.得られた因果モデルは,2つの施設のデ
ータセットにおいて支持されたものであり,単一の施設内で得られたモデルに比べ,より
適用性が高いものと推察される.
今後は,本稿の考察に基づき,他のデータセットとの間で共通モデルの探索を試みるとと
もに,EBM の観点からより信頼性の高い知識を得る手法について研究を進めていく予定で
ある.
参考文献
[1] D.L. Sackett, W.M.C. Rosenberg, J.A.M. Gray, R.B. Haynes, and W.S. Richardson,
"Evidence-based Medicine: what it is and what it isn't (editorial) ,"
British Medical
Journal, vol. 312, pp. 71-72, 1996.
[2] 丹後俊郎,統計学のセンス:デザインする視点・データを見る目,朝倉書店,東京,
1998.
[3] 稲田政則,寺野隆雄,“肝機能検査データからの因果モデルの構築,”人工知能学会論文
誌, vol.17, no.6, pp.708-715, Nov.2002.
[4] P.K. Chan, and S.J.Stolfo, "Meta-learning for multistrategy and parallel, " Proc. Second Intl.
Work, Multistrategy Learning, pp.150-165, 1993.
[5] 高木英行,畝見達夫,寺野隆雄,“対話型進化計算の研究動向,”人工知能学会誌, vol.13,
no.5, pp.692-703, Sep.1998.
[6] 黒川清,春日雅人,北村聖(編),臨床検査データブック,医学書院,東京,2001.
[7] 元田浩,沼尾正行,山口高平,津本周作,“アクティブマイニングの構想,”人工知能学
会誌, vol.17, no.5, pp.615-621, Sep.200.
[8] 石野洋子, 寺野隆雄,“模擬育種法と帰納学習を適用したマーケティング情報分析,”
人工知能学会誌, vol.12, no.1, pp.121-131, Jan.1997.
[9] K. Kira, and L.A. Rendell, "The Feature Selection Problem: Traditional Methods and a
Algorithm," Proc. AAAI’92, pp.129-134, 1992.
[10] D.E.Gorldberg, Genetic Algorithms in Search, Optimization and Machine Learning, AddisonWesley, 1989.
[11] M. Desjardins, and D. Gordon (eds.), "Special issue on Bias evaluation and selection," Machine
Learning, vol. 20, No. 1/2 ,1995.
[12] K.G. Joreskog, "Structural analysis of covariance and correlation matrices," Psychometrika,
vol.43, pp. 443-477, 1978.
[13] K.A. Bollen, Structural Equations with Latent Variables, John Willy & Sons, 1989.
[14] 日本臨床化学会酵素専門委員会,
“血清中の酵素活性測定標準化の推進に関する指針,”
臨床化学,vol.23, pp.335-340, Sep.1994.
[15] 豊田秀樹,SAS による共分散構造分析,東京大学出版,東京,1992.
[16] 豊田秀樹,共分散構造分析[入門編],朝倉書店,東京,東京,1998.
[17] 原田英治, 福井秀雄, 村井晴洋, 時田元, 上司裕史, 矢倉道泰,“慢性肝疾患の検査デ
ータの読み方,”診断と治療, vol.89, no.10, pp.1748-1753, 2001.
[18] シーマーケットクリニック homepage,C 型肝炎の話,C 型肝炎の検査,血液検査,http://
plaza18. mbn.or.jp/~sujaku/c-ketsueki.html, 2003.
!
2.3.13 肝炎進行・治療におけるシナリオ生成(A03-11-2)
"$#&% (')*+',.-
/
0 1
2
3545687:9<;>=@?A8BDCFEHGJIK8L5MHNJOQP>R5S@TVUXWHY@Z5[\C]O_^a`bCXY@cDdfegShTVUXWHi@jkYmlon5O@p_qbr*s
t5uJvw>xyv{z ?_|@}<~5Q€ v YQ‚„ƒ…?|@} t>†b‡ˆ j8‰8Š5‹„Œ(e55Ž\C…I<HQ‘5’IH“<”:S@T:U•WkI<–k—5˜2C]O
^XA5B\C]™šI<›kœ_‰_žyƒ.OšY v S@TVUXWbŸ5j¡ _9mijkN¢^ t>†H£b‡h¤ ”g¥b¦h}<~š§H¨8©5”gªe t>†a‡ˆ j5‰JI_q
r*« ˆ :¬H­¯®<°8­5±5²>I³H´>µ5sb¶C¸·Q¹¯®»ºm¹k¼h½kIm¾5¿5À5Á\C•I<Q5‘5’:9…Â5’Ã…?±5²8Ä5E¯®ÆÅQÇo9<Èb=?
IkSTVU•Wk@i@jɃekÊ ‡ ¶s>˚Ì>r ‡ IÍHÎO¡Ï(lonhIQ¼Ð8ÑHZQ[gOÒ5ӝ<Ô}<~>™ z¢v ªe5ÕQÖ×Cmƒ*?@Ø5ÙJI5¼
Ú@ÛHÜ CfÝQÞɃ•ešßHàâá8ãaN:^¡C+䢃>d¼Ð8Ñ_I3H48657:9;k=@?åQæyO Û ‰âÔ}Œ…Im”g¥_^>CfeQç5è8é_Iš¼hÐ
ê@ë5€ uJvì ›îí z ?k=_^~5ï5ð¡ >OâAHñ2Cfò¡óô:9aõ8^À8Á>Ihöš÷Hø8ùúCYh5Q‘8’g<ûÉ`N¡“<”HÔ v•z }<ÍQÎDC
=HüHõ¡ý+~
ÿ ST:U(W¢C…=ýJª<e_O@’>YaOkí z ?_|}89¡Œ u5u P v Ú! >9#"5Ýoí z }.7$9&%o¦â?b=šOQ=.~:ƒ u ƒ•e
ST:UWb
 ')
Ý (Ã.+
} * -‡ ,).a0
ˆ / <åHNV^A5B_I@K5LQM21ÃC¸7)$kN:^O v43 eÉ` z5 ”o9&6¢í z }-7ÃÏ*Im©8:9;
9 ^S@T:UWÉC…=::ý _4 ;=<aNV^a`aC•Y >@?k”_¥J^<I<”H@e A=B5”gªg`*Im)3 Cy9;k=@?JST¢UXWÃCâ=ýD]’:=_^8`kC
9*N:^•~yS@T:U•W>4 E\dš`aC]ª<eQ䢃m=.3Q4H687g.EDý+Ñ9m;>=
? F ‘ HH”J¥J^•~Ã`…I@˜_4ª I=JH
e K M¤ L>ˆ
u G Oa=…2
NO=P)QR=S Go9m;>=@? TVU@? W Ü í z e¡P5=Y X>9m;>=@?îŒ(Š8‹_Im@‚ DC Y2ZkY [@\îí z ÈHÈ>¥g^ ]_^a`Dbdc ~Q§HQ‚k”
ª<e¢` +
9 ' t¡†8‡<ˆ j82
‰ 1] fgc•C…=ý , s h”8
Ä U@?_|}šP z P ‚ lmJ8STVUX
W noúC]=oý p8˜@”
z 5 ”e
z ikj I<Q)
q v ühOh;ƒ•e8¼=Ð rk-I s@’g.ñ tHN:^H`aC{4 uo¦â?b=>^•~
5- egShTVUXWÃC t>†b‡<ˆ Ihêšëo9mÈ>=m?he>P z P z vI q v wü lJ- x+yƒ5õJýf@~ zü 3 e_™ z {@z YmAHBJIK8L5M
Cƒ…
? ymÒ5”o|8^hõ_ý{O<e@ø>v
I |8ÈHIkSTîUXW5Ya¥k¦m}yCƒhõ¡ý+~
}~ A5€B ^` A5‚B bƒ` A5‚B fƒ`…„_„_„
†‡~ A5€B ^` A5‚B fƒ` A5‚B ˆƒ`…„_„_„
‰‡~ A5€B ^` A5‚B bƒ` A5B Š`…„_„_„
STVU…
W ^Œ‹ IVC•
; â9âAHB<ûD`Qƒâ
? Ž È 5  EHGÃ<
? >=J^ ‘JY>=H}@Y@e5Ak
B b*<‰¡?heÃ` z ªA8‚
B ’<9âV
Ä “
”õ <Œ(A5B Š<9*Ä “)•îý•Y –+y—=˜ýQCfá:üh}îChƒhõgýf~¢`âIVC.|ImA5‚B b(YheQ354H6879m;>=m?hZ8[úC*O¡^•A8BHN
O@PkR t>†b‡<ˆ C]=oý5`8C<9šO¡^~5A8
B f]¥_^=H™
ª Š9È>=?¢ŒXeÌ@ƒ nHûHNV^k`8C•Y@A5›
B š ugv œž -9 Ÿ îí z O
~ ¥=¦He t>†k‡ˆ j8‰úCâ=oý
u ¦#} ¡=¢¢9hª<eÃ` zVv I8ž t_ªä}k9…3848657gM £=¤HN¢^<I<” t>†b‡<ˆ ”¥g^kC NV^•
`8CXY §Q[úC{O¡^*I8ªâè>-I ¨U8OQw= ©ª_O.5Ž9<; 9 ^XE5Gk
Y §Q[_#O ¡¢H”J¥¡^*I<”HeV`…I>õ¡ý{O8SmT:UXW–H—bI>|5¦
9
2
«
Ã
¬
h
d
8
`
{
C
.
ª
§
k
­
_
”
_
¥
•
^
~
u 9
§ ®5”Jª<e@c ¯>Im±5² °Q€o9<Èb=?³8´>µ5sk¶89Hõ5¦âv? ±oü vz }<AQñ>-I ²@³ uJv eD¬š­Q±H²úCH°8­5±Q²_-I °Q€9
Èk=?kI ´¶µ¸·\bST¢UW¢C@ƒ*v
? EDd5`8C* wkx }@‚î9mÈk=@
? ¹=ºaN:^~52
ñ »J9*eJ¥J^XA8B\C ¼hKy9kÏ<I_õ_ý]O
A5BkY@ûî|a^ u C…=:¾ý ½¿¡ >4O Ào¶ms ‡ Á
õ mŒX
e °8€_-I ·=\8ShTVUXW>Jƒ]Â
? q v üm?he5ß5àJv
I ·\îÁ
õ <Č ÃÅ\Chƒ
”? ÆÈÇJI ´¶µy ɸÊ8N¢^k`8CYH¼5½J9yC.¦<?mZH[8”g¥_^>Câ=ýf~Q§Hš‚a”ª<@e ËÌ> ÍÎ:9*8€úC *”Ï&жѶÒ5s¡S Ó
Ý ‘_ªâ
§ ¹@º×>-I o5Î_
 'ÙØk
Y × 9 ^•e
‡ Y >?O<e@±5²5ÅQÐ>I<ç5è5éy9 Ô_PJ^…¼@½ v 4 Õ)֚€úCƒ…?ÔJ}mYhe>™@I
ÚJ&9 ÛkÈm@‚o9hO¡-^ —=˜JÈý 1¢ÝC Üt¢ƒ.}<~
þ
†‡Þß} àkáãâ=äåæçÈèêéÁëìíî@ïéðòñ:óMô)õ
ö5Î_M>=p\aNV^¶@Ê_qmI5µ5s¡¶vhHÊ2Ñ ‡÷2ø sùJ9;¡=@?he=úHs@ûHYvöHÎJI<Ý8àH–JI-ü)ý4·=\îí G }þâƒâ? j
–>I<À5ÁJ45
Ü Ò>º œ 9&ÿ oí G ^H`8CXY”:|8^kCƒQýf~¢`…I>õ_ý{O5‘gÂh2ÑÐ £ skSÓ ‡ C
5~=h2ÑvÐ £ s
SÓ ‡ C*ª§5ÙHeQHŽ_ / IŠ8”5G u N„C*=:ýQ‘y3)CVƒ•e t¡†8‡ˆ j5‰:9;b=h?¢` z ñtkN¢^8`kC*ª8§> O48
l ‹ Chƒâ?¢í z ?|h} ] Š c ~>µQs>¶kh Ê2Ñ ‡÷ø s¡ù IÂÚ ¡Y@ïHð¡ _O=¹ kÒkN¢^k`¡C+”g¥g^>C•NV^¡Cfe
ú s5û Y=h+Ñ Ð £ s>S+Ó ‡ 9kõ5¦? j –_IHðb bO«¸:¬ |h_Iv5Ü ÒJº œ 94ÿ îí G ^a`aC.9kõ5¦?he8ö Îg
H
j –>I4;@H< ”o|8^Â* ‡,Q. ˆ0/ 9&I)¬ 9 ?M;É< ƒ•e@ñš’HÑ5å@ægOaST:UXWa.Ô¢^H`8CXYv>D? C{O¡^•~yí v 9&©¡¯ IHú s
û I P <¼ ‘=oH 9kõ5¦?hÑ Ð £ s>SÓ ‡ âEoü 3 eJS@TVU•W¢C<S@T:U•WkI=¢b˜8N>OQP>R&Ç !I t>†a‡ˆ "úƒ*?
H
ST:UWaI#%$¡Y>@×
? C{Oþ» e:í v 9*å@æoObShT:UW>&aÔkN:^ >? '„Œ(<ÑkN¢^•~V`*IJõ¡ý]O P ¼ ‘¸JH <ekV* ® h
Ñ Ð £ skSÓ ‡ *Ž ),+.-0/1.24365474891.:*3;+<2‡V C=”J=¡^•~
A5B>1ƒ` A5B>?A@5A5B>)` „ „_C
„ B&A5BD1 ` A5BE? ` A5B>F…`…„_„ „_G
„ B&A5BIH…` AQBJ1ƒ` A5BK)`…„_„_„ L
„ B NŽ MD
>pQ\ ­>I5µ5sk¶MHh Ê2Ñ ‡÷ I<Ý\z Cƒ…?@e . s ÷ O ËÁ] fg)c PQ>õ_ýf~ . s %÷ O ˔ª<eSR NŽ MÝH I>õ_ý.9*ešA5B
YT=”g=_^•LQM9VUÅ?SW v*u IXY:9Hõ5¦?ZkUW>[€]Ž \„ \ƒa
 ^_¢ƒ…?¡=a¦}yŒ…IH ' ©`ê¢1 CacbeÉ` z 4<
dU5BúC+N:^•~ekU(W>[ uJv ø¡IkUXW>[FIgf>ª ' ©ê¢
1 C
5~ . s %÷ O Ë{”_ª
Í h¡IiJ=*A5BJ4H
Ü NSjk@sE[<Cfe š ÈHIjkhsJ[lf@”iJ= P ûhkYa¥ z23 f>4ö @ñmúU ‡nuJv O¡^p' o¢1 C
P ûh>IiJ= ŽŒ¼ q•©y9ž-Ãt ƒ N N¡= o¢Cro@e_¥¡^=šªSoVCfe>™@Io¢C P ûÃÈÍ hbY]Ž jk@sE[Dg• Ï9hªvg i\d{O
=w_
HÜ NSskhsJ[f4%ö 5˜tmúU ‡n ”@oÜ í z } ,' u1
4>p@H
\ N:^•~yz ü 3 eSv9w<’aN:^Vxf I . s %÷ O ˔_ªeSy'5±5²@5° €_IÙ%z5KkIâ³8´{òÆ uJv O¡^Vo Ž 5¤ Ñê
Cfe@Ý%|¶o
à |¡d¸Ñ}HN:^~€ -0‚A3;ƒ<‚¡C…=:ý„ÃÛ ƒ.}k@sE[ ugv O¡^oasJ=mkYö buDC{Ok¦.?>=>^~5N:^¡Cfe¢` z
Iv gfJ9QST:UXWÑQ”>I…S%'bYa¥¡^È>
? '_4WJU ^8`8CXY”o|a^•~
. s ÷ O ËmI<çúŒXZ5[Om˜_ª<eV` z 5A ÑJIg¹ M5Ü ÒaNV^Ä¡y¢ ªe2Hú s¶aû I5ð¡ b%³ †> J9V‡U ^bC*=:ýh`bCf”
¥¡^•~>™ z ª<eSˆ‰xaI<Ñ:9Š5E_I¡STVU•Wk-¢
× |Œ‹_“ õ¡ý*Oy`8C.9â%Vƒ*?b=_^•~QA5ñJIgŽ¢ uyv ˆx8Y× 9 }îChƒ
?he>™@ImÑ8” j –¡YÏ<I_õ_ý.9HGkN¢^ u Câ=ýHC+eÉ` z ª j –_IQ; u@z }w‘
µ :9Œ’“Ƀ…?@6VgU ^•e_¥g^<=Hªâ6 5 ^
Œ…I:C*OJ^~¢`H`(”HeS”=:
‘ 9JC.¦?¸¼ q@S@T:U•W>Ô¢^a`bC{rÆ •¢íhOa=Câ=oýh`bCYheSHð#³ †> ¡9—– 9 _ z ^
`8C*9_}_^•~É` z ªï5ð'g˜8èkN:^•¹ Ú IvÛ¡ uv ª4§ ƒHŒ œ ¢
W í z O8=<áüâ”g¥¡^âYheVƒ u ƒñ@’kÑ%™@>)F
Oâáüâ”g¥_^•~_Oš_O v3 e¡= u O¡^<µ5s¡¶>ŒXeQñ¸y
» 9&‘ fkY5; u@z }<8ŽúC:‘‘ fbI8@‘H’ CË ›¢^bCDÜ œk >OŒ
Ik9VZž e>™5I8“5I)¹— 9 ”5384H657EDýh`bC*ªâcDd…I4¡=
¢ Ÿ y†yU ^¢¡5”¥g^•~5N_OQPkR*e¡µ5s¡¶hªñH
Ž>Iˆxk4ú
E d£¤Q”_¥k¦â?he¡™@I<Ñ5”
354Q6579<;k=m?gWkYZ5[JO5
¹ ”_¥_^ u
¥h ]Ž ¦§h2
 ¨©>ªr«­¬a®S¯±°²%³´°µ¶
·¹¸Œº»¼Z½g¾±¿ÁÀ‰Â—ÃÄŗÆVÇÈÉÊgË«gÌS¯ZÀÍÎϗ¶
°‰ÂеµZÅÑÒÀӑÔcÑ´Õ«¹Ö­×بSÙÛڌº¶¸ÝÜÊόÞßÃà%áeÆVÉÊËc«gâãÅÁ½SäåVæçÏЁÙèS¦ZÆéê
ëì ÀÑÎÏ¢íSîï%ىð¾½S¶Z¸ŒñòÀóEÏrôõ¨ð¾½ö÷ø¿Sùú¾gûæ±çüÁ«Ùýþ±°ÁÿZç‰Ïµ´ºÆÁÜ
ÔeϱÀ­ÆÔeÏ
­¿c¿‰Ð—«´¯eµ°‘µÁí¹ÚŒºc¨c¿gäÃE¬ýþ±°æç ÙÞßñ‰òó¹ú¾
ûÃî æç‰Ï¢í
!#"%$'&)(*"%+-,.&)/1012435&76824+96'&)24+;:
<=>(*: ÐVµZÅSÚТÊ?SÆSç‰ÏĉŗÆÙ ¿äÀ
@%ÔeÏ»SÎÆ´@ABC¨‘¿äD
ÃgÜEZÀGFHIþ¨çÏ¢íJÃLK@MÓ%æJ¿ä¸ONŒÿeÆQPHRJª-SUTVc¨HÃGCeÆWXAº¹Ï¨ÙXÃYI¬ZSUT°
¸[@c¿äÃ\U]>З°Ï ÿãÐ^Ã_S¶Ãÿ@±»H`ÐVÃÜOa±ÀÙUC¨ c¿ä‘ÆbPRcNdÔ±µGeá%æf@gÔeωÐhS
TVÀij%ÔeÏ¢íkUlm%æ´Ù
npo ‘¿äDÃgÜOE q ÜOEZÆ7rtsÁ»ÁÞß@u@v q wxcy{z%ÃG|@} q â@~ q tµ¿äDÃÜE
€@@‚ o â@~Ã
ƒ„ q uUvð¾½gÄ q wxcyz…‰Ã
ƒ„ q â@~Ã
ƒ„ q uUvð¾½gÄ
ÐVµZÅréêÀGCãÐ-†‡ˆæ ëì g°S¨Z¸Q‰Š­ÆŒó¯‹V«µeªÐµ­ÅÙòŒÆ7gԏŽ¿gäG@Ñý’“•”H–—
䘑™¯‹—«š›Uœð¾½ÆžHŸætN»ícÁ¶ g°¨­¸ŒÙ@@¡Ã¢Ž1c¿äD‰ÃSÜE ˜c´ð¾‰½ÆLµS«‘ç±Ï¤£
¥ÃG¦J§g²³±À®%Ô Ï¤¨ZÆJ¶GF«°µGj­ÆÙXºc¨©ªæZç‰ÏQ«¬ÃG­É­Æ´®Ž1J¿gä˜IÐVµeÅh¯¦%ÒVðµ
ÞßÀ
±U²EÐÁ»
³U´ÑÒÃ%çµØïZÆG©ªc¶¸—Ã
@ƒ‰¨g·¹¸¢ºÆ±ª¢¶üg»ÄŗÆ7¶@·@¥¸Aæ´
´Êgº‰»í
—¶¸ŒÙ¹@ºZÆG»J¼Ïc¿ä@‰ÃG½¾À¿ ÁàÄ;ŢФÆ
ǭƗÙJ¿ä@•”H–—ä%ÆbÈ%Ô¹ÏɸÊËZ×ZÌc¿ ×´O
¿äÍÃL²ÎU¨>ÐVÃXÉÏÊ7Ðø@ѾJwÒS¿SƑÄü«O°UÓÔeϑÚcЌ¨gæÔNcÏ¢íA»ÕÖà Ф»‹ ÙJ¿äOí¬
Ãæ´°eª
wxµyzÀóÔ Ïp×Øc¿gäÀG‘Ô ϑÚcÐÐZÙ@ÚÛeÚÐVÃ
Ú Ü±´ÙOÝ%ïÞó´ÑÒ­Æ^ß±ÊÏCeÆà
¼7á%º ¸Ýº ϑÚcÐr¨âZµÁí¸Ú æ%ÙUã@ä>Ё@åeƔUæg÷Uç%¾D×°Gèé%Ùê¸ÆLlm°±ÂÃGëìÃ%ç±Ï©ªÀµíïî%ÙU‘%ý
’@“•”H–—‘äjæÃÆGð ¨EЗ«ñŽ9šòÃGóâ>Ð-ôõÃwxµyQz‘ÀG|IÏlUm˜@DÃGö ÷Àbøù‹Á»í»úX¢Ùð¾½
SÃZ¬Ã‘´ûü@ãÃG²ÎeÆ%Äcϑ¬Ãgæý@þÿ¨ç±Ï—ÃgæÙ ©ª ¸gÆ´UÖÃS¾ù æÃ÷ò‘ÃUÁ‘Àg«ÏÉ
Ê7ÐSøѾ wÒS¿ÁÀÁâ­üg»í¹ÚÃ@g@@´Ù
%Ãlm°‰ÂÆG»µg«ZÆ7%ËeÏEФƸsræç‰Ï¢í
ÊgºÊº´S¾ùæZÆ + 24016 ÐVµÅÁú¾gûÀ"!#tV«$t¯Á»í% + 24016 ÃGˆTZ´&­ü«'(æ%Ù)
× Œ Û%Ãe)Ã*ä>× Àá÷IТٹڌºÆȵ—«Ù,+-¸g»µ".Ã/V@ÜK@M±À10 0 032 + & ( ÃGe)æ4ґÔeόí
+24016 ´) × Œ Û%Ã65 yQz87¶±¸:9Ã;5 y¤z<7Ã=Æ
‰>ÔeÏ Ž?. ˜A@CBZÆî@CÃD@¨Ã
œÕ,E>ÐaÔ Ï:FØÃ
Å`—ÙG4ÒIHVº»J/@VÜKUM±ÀJK»ÔÛ¬Và úH¼tÀ+6 V«HA ТÎgÙ6L БÃLtµtð¾½ZÐV«÷Ô Ï¢íMON[)
× Œ Û%Ãð¾½Æ7ȵV«P%¾Q¨ RpÿU &S ÿ@ " R Ð 4%ÒÔeÏÐÙO@¡EÐ-‰Ã.¨+THVºÙ¹ÚVÃtíU.¶¸Á°
ϗ𾽨»ÆŒóI¸¢ºeÏ¢í¹ÚÃú¾gûÀÙ¹Úځæ´V9ÃG‘ %Ã;WYXƌ¯Zµ‰Ï¢í
ZY[\^] BÃ_`Ü@aÀ·¹Ï%a ç‰ÏŒÿ@ & ÀJbTcG.¶±¸°‰Ï.d𾉽ÆÈÔ¹ÏS¾ù æÃÇ`ZÀ !"e ç‰ÏŒÿgf
ÀbTcG.ZÆGcµ«hcN#».¶±¸Á°‰Ï.d𾉽Æ7È%Ô ÏVS¾cùæÃÇ`Ài0>ÐÔeωÐkj &e fÃÿU
»`gÃS¾ùælÃmn¶¸poqc« ! ¨r0ÃGãs ë Àb ÁSÙ¶@r0 Ä#¬Ç` ×utUôdšvw°‰Â7ÛÆY&
ÏxµÁôË¢À³zyÔ¹ÏQâ>ªÿ±ÀâEª{b-c­%ÉÙ#wxcyQzjæ & ¨%ftÄc¬Õ Ÿcsϑ¬Ã¹Ð ƒ|%ԹόíÛÚÚ
æ%Ùç±Ïrÿ & ¶±¸‘ÚrºÀb6c.}SÉÀ·¹Ï‰ÐÚG~Væ8 +Y24016 À¯eµÏŒí¹Ú—ÃV%ó±´ÙòíV°‰ÂÀ‚‘Àî
kSóÔeσЗÆbCąS²³Àþ†%Ô Ïp‡iˆQ~X°ä,*¸Ë”Ýæç‰Ï¢í
ZY[Š‰‹] wxµyzö‘÷‘ø¿gùSáñ,ŒRŽ "%+9('& 24=>0À= (’‘ Ž 6'03“2>=•”1$43 Ra8š@òUœ‰Ãĉŗ°S𾉽æ´Ù1HA?LA%°C
¨-HAH?g°°wxÔy¤z‘ÀV–µg«—àÃw@ÓÀë@ìtV«˜ªïǨèµsX É ü«µÏ¢íJAGB@¡ZÆtÃÕEZÀS¾ù
ææ™Uv‘Ô ÏÐى𾉽g¶Z¸+TæÔNLeŗ°wxtyzÃL\] ÆWpšZÀ› ¼Ï%ÚcЗ´æÔNĉÅí¸gº‘¨rR = (œ + 2‘
, + 2401( × ÷¿½¾-žJ–¿ Ÿz¡HÛq¢£¤ ‘u2 03¥ ד¢£{¨G¦z§HÛ¨RÐµ­Å Ç`æ±çcüg»eÐrÔ ÏÐ +24016 ÆtÂ
=>(4+92 , +92401(-©«ª ¢^{ ‘u2 03¥ ÅÐhá ÷Ô¹ÏЁÙXÃeÆY¬¯cÔ ÏS¾ù æƑÄü«‘÷¿S½g¾-,ž–¿ Ÿ¡z­Ã
w@ÓEЮ © ‰¨wÓ%ÔeÏ{­ÉÃwÓÀ°¯É‹Á»wLxtyzÀ
S™UÓ%ÔeÏÚÐr¨gætNÏĉÅÆ°‰ÏŒí¹Ú—Ãï@ͱ´  = (’‘
4+92 , + 2401(TS ¢£{ ‘±2>0²¥ ÅеZÅÙw@Óóz´ ФµTl´À ЬÆ7ëìµ»D¨¨‰µt°¶üg»­É Æ®%ÌEЗ°‰Ï¨Ù
¶ YZÆ@ÃıŰJD¨‰¨‰µ»­%É­´  =>(4+92 , +92401(iS ¢£{ ‘±2>0²¥ Å ÀJb-cGD¨±ÀJhÔNGSÔít¶ ¢ÙXí%É­´Ù
+·24016 æ@KUM)EÐV«·¹¸¢º».dZÆ7Èt5Hyz87ÀÄ ¹¸¶eªpºG»­ü«%ð¾c½Æ—ÔeÏUͨIþEÐV°t Ù
ڌº¨‘ð¾½Æ7È —«¸¶‘µ%伸Ëeפæ÷DׁÀ½6¾Š>c«­Ïĉŗ°¿À‘ïUÍ%æZçÏÚÐV¶Z¸ À=>(Á‘ Ž 6 0²Â2>=•” $Á43 ÐpÃ
ŸSæZµÏ¢í¸Åg°H¼ÁºJ[ =>(4+92 , + 2401( Ðz¢£{ ‘±2>0Ä¥ Àê­Æ
ëì g»GC‰¨ëì¨X`°œÇ`Õ«¨SîÃå
æä%½±ÐÝ°üg»t¾ùæ¨Lf@giHVºÙÏwxcyz‘Àf%ÔÅÆEÐLV«g·¹¸¢º±Æ6ÇÇÝ°üÁ«#AÅ¢¶¸ æç‰Ï¢í
S¾ùæ‰ÐÙ¹ÚÃO +{24016 À$S¯«gÓÈԖ—ätÀ ¶ âtÁ»í
É [GÊÌË:ÍÏ΋вÑÒÓÒÒ?ÔÖÕ×ÕØÎÙÍÏÚÛÑÜ-ÝÖÞߊÑàÞØáJÍÄâÕ×ã;âœäØÜ;ZåÑÁæçÚV[JÍÏÎÙÕ×è
\Ù] ©ªe¸—ÃgÜOEZÆY$%Ë«SÙð¾½g¶±¸ps ë À1Ž "Ø+9(*&)24=>0JÀ=>(Á‘ Ž 6*03Â2>=é”1$43 Æ%ÄüÁ«h•NgÔí
‰ç] S ¾ùætÆ%Äü«%ð¾½À
S™UÓt¢ÙjÈA "ê À¯Zµ«Š€‘À›ëtÁ»wxÔyzö•Ë”ÀL©ªÆYUg%í
ì ] ÉIíØöøT5LÐî¾JwÒS¿ra ©ªIÐÙºeÄ# ©LS²%³Z´§°µg¨SÜ@EÃ͵"‡@¦J§ï ×uðU¨¹¸7Û¨êƸV«SÙ¸wx
yzöc˔QjÃñS¾A7ÀVò~tÁ»t ýþ° yg¿SåÆ"€z‘ÀëON»µ¹óôtÁ» Á°¨Z¸š@ò@óâõí ôöà wxcy
z‘À
²÷ÔeÏ¢í
ø ] ©ªIТÃùTÀt¾ùæŒæOƒ„t¢ÙtÃÇ`¶¸ ùúÀûüµÁ°¨Z¸ ê FaÆ7óTcgí
»@úJŒÙ8ý3F ÆL»µ«I +?’24016 À¯Zµ%»j@Ö × ê ÛÃgï@ÍeÆÄü«S·¹¸Ýº ÏY_`%ÜUa´Ù & ÐfÊþ=ÿÀ
ûeÏQÍÆ%Ô ÏÐ>æçÏ®×]ÿ@ÃLWEÐZuþ´¸AæÃBº°±ÂâUÇ°b
cÆ%Äü«UÛ%¨Ù ë °¥±À
F»°‘µSUTV¨ç‰Ï¢íIÚÃ
´ÙåZÆrH—º»ð¾½S¶¸Áçόÿ@ & ¨rfÃz_‘¶ÂÅV¶%À²EÏgÆ´Ù
Æ´ ¶ YÆ & ÐVµ­Å ÿÀ ¶ Þßæ@W¨HË»þÆ6f¨³tNÏögÙç±Ïµ%´­Æ6fSÀ
W1H—ËeωР& ¨³ÔN‘ÏÁö
ÀûeÏ{Iþ¨‘ç‰Ï¶¸ræç‰Ï × ©õÌ`c¨¯è‘°âÀ
CE­ÆbÈtV«gâEÅSÚÐÝ´JÐVHVºeÏSTVÛ¬—ç‰Ï7ÛSí
! "$#&%('*)+%-,(.0/2143(576(8:9;<>=@?-A-
B  C Å ÆG»¸¼ÏDEÐ:÷ò¨E°±Ï—Ã%´ÙZÆgð¾½gÃGF¸ÃG(HwI°‰ÂgÀJKtÁ»Jóô𾉽Æ
ÈtV«#”–
—ätÀLâtÁ»»SÎæç‰Ï¢íS· ¸¢º»Ò@V‚X‘°ÇMONQPSRT$Ug¨VWXZY\[$]ON\^_U@`_RabZYc¨Gd-e\Ugf
hjiSklmnop$q
r\s VtcuvYSwyxTGctz|{O}\f~€ON_w_ƒ‚…„†ˆ‡Š‰Œ‹SŽ‰N‘G’“7”•—–˜š™›Yœtž¨Ÿt ¡z|¢£T¤™\¥t`
UZ›f˜š™—Y_¦§ ¨ª©¨«$¬N7~—Y$cSN—­$®Z¯-g}$°@V¦@§ ¨›©@„7Yœž¡Y±Z²¨³$´–-²@T‹ƒµ}YG–O¶ƒ›f$³N
·¹¸»º¼_½yU@¾-‚v·¡Y¿–ÁÀÃ×Uxvž¨¡¶7_~‚R\V¦§¤¨v©_Y\ÅƃǡTgȡɉ¨\Ê_˖²T$‹Zµ}y~_‚zÌ_ͯ
›f¤e‹ye›V-~~…–
ÀÏÎÐÑZYG±¤Ò—ÓÔ_¯¤ƒ‚g¥— tÕ×֛Ø7ÙGÚÛSY|Üѯ2¤±-e\UgÝÒvÞßÄe—`ƒUZY_à\V¤áƒx—UOx—â_ã@‹L¯_ä–S¶
—ÙåGæOÒ\çZã_èvéZY\êë$–SàQìí—`tU}7~‚–7¶ƒ—Ã
ÀŠîïvØð¸ñÓò$óô_¾õöîïv÷øŽù÷ú¸ñûü$òóô_¾¡ýSá›VêþZYtÿ“7¨7‚Ò¦@§2¨ª©¡zS}U@Ã
‚—UOx
ZÙ@{č—Z}\fÄ~› Y
OÒe—`V ‡Š‰»Ž‰ z|êƒ`cV_c ýyá|z|{S}\ftcvà\Óòó$ôú¸ñïvØ ¾‚
¥S}~‚—Y¡¶SOÒG^ZU`Y–O¶y›f~QYG­yà\V!#"7Y@Ô$yýSá›óô–Oà&% s' ²_)(_ÛS‹*ƒ¨
+ *,ª„- ¸/.0Z¾_ýƒáªÎÐyý1(ÛOÒ123yґµg`546¤eg}738 ¸/9„ƒY·¾_‹7›V;:<")"yY7=8¿_Y\Ô$Szê_`V?>
@óZYZwyx ý7ABƒÇ5CDƒY@ßSý¡U!(_ÛOÒE&F eQ`ZUZvf~~€–GIHSý|³Jà|VK(7Y5LM_þN–O#PQ Õ ¸SRT,1UWVYX
Z ¨5,[]\^yz?_O—¾Y@Ô$ƒÙa`2‚bOá ' ²|`_Uý¡US~_‚–y¶ƒvfIc5dtå?e7Ò_w—IfGV:<")"yàg Ph ÕY5i7z&jì-Ò
kl¯ mn›–V; Ph ÕY&opiƒÙrqéOýi r –$„-¯ ts@±Òu:<")"7çSwvw"x")"OYGÔÞ7Ù5y7âZµ\`VÎÐOý(Iz
‹7{}|~¤ã!€$Ñ2¥¤ƒ‚—Ux€å?e YGêë:‚ƒ‚„¯ ƒ‚—Ux…f-~Y7…V:Õ Ö›Ø P‡†‰ˆ‹ŠSà\Ó$òóô–OàE5F_¯-)Œ
Ò!-›2!5Ž–S¶S~‚ªÙâ$‹7›f
‚V¡cg àûüZY&‘ò’“òóô ¸ îï›Ø€Ž÷ ¾ ‚—UOx zêë-e\}-@Ҕ¯-#–S¶ƒvfóX•SY7–—
zê_`˜™_ћš/œ‡õœŒŽ õœž‰z}yáŸ| ó Ü ¸»Õ 7Ò!¡¢¯ £ŽƒÙâ‹OQٝVIE7F0‚¤)¥Ñš‚r¤§¦¨–2²t©é;¤
¦@§¤¨v©Yª«ÒQ˜OUgf$³OÒVšÕ Ö›Ø P‡†‰ˆ¬ŠSY­¦a¨š‚@e`¡à®Y5ªƒÙEF:‚x¥$Ñ:‚—U¤x)¯SY7°±òƒÙ²-³3?8a´_Y‚
þN–O¶7~_‚@e\‹GéZ‹O@ý$UgfT®$Y}°GVµOҥѯ-•X&¶_’GÙS¦@§ ¨v©-‚e`\Ê_˖²twƒxQý­¦·ƒÙr%¸:‚
ý_µ@}\fW®7~…–"¹»º½¼vÖ¾¿ˆÁÀ$ÒTÂܐ‡&ˆ‹¾!œŒŽˆÁ¾”œž5ˆ‹¾—Õ×îÄ…‚UOxøVûüòóôZY&ÅÆYÇ¡z7ȯ wƒxýÉÊWËIÌÍ
Î zÏÐ eg}wš/œ‡³ÑҜŒŽ&Ñgœž1ÑÄÕ×îvõ]š/œ‡!ÑgœŒŽ‰ƒˆ‹¾š‡œŒŽ1ќŒŽ‰ˆ‹¾³š‡œž1Ñ Õ î…‰ýƒáª–7àÓÔ¯¤ËIÌ\Ù¡ý‹Zµ@}}
°@‰ f-~—Y&Í Î ¥—ƒ}ËIÌ@‹yª{-›Z}¦G§¤¨ª©ÙcÕ –S¶ƒ›f
œ‡×֛œŒŽƒÖ؜žÄÖ0Õ×î(‚—UxÙÆYÇÇ¡ý1˜™Ñ_Ù ' ²—Vœž r –Sàûü(‚ƒÚOÒt˜™ÑƒY&’“ò ¸ õ ïvŽ õ ïtž ¾Û¤)$Ü-e
`_UZvfœY|ûü(‚ï¤Y&$Ü_ÙZ¦G§¤¨ª©@„–‚„¯¤~‚€ÙËIÌ@‹yÝ¥—Z}­ÞSàþßOҔàIbOágý$U\f
Õ îtY5ªVrá¡ÑVóâ(‚ãâƒÙ5Ú¤Ò!¥Ñ_¯¤›óãäåæ-e\U&ä(Sٍ› ›f r }\Vóç±7ÙEF¡¯¤\Yà&è8¤Ò
-e@}”ŒZÙ@Å©é–Vó ÜOÒ!éIêƒU}”Œ-ҝàëƒ 5ßíì îðï ý7á@ÒQ[aÔ¯ ñOzT¤\}ƒ›¯ò-‹Y&óô_Ù
¶_µ@}1ŒÒY¤tE7Feg}°±ò_ٜõ P/†öˆ‹Š7Y&÷øZ‹7#-›¤›f
³"—õù³úû"—õü:<")"ýƒáY\„-Z‹7#.0ú¸/"ƒP ÷Äý»Õ„-_¾ZÒQ‘-wƒx ý­¥ÑSàgœŒŽ õ]œžvY538OÒ¶}ƒ›f
þuÿ$җûü¯¤wƒx ýóôƒYŒ¡VÄÕ Ö›Ø P‡†‰ˆÁŠSà­¥ÑZY 8ÒY¤)-›2~‚ªÙ¡¶S›f
ýƒáY¤~‚vÙ\Ê_Ë¥2›f V"Ù¹»º½¼—Ö¾¿ˆ‹Àz U@`(Õ Ö›Ø P ƒ‚¡Õ Ö›Ø P‡†‰ˆ¬ŠOzÚ¤ÒêëÄeg}$â_ã–Sàý¡U1
Ò@´-eQ`Z¦@§¤¨ª©U”@•@z{7}‚~ V¡
c ªYZwƒxÒSÕ Ö›ØyÙ OU”ŒSY&_ÙVûüòó$ôZYÆYÇ¡z73¿Zz‹_ã|`-‚
çO~‚€Ù5 Î ¥—¤›f:Õ×֛ØOà\V#PQ Ղx?e—`Z‹_ã„Vi_Ù\Þ_߯¤~_‚ªÙ  ¡`_USvfÓòóô–Sàg#P
Õ@Y\^±IÊÙ`‚bOᤰÑ-¥—¤v¿g¤ý¡UO‚—UOx„†ZY&(‚øV-~Y-Õ Ö›Ø¡Þß_Ù@ÓòóôZY7¥Ñ38OÒ ' ²@ý¡U
~‚›Y tä-‚ à7~—Y – _䝯¤~¡‚ªÙ@–²vf
h ƒklmnop$q îóô–Oà\V„†7
Y Î!"-•X­¶¡’#Y 8S‹7% $u,5Ì'
&(X,gY7ñ_Ù
ZYô(‚ý_µ
}\f¯Zý
â )V*À $Ÿ,5Ì5*
&(X,—Ù5ñ7%z +,¯¤§ŒSY -.tà À $T,5Ì*
&(IX,QÙ5ñS%z +,¯¤# /ÿ 0213@Ã
ýƒá›
V $Ÿ,rÌ54
&(YX,ÙîOÒGç_U`5ñO%z +,¯ ~t‚ªÙ˜7Uy~¡‚›‹Ot
Sà~ª @%Ò .O6Ò 5č Z}|f Î!"
•X1¶’\„– Î 7 eg}Gc7Ò\^ZUG`V 8EtàWXS%à 9;:¯ —ٝVÄ~—Y
ZÙG{- ƒ}Yà îóô <>=yY_¦G§-¨ª©U”
•Ò\ç_UG` $T,5Ì54
&(IX,—ÙGθSý÷ø6Ò ? r V ~ªÙ2÷Oҝàý‹Zµ@}‹7€–S¶_µ@}\f
®7~…–V›ì š/³#" P/†öˆ‹Šgˆ‹¾!³úû" P‡†‰ˆ‹Šˆ‹¾!:<")" P‡†‰ˆ‹Šª‰#@
Ñ BA]¼h¹ðD¾ C ¹S¾¿ˆ AùUOEx -.–TËI̝z " ¹ ºù¼—Ö¾¿ˆ‹Àv– 5íG| FWI
b H
VK
c JªYZwƒxÒV La7Y MN}ì O ï×%z PQãZS RT*
– $T,5Ì5U
&(IX,Y&–S¶ƒE V;W_ٝ4
û XO~‚ªÙâ‹7›f$¯Zý
â )V³úû"—õ]³#"—õ :<")"0‚QUOYx R– Zt#Ù [_Ù| \V VWªS%à ]^_ZY&i¤ Ô$¯¤›f
¥@Ò*
V $ ,rÌ*
&(WX,@Ò_wµ|`rñZٍv-#Œ ‚øVč› s ¥Ñ¯ ¦G§-¨v©Sҗé7‹Z}_¦§ ¨ª©U¤”•
%z `a¯ ~t‚ªÙ–²›f$³OÒ4
V $T,Ì5*
&(WX,\Y&ñƒÙ5v-)ŒÒàҜ P ïý Ph Õ õ œ P ïvŽ Ph Õ õ œ×P ÷ PQ—Õýƒá
YIVIX Z ¨,>c¸ bUde7#Y fyUg;
é gS2z hZ°@j
V i + l
Z k ,ZY‚ mnt`a` opbUdY <=;z q°O—¾Ù;‚ r„-šY‚ [sZz|êë
eg}”Œ¤6Ò tƒÇZÒ!-—¤@¦@§ ¨ª©@–O¶ƒ~¡‚›#Ù uƒ°7 2›f >V pb*d ¸/"ú¾_Y&iSà|V¥Ñ¯¤)ŒvÒ :w™ V
WZYŒ2yÒ x:™ý_µ|`_USvf~—YGV4
Å z\gƒYYVWX Z ¨r,tiZYGÜÑSà|*
V $ ,5Ì5U
&(WX,Yñ4‚á\YSwSxgÒ&È_¯-
Y\–S;
¶ yx›‹@f
®l
Y {?}
, |‚@e—`$
c J—Ò\ç_UG#` `a¥—2¤xĂ_^Y\³Jyà\VaE&F:‚Ä¥Ñ$–iZY\ÜÑt#Ù ~(‚ ý_µ@}1ëú¸hœù¹ù¾@–S¶ƒvf
é 
V $ ,Ì5*
&(WX,\àëzóâ6Ò €;Äe—`e r Yx ‚Òàñ-²InQ\Ù ƒUS~t‚øVëOz ߯-væ „7#Y …ñòƒ#Ù M;N2¥
`S²wì † õ îðï f„†ZYœ P ÷ PQ Õà­ëyz|óâZ‹S ]'‡t6Ò ˆ‰_¯¤Š
 |S‹,\j
’ &>(7¨5,@zÝevVY®Y|Ô$Sà|óâ¤Òtë%z €
°@*
¯ Œý$%U =Ie–O¶y~_‚%z P;Qã|`ZUZvf~YZwyxQ%ý -;.7Y ‚yà1ëSÙ ]*‡ƒÒl
Ô ƒ Ž‹’ÌÒ¡¢¡¯ Y$ÙrABZÇ
Ú –O¶ƒƒ‚Ù¦a¨$–2²vf~—YI`‹œ Pñ PQ—Õà|V ];‘_ٖ—-¥¤6 7%Ò ’ Î ¥—-% “”YVWX*,—Ùë%z •;–¯ 
±OÒ
V “”TVIX*,_‚)_¯-6 —OK
• |VIX*,—\Ù ˜É隂Qýtµ`ZU75VWX Z ¨r,v–S¶y›f~—YWVWX Z ¨,—ÙÔÞZ¯-
òeSà­ëyY ™IšO%z ›œt¯¤tç±yz Äe›VY®GtI
Ù $T,Ì5U
&(IX,gY7ñš‚x ž¡¯¤_~t‚ à\V Ÿ7àg|ûI
ë ¡:‚…ó;â ¢æ
Y5ÈZ2Y £¥zÝ_¯g¤Y2¥‚ ¤lƒ› ›f V"Ù¹»º½¼—Ö¾¿ˆ‹À—–}ì œ Pñ PQ—Õ P YÑ œ Pñ PQ—Õ P‡†‰ˆÁŠƒïª‚—UxƒSz­~
² Î e—`ƒ¦@§¤¨ª©U¤”@•@yz ¦_ɯ¤_‚€Š
c §›Y7wƒx ýtÙ@{v`_UZ›f œ P ÷ Ph Õ P 7‚Äé ¨Äeg}w"ú P @%z ©
n_‚@e—` VOÒ@±‹2xÙ£Ž_Ù@郋7›f
ª
«¬®­°¯K±
‚ZY5?
:‚ü“SYZ•X1¶’¤‚@e`Y²*³,\’+Sà\VWË´$T,•X1¶’µ}ìj‡·¶ ïŸ ¨’IŽ¸uíì ‡‡ ï Ò\çƒU@`@´;¹-e@}
•X1¶t’\
” Ë + ‚ÄÚ;¡
º ¯¤ƒ‚~@
٘7UٝVWËIÌUI$;T
0 ,VÒ@çƒU@`Zà%»;Z
µ ÇZý2”IË + à¶7¤YY@VŠ{¼| Y2+
•X1¶t’¡ÒG^_U`¡Y2uI
dt
½ Ç\¾0
¿ ‚w
À (e`2S°$`\
Á –-²_¤YG–S¶yÛìj‡ŠŽ ï fl&ÂÔlÄGÅèyÆZÙ½Ç;¾¿O‹7
Ë*È Uu
$ ,ÊS
É Y *\ÈZ
Ë ’_Ò6Ì4
Í ¯¤%”²
Î ƒ¦*
Ï ,¤ªV ÀÑ&Ð + Y
Ò ÉÒyy
Ó z$‹_ãG`y•X1¶_’Ô¤
Õ Ò7
Ó z‹ƒãý¡UÖ
×Sz%
Ø d¤¥6¤
n g}°Ã-‚—UOxøf
ËIÌ7UI$j0Y,V@Y±Ù» ‚xª>Ù»z%Ú;ÛçOÒ%Ü;Ý}Þnàßiálâäãæåçèé#êìë;í6èUîïðjñò%óôõ¼ßvö÷løù
úûü;ýäþäßë%èè2ÿ
jõàßè
!"#$&%'(*),+-./10
-2!43657Ò18:91;=<>Ò?A@CBEDF èGIHFJLKMO#N òQP}
R Þà
S ßL'
T èQUV ëW ÿêŠ
X îjïðñèYF4
ßZ[
6\/;]O^\;;
_ ø` øa êU
X èY2bA3 Úc
U ýUþUß^FdIJ ý'þäß^egfQhIBL_iF\6j ÿk¸ è
2Yl
6\/;F%m ènh4¸f øodgYJ òqprA2^ ÿ*þ4ß=_dFJs^2tu=v*
w è4
T èx*
u òprA
^ èyz36{'ø|
} ý'þ4ß~an4æ\ ÿ
€2‚eƒ…„Q*
G ñF16†M4\‡ òF'
߉ˆD:Š…_gd$J 苌IŠ64*
Ž ß~‘’”“–•E—™˜›šœ1žLš Ÿ¡£¢¥¤¦š§™\¢ ò¨.
© õª
3 í~ue`6Š1­2;
8 õŠß^oæ` ÿ®d$J è:f¯€2°±FŠ1‹2'
Œ òöõ¼ß~²g³636´;
{ ý'þAjgfaµA¶·¸$ŠA;…€
« _ ø6¬}
¹ úUè6‹'
Œ èºl
» ø1w2¼4½…¾¿¥ ÿÀÁ2ÂÃÄÅOÆQ¼$ŠA;…€U
 è°±noh6Ƕ·:Š/ÈO@ ßÆQ¼n½
¾ ÿFh6ÇQÉ2Ê
`^o` ø'ß6Ë áA*
M î2ò1Yl"6\q'
; î;ïð;ñò%ûn2U
íÌ%_ öÍ
Î ý'þA6a
ÏÐ ýF4
_ î;ïðjñ2ŠÑnI
; èÒAÓ ýìëÕÔ×օà
Ø ã~ÙÚ:IfÜl
Û òÝ\;4*
ß1\3 ÿo_líun_AÞgßÜà'
á è@…u4@64
u è6¶
·'è4
â é\ýUþUß~aãäå2¼
æ îïð;ñAŠ6ÑAŠ
; ëSÿF֊
Ø ãÙ6çè"~é4êA2ë ñê'
X è6?4@kSB òÍì:\6íîI
Š øA1;4'
ß
Õ
ý
ð
ó
ñ
E
ò
1
Š
ô
o
õ
v
ö
U
è
A
÷
†
\
4
á
I
^
`
2
ø
ù
Š
Þ
z
u
4
;
'
~
ß
a
;
U
õ
ø
4
@
¯
v
ö
ú
_
™
Ô
n
é
z
ê
ë
2
>
ñ
Q
è
û
ü
}
ò
ý
þ
j
à
õ
/
ß
®
Ú
$
ÿ
Q
4
;
í
ï
ŠÑ4…; ÿAénêz#ë ñ2t è¼ëèýF;
_ øI¥ß ÿ4t èénê2ë ñò ï …\q;6
k`~à
u ß*èQû*
ü èyn
3 2M oŠg1
; è6Ò
*ònÑeFf/@uA@…
u 2èn^g`…Ö6à
Ø ãÙnŠä ï ò=A2
èýlþäß~aÿ
Ï FŠôA¼
õ ßîï%ðñ
ýO_ Ô í%èIòX4\
; ÿIm èoh4yf øzÖ6à
Ø ã~Ù3 I
Ž ß^Ú q$fL|4AŠ­:\1; !"Ê436ä
þ ò#$õŠß4/I&f %Uè
ý'Å \I
íj ÿ Ô í%èjòQXA\; ÿ(lò*)+^Ú:- ,/.U߉ˆD$1Š 0Aõ; 24
l 3jø456në:YJ òß;íA3 7V øA6a=Ï
Ð ýOU
_ íyè98:\:
5ë ð*î:J ý4è*î;ïð;ñè9;=<9¿6\/\; ÿ
 ýO*_ @BA*
R è4î;ïðIñ>òÓF`^AŠA\Qa CU
l èAÖ6à
Ø ãLÙ_½…4
¾ 苌k Å D:v\ ÿ°
± õ¼ß ˆD$*Š EF°±A3
>? €
öGýUþ4ßí¥ ÿ=
€ HPFŠ/
á I4=qˆDIŠ…K_ J=LMUø4m è°4
± èöGNAP3 OQ}Þ/¼
u ßa
Ž ß/R&ž S TVU X§ Wäø4vm ÿ‹ŒºU
» ø½…¾3…Š0 9/;A4
Y-Z[:#q3 \52PRgŠ? ]:\/;z=
Y~a
>? €gŠn
 è1ˆ
D ÿ_oë6‡64
M `aïë èGO_2
i .9b*
Ï è9ð c£ò ò*deF
Ž Ya
^ ? €*
_oë‡6=
M `aïë è9GA3 :`~f
u Y ˆDg :`*
u øqˆDnI
3 þ®B ÿnt èh:ijkk…\q9; JlmgŠ? ]õfYSb*deUè9n
3o þ/YíL3 OQp/q
I
u Y~a
ø4m èQ¨Xz
3 ®`~u ÿrs4è½±2
? ]2Ê:`^g`_ ÿ
 3*øQ‹Œ"6 è
Å Dnoh6PÇ 8tN"Y ö÷:Nz3 uoo`/u;nv
Y~a
t íEýF_I• x¡ w¥œ zž y¦|§ {#øzm 8®\6=
U
}#M áUò1I=
~ט›¡ ¢ €— y¦š=
§  š‚¢ Tƒ~‚{ § „œ U†š …ˆ‡×œ ¤ ò‰~‹¡ ŠŒy X— {‡1Š Ž \69 G ëþA\3 ÿ
à ë;
Ï e=3ø ï _ ԥ֊
Ø ãÙI
Ú ò «Aï …\6% eA*
| 萏l
y øovm ÿã2äåŠ
æ îï%ðñè#û46yI\Š þAI& )q+;A/
Y
a í
èAÖ6à
Ø ã~Ùç2èggf )q+/yIŠ6Ñ46\; ÿ‘’o=
_ pz`…
Š 5:” “4•=–—˜M4=
Ö ™#ë òó;ôõfYš2›4j
; ò*œAR:æ\ ÿžŸ
è9Ê4èAÖ6¼
Ø ãLÙ3 ¡õqY¢G'ò* n£
Yz¤¥'ò14
ä .ø3F
` íyè*î;ïð;ñòP¦9§ o û42a
¨ª©¬«®­
ð†¯ ò°S‰—€y±y¦š ¤³² ^°´ ² ^ §|y„y¦¡£¤„{ § ¢¶µ ¡ ¢ ˜›¡ œ¦§1W-‡ — œ&· ^ §|‡¥¡¸y¦¡ ¢ ˜›¡Lœ §1W-‡ — œ¹·º»‡ — œ š ¤¼…™§¥§½µ1¤ ˜ ¡ ¢ —Xy¦š§XT¿¾ — ¤¦¡€µµ ¡ó˜›š¤¦š§™¢ŸQ—XÀ š¢…Á·
ÂÄÃÆÅÆǂÈÊÉXˆÉÆÌXÍÎÅÆπ˶ÐÑÉXÒ±ÃxÅÆϸÓÆÔ¿ÍÕȽ̐Öf×ØÉXÅÙÍÎπËÑÚÛÇÜÏXȽÌÝÃ¹Þ |§ U ´ ßˆà ²Á{{ ´ ß|á|ß Tã⍯ ßäVå|à|à ñ|æ
ð å ò‰¼Ã ùúûçè×êé ¸Ô ëPìíUè9'ò*)î+Y6Ö6¼
Ø ã‰Ù K6MnNÖ4™H#î1Úª‡×œ¦œƒ{Äï ð|ðXW-W-W ´ ñ ¤¦œ ´ … § ´ ñ {¶ðX{yÆ𙗠¢¥¢¥§|ò¥¢ ˜›¡³ð å|à|à ñ àXóÁà â|ð
äVå|à|à ˆñ æ
ð ñóò‰Â ôõ÷
ç öøù Ô énêë ñê*
X è9úùúAÚ À
Á ûUÂÃn9Ý ü ä¿å|à|à |ñ æ
ð ó °ò ýX— …™¢ — ¢¥¿š ²ÛR ´ ïþý|§ y X— Ugý³¡ µ š — œ¦|§ y¦³¤ ïKÿy¦¡ ¶…ˆòÜy¦š Ü¢ …E„œ ‡¥š ˜ X— U ^ ‡ — ¢ ˜›¡ ¤qš=
¢ S ò¥ŸQ— ¢ º|§ y„U µ ² ÂÑÇÜÃÂÑǂÍÕÒÙÈÊÃÙÒxÈÊÏ³Ô¿Í ÉXÈÊÏXË
ñæ
ÉXÒ³Ó±ÇÜÉ
êÉXÈêÚÛÇÜÏXÈÊÅ‹Ã°Í Ó³ÅÙɈÃÙÒ ä¿å|à|à |
ð óò ¢‡×¤ X— W— ² ´ ²À — óX— À Κ ² ´ ² — ¶¢ µý— œ ±¤ ò¥Ÿ òy — ² ´ ²ª~ט›¡ ¢ X— y¦š§Qž‰¡ ™‹¡ U|§ {¥Ÿ¡ ¢ œ §™¢ S ¸¡ { — œ¦š œ¦š¤ > — ¶¢ µ ^ ²¥
² ¤¨V2Ã
Ô ¨2!
ì 2MIñ2Ö ñ#"ç1¶$
· AI
Ú øOm %'&=² )
D (¶$
· Ô in*N "!+-,“_•në6ËQÚ äVåˆà|à |ñ æ
ð cóò°ýš†Š¥—€… —³W—²Ø~ ´ ²,¡ œ—XU¿ïq~ ¡‹y„ò¥Ÿ.‰ŸŠ‚U — ¤¦¡¡‹U¡ — œ¦š§™¢'/ §|U U§€W š¢…‡×¡‹{ — œ¦š ˜y¦¡ ¤¦¡ ˜›œ¦š §™¢Aš¢{ — œ¦š¡ ¢¥œ¦¤ W š œ„‡n˜±‡y¦§™¢×š ˜1Uš0 ¡‹y
µ š ¤ ¡ó— ¤¦¡ ´2143 ÃÙÒxÍÎŃÏXÈ$576 ×98‚ÒƒÌ:6 ¯ ß ¯ ä¿å 拲 å ñ³T å ñ|â ä ¯ á|á c|æ
ð ß ò‰• „¤ òן§ œ¦§ ²Ý~ ´ ²™¡ œ X— UÎï,ە y¦¡£¢ µÝT ¡™—XU ò — œ¦š¢… ýBòUœ š¤ ˜£—€U¡;‰¢ —XU Š ¤¦š¤ §/ œƒ‡×¡¢S ¡‹{ — œ¦š œ¦š¤ ž~— œ — ¤ ¡ œ³² 1 ÈÜÈ<8 ÏXË= Ã>
ÜÉXұԔÉ>? 1 ÅÆÔ¿Í@XÃ
ñæ
AÍ ÈÜÍÕȽÌCBÿ×ØÅÙÍÎÃxȽÔVÍ DgÅ=¢ÃÆÓ³ÃÆÏXÒ±ÅÆÇPÉXÈ#E&ÒxÍÎÉXÒx͆Ô> 1 Ò±ÃÆϳÓB ¯ á ¯ÆTx¯ á â äVå|à|à |
ð âó°ò Œ~†š y¦‹¡ U†U ¿š ² ^°´ ý ´ ² ¡£œLX— UβFVy¦§™¢:§ ‹¡ y„U§ |— µ— ¢ µPy¦¡ „¤ { §™¢¥¤ ¡‰œ¦§Q³— T š¢¥œ¦‹¡ yG/ ‹¡ y¦§™¢6š¢x˜ ‡y¦§™¢¥š z˜ ‡¥‹¡ { — œ¦šœ¦š ¤ ÚH6 143 5JI¢Ï³Ó±Ô¿ÒÙɳÃÙȽԃÃÙÒ±ÉXË
¯ á|á LK á|à  ß|à Tx¯
ð á ò°S‰—€Š — ¤±¥‡ š¿²ˆSK² ¡£œÜ—XU¿²MF Ÿ{y¦§™¡ Ÿ¡£¢™œ §/*¤¦¡‹y±ò¥Ÿ¿— Ÿš ¢×§ œ„y — ¢¥¤N/ ¡‹y — ¤¦¡ U¡ ¡‹U¤ —O/ œ¦¡‹y¼{‡U¡‹¾*§ œ¦§™Ÿ1Šš¢9{ — œ¦š ¡£¢¥œ¦¤ W šœ„‡6˜x‡Üy¦§ ¢×š ˜
—™˜›œ¦šP ¡¥‡ ¡¸{ — œ šœ¦š¤ ^ — ¢ µQ¡xw ˜›¡ ¤¦¤ ‡×¡‹{ — œ¦š ˜‰š†y¦§™¢ 13 5#I¢Ï³ÓÆÔ¿ÒxɳÃÙȽԃÃÙÒ±ÉXË ¯ á|á€ó K â á ï á â|c³Tãâ ´
ð ¯ à òǨ — ¡‹y³²Áº£ºf² > ¡ —: ¡‹y³² Q¶² — ¢ µ > ¡ ¢/ §ˆyƵزÜ~ ´ ïR‰Ÿ¾¥š†…ˆòךœVŠ6— ¤ —TS ¡ ¤¦§|òy ˜ ¡R/ §|yLž‰¡ ¤¦š†…™¢Ñ² ^ SUF å|à|à ñ äVåˆà|à ñ|æ
ð ¯|¯ ò º §|… —€U œ¦¡‹y³²½ý ´ ~ ´ ¡ œ‰—€U¿ïKE ¡‹¦y ¤ §™¢ —X U šPó— œ¦š§ ¢§™¢4
º —X¦y ¢¥š¢Ü…~ š†… ¢×¤KEï •-¥‡ ¡VS§|U ¡Ì§/¼ ¡¸y ˜›¡ šP™¡³µWS¡¸U ¡ — ¢ ˜›¡~§ ¢'S ¡‹‡ — š §|y —XU
^ §™Ÿ{Ü U š — ¢ ˜›¡ ´ ÙȽԃÃÙÒxÈÊϳԿÍÎÉXÈÊÏXË 5ÁÉ 8½ÒxÈÊÏXËÑ>É ?U‹MÈ 8ÝÓÆÔ¿ÒxÍ ÏXYË X&҃ÌÝÉXÈÊÉ 3 ÍÎÅÆÓÿÞ §|U ´ ¯ ó ²Á{{ ´ å ñ™ñOZ åXóÁåä ¯ á|á€ó æ
ð ¯ å òV¢×‡ ¤ —XÜW —² ´ ï¹=ý §½µ ¡¸U U š¢~… œ„¥‡ ¡g ¦y § ˜›¡£¤¦¤&§/ ^ ‡ — ¢ ˜›¡ žLš¤ ˜ §7™¡¸y„Š ´ ¥‡ ¤›—€W —² ´ ²Á
ý ˜ > ò¦y ¢×¡‹ŠÁ²€ ´ ¡€µ ¤³² ÚÛÇÜÏXÈÊÅÙ[à ͆ӳÅÙɈÃÙÒ ²
~½{¦y š¢™… ¡‹y Þ ¡‹y„U —X…ܲ å|àˆà ñ ´
¯|ï énêëñêX*èãäåæ}î;ï%ð;ñ
å ï >? €*è1ˆDIÿ=à'\FŠ OÖ6ؼãLٓIH#î
ñ½ï[]N€'^Ê “>°S̬è`_D$Š/­;õqY6Ö6ؼã‰Ù“$H#îè
ó ï ûç ?a N€ “ ^ S å > ¬;è`^ÊFŠ/­;õqY6Ö6ؼã‰Ù“$H#îè
bïdcg¯ˆ²ec å ²ec ñ²ÜR ^ /Ff܀¹@A2R'òffY^ÊFŠ/­;õqYz
c½ïLð ¢¥§™œ ä R,žS T¿‡¥š†…|‡'g¬R,žS T¿U§|Wzæ&ò~[h$i:\q; • ¡xw¥œ žzy¦§|{òqF=ˆD
ß ï ^ ? €*è1ˆD'èAÖ6ؼã‰Ù“$H#î
âï ^ ? €^ÊýÿjcØTk å T㌠R TV‡¥š†…ˆ‡Ä²<cØTk å T㌠R T¿U §|W'òTlni`^Ê:`%èAÖ6ؼãLٓ$H#î
1
3 化学薬品データ解析
3.1 背景とねらい
コンビナトリアル合成技術とハイスループットスクリー
ニング技術の発展により,1週間で 100 万化合物のバイ
オアッセイが可能となった。遺伝子の発現プロファイルを
Combinatorial
Synthesis
High Throughput
Screening
はじめとするゲノム情報の活用も相俟って、創薬研究の
現場はまさに情報の洪水に飲み込まれている.これらの
ロボット技術が秘めるポテンシャルの高さは,実際すば
らしいものがある.しかし,データの解析法については,
ゲノムシーケンスや遺伝子の発現プロファイルに関する
ものを除いて,あまり大きな進歩がなかったと言えよう.
これら新しい技術の発展に際しては,得られるデータが直ちに夢の新薬の創出につながるような幻影がしばし
ば語られた.しかし,HIV のようにすでに対象タンパク質の構造が判明している場合でさえ,治療薬の設計は困
難な課題であり,いまだ決定的な薬品は存在しない.さらに,薬品の毒性・副作用に至っては,経験的な構造活
性相関に関する知識を蓄積していく以外に,その作用を回避する方法論は存在しないのが現状といえる.
このような現状を鑑みるとき,化学物質とその生理活性の相関という研究領域において,最新のデータマイニ
ング技術には下記の3点が求められていると言えよう.
多様な構造を持つ化学物質群を対象とした大量の生理活性データを扱えること
研究者が容易に理解できる形式で知識を抽出すること
新規データにおける意外性検出により,リスク検知と新たな研究の創発に資すること
これらの内容は,まさに研究者が大量のデータから有効な知見を見出し、それをもとに新たな研究の指針を立て
るという,知の上昇スパイラルであり,アクティブマイニングの目指すところである.
本章でのべる化学薬品データ解析の具体的な目標としては,上記の要請に対応するシステムを開発し,さら
にその有効性を実証することにある.そのため,下記の[1],[2]をサブプロジェクトとして設定する.
[1] 構造と活性間の相関知識をマイニングし,理解可能な知識ベースとして研究者に提供する
[2] 例外的な新規化合物が見つかった場合,類似構造検索によりリスクレポートを作成する
また,これらのサブプロジェクト毎に以下の(A),(B),(C)の過程を遂行する.
(A)
アクティブマイニング支援のためのシステム構築
(B)
多種多様な生理活性群を対象とするマイニングの遂行
(C)
薬学・毒性学の専門家の協力による知識の洗練とフィードバックの獲得
薬学者・毒性学者の協力を得て,これらの過程をスパイラル的に繰り返すことにより,システム性能の向上,対象
知識のレベルアップを計ることができる.これにより,構造活性相関研究とマイニング研究の双方の分野にとって
実りある成果を得たいと考えている.
2
3.2 取り組み状況
研究計画は,先に述べたごとく次の2つのサブプロジェクトから構成される.
[1] 活性プロファイル知識ベースの作成
[2] 例外的分子からのリスクレポート作成
下図左半分の流れが,化合物構造とその生理活性を記載したデータベースから各種の前処理を経てマイニン
グを実行し,生理活性を引きおこす化合物の特徴を見出す過程を示す.最終結果は,知識ベースとして格納し
公開される.また,右側の流れでは,化合物群に対して新たな生理活性が見出されたとき,それが既存の知識
ベースで説明されるか否かをまずチェックする.これまでの知識で予測できない場合には,その化合物構造に
類似した分子の検索により,既存の薬品等で未知活性の可能性による警告を発する.前処理過程,知識ベース
の作成と参照,リスク警告の評価の各ステップにおいて専門家との綿密な協同作業が予定されている.
MDDR Database
Structure
Antagonist
H
N
N+
N
S
H
O-
-
O
N
active
O
H
H
H
O
+
inactive
H
O
H
H
O
Alert
Preprocessing
HOMO, LUMO,
Dipole, LogP
Fragments
MINING
Activity Profile
Knowledge Base
Unexpected
activity?
SIMILARITY
SEARCH
New chemicals
Database
本研究への参加チームとそれらの役割分担は大略下記に示すとおりである.各チームは,対象活性の選定,
専門家による評価のフィードバックを始めとして,全ての段階で緊密な連携のもと研究を進める.
関西学院大学 (A03-10-1)
¾
対象活性および化合物群の選定とそれらに対する物理化学的属性値の推算,および作成
データの他チームへの提供
¾
カスケードモデルによるマイニングソフトウェアの整備・発展
¾
各種生理活性化合物群に対するマイニングの実行と知識ベースの作成・公開
3
大阪大学 (A02-05-3)
¾
AGM(Apriori-based Graph Mining)法によるマイニングソフトウェアの整備・発展
¾
各種生理活性化合物群に対するマイニングと知識の獲得
豊橋技術科学大学 (A03-10-2)
¾
TFS(Topological Fragment Spectra)による類似性検索手法の整備・発展
¾
薬物活性クラス分類によるリスクレポートの作成
大阪大学 (A01-04-2)
¾
帰納論理プログラミングによるマイニングソフトウェアの整備・発展
¾
各種生理活性化合物群に対するマイニングと知識の獲得
本研究では,前記4チーム中の3チーム(A03-10-1,2; A02-05-3)が平成13年度から基礎的なマイニング技
術の開発を行うとともに,変異原性データをはじめとするいくつかの小規模データベースへ適用し,その有効性
を確認した.また,平成14年度には,12 万件の開発薬品情報を記載する MDDR データベースからマイニングに
必要な情報を取り出すための利用環境を構築し,第1番目の解析対象としてドーパミン受容体のアンタゴニスト
活性を示す薬品群を選択して,その解析を行った.平成15年度は現在までの段階で,ドーパミンのアンタゴニ
スト活性を示す薬品群に加えて,アゴニスト活性を示す薬品群を解析対象に追加し,ドーパミン受容体とアゴニ
ストおよびアンタゴニストの相互作用の共通点や相違点などに関して総合的な解析を進行させている. また本
年度からは,A01-04 班も本研究に参加することにより,これらのデータに対してより広い範囲で各種マイニング
技術の有効性を検証している.
現在までに化学薬品データ解析で得られた成果の一端を示すものとして,以下の事項が挙げられる.
Predictive Toxicology Challenge 2000 -2001 において,ネズミにたいする化学薬品の発ガン
性を評価するコンペティションが行われたが,本研究のチームによる結果が,ルールの理解容易
性と予測の正確性の双方において,第1位を獲得した.
変異原性を有する化学物質に対してグラフ構造マイニングを行った本研究チームによる論
文が,専門誌 J. Computer Aided Chemistry の 2002 年度論文賞を受賞した.
4種のドーパミンアンタゴニスト活性を識別する課題において,予測率が平成14年度の
段階でおよそ 80%,平成15年度には新たな方法の導入によりおよそ 90%という高い精度
で予測を行うことができた.構造活性相関の専門家によれば,
「これまでの方法による精度
が 50%程度であるのに比し,この精度は驚くべき水準にある.」と評価された.
ドーパミンアンタゴニストの類似性検索により,リスクレポートを試験的に作成した.そ
こで高血圧治療目的のある薬品に,ドーパミンアンタゴニスト活性を持つ可能性があると
指摘した.たまたまその薬品は国内の製薬会社が開発したものであり,専門家も気づいて
いなかった可能性を指摘したため,当該企業による検討の対象となった.
今後は,MDDR 所載の GPCR 関連薬理活性を中心に検討の範囲を広げ,知識ベースの充実とその公開を
計っていく予定である.
3.3 解析結果
以下の各節では,それぞれの計画研究による現時点までの研究成果と今後の計画を,各計画研究毎に報告
する.
3.3.1 Cascade
Modelによる活性部分構造の認識(A03-10-1)
3.3.1 Cascade model
による活性部分構造の認識
(A03-10-1)
概要
1
本計画研究の目的は,多様構造を持つ化合物群から,特定の薬理活性が発現するために重要な化学構造の特徴
を抽出することにある.最終的には,多数の生理活性を対象にこれらの構造的特徴の知識を集積し,活性プロファ
イル知識ベースとして WWW により公開する予定である.このような活性プロファイルは,薬品との複合体が X
線結晶解析された少数の例では明確であるが,ほとんどの生理活性の場合,そのプロファイルを示す文献は存在
しない.製薬会社のドラッグデザイン専門家が何らかの新薬を設計する場合,仮説としてその構造特徴を意識し
ているわけであるが,これらの情報は感と呼べるレベルのものであり公表されることはない.したがって,その
知識ベースが作成・公開されるならば,学問的に見ても,また新薬開発の実用面から見ても、その意義は非常に
大きいといえる.
マイニングの方法論としては,研究者らが数年来開発を継続しているカスケードモデルおよびそれを発展させた
データスケープ探索の技法を用いる.これら技法の詳細については,文献を参照されたい [1, 2, 3, 4].研究者らは,
この方法の活性プロファイル抽出における有効性を検証するため,芳香族ニトロ化合物の変異原性 [5] とネズミに
対する化学薬品の発ガン性 [6] に適用している.特に後者は,国際ワークショップ Predictive toxicology challenge
2000-2001 の共通データを対象として行われた研究であり,世界各国からの参加者の中で,我々の得た結果は高い
評価を得ることができた.これら研究の概要は,昨年の共通データ解析報告書に記載されている [7].なお,我々
のマイニングにおいては,与えられた構造式をグラフとして考え,そこから多数の線形フラグメントを切り出し,
各化合物をそれらフラグメントの有無で特徴づけている.その方法についても,[5] を参照していただきたい.
2 次情報誌 Drug Data Report には,特許を中心とする開発薬品の構造式とその生理活性の情報が,毎年ほぼ1
万件の割合で報告されている.この雑誌の情報をデータベース化した MDL 社の MDDR データベース Ver.2001.1
(23.01) には,ほぼ 12 万件の薬品データが蓄積されており,それらにはおよそ 800 種の活性が付されている.こ
のデータベースでは,同一活性に対しても多様な化合物構造が存在しているため,活性毎の構造特徴を見出すた
めに適当である.化学薬品データ解析のプロジェクトにおいては,多数の生理活性を対象として解析を進めるた
め,このデータベースを用いてマイニングを行う.最初の目標としては4種のドーパミン受容体タンパク質に対
してアンタゴニスト活性を示す薬品を選び,これらの活性に特徴的な構造をマイニングすることとした.
本報告の次節では,対象データの解説から,前処理の内容,ルールの解釈に最小限必要なカスケードモデルの
解説,およびルール解釈過程の説明を行う.第3節では,各受容体毎のルールをもとに解析を進めて得られた構
造特徴を述べ,第4節で,今後の研究計画について記載する.なお,本チームの作業による前処理の結果得られ
たデータセットを,化学薬品データ解析プロジェクトの他チームにも供給している.
データと処理プロセス
2
2.1
対象データ
4種のドーパミン受容体(D1 — D4)に対して,アンタゴニスト活性を持つ化合物データ 1,364 種類が記載され
ている.検証用に 10%の化合物を除外し,残りの 1,227 化合物を解析対象とした.これらの中で D1 — D4 に活性
を示す化合物数は,それぞれ 154, 383, 234, 515 である.なお,同一化合物が複数の活性を示す場合がある.
2.2
処理の流れ
MDDR データベースの検索から始まり,得られたルールの解釈に至るまでの過程を図 1 に示す.図の上部では,
各活性毎に検索で得られた化合物セットに対し,塩の除去と同一化合物のチェックを行った後,Cache システムを
用いて MM-AM1-geo 法により HOMO, LUMO, dipole moment 値を計算する.その後,各活性毎のファイルを併
合して,活性クラスの付与,ClogP 値の計算,再び同一化合物の除去を行っている.なお,検証用に指定した比
率の化合物群をテストセットとして除外し,学習用とは別に出力している.各処理の間に記された SDF とは化学
構造表現用のフォーマットで化学構造式および化合物の性質を記したテキストファイルである.
図 1: 処理の流れ
後半の処理では,まず構造式中の線形フラグメント群を作成し,さらにこれを利用したカスケードモデルによ
るルールの生成が行われる.フラグメント群の作成については次節で説明する.生成されたフラグメント群中で,
データセット中での存在比率が過大または過小なものを除外して属性群として利用する.なお,keep-del list には,
存在比にかかわらず必ず利用/除外するフラグメントを指定する.
次いで,DISCAS (ver.3) で得られたルール群を解釈し,解析者自身のための作業用仮説を導く.他方,ルール
の条件に従って,ルールを支持する化合物群の構造を視察し,作業用仮説の適否を判断して,必要ならば修正を
加える.この構造式の視察段階では,Spotfire ソフトウェアを利用する.
構造式群の視察において,非常に特徴的な一群の構造式が表示されるが,これらの特徴を表す部分構造がルー
ル表現には現れないことがある.その原因は,線形フラグメントを属性として採用する基準にある.例えば,フ
ラグメントの出現比率が 15%—85%のものに限って属性として採用するなら,全体で 1,000 化合物が存在するとき,
150 化合物以下にしか現れないフラグメントは最初から説明属性として現れないことになる.しかし,表示された
構造式中に多数現れるからといって,これらをそのまま活性部分構造とすれば,その構造を持ちながら不活性で
ある化合物の存在を無視することになる.そこで,先に述べた keep-del list に解析者が気づいたフラグメントを
追加して再度ルール群を計算し,その適否を判断すればよい.このステップの繰り返しが,利用者のアクティブ
なレスポンスを解析プロセスに取り入れ,より良い仮説を構築するための中枢的な過程となる.
以上の処理の流れはかなり複雑なものであり,中にはアルゴリズムの存在しないステップもあるため,専門家に
よる作業が欠かせない.これらの作業をできる限り合理化するため,Excel と ChemDraw システムが統合された
環境において多数のマクロを作成し,創薬の専門家が効率的に作業を遂行できる環境を構築した.
2.3
フラグメント記述子の生成
構造式からのフラグメント記述子生成法は,先の報告 [5] を発展させたものであり,下記の方法によっている.
1. 指定した種類の元素および結合両端の原子を起点として,最短 path 長が max-length 以内のすべての原子と
の間で線形フラグメントを取り出す.
2. この線形フラグメントをその構成元素と結合の種類,各原子の配位数と付随水素原子の有無,および分岐構
造で枝上の最初の原子により特徴づける.
3. 利用者の指定した詳細度に従い,これらの線形フラグメントを記述する.
詳細な記述形式を採用すると,多種類の記述子が生成され,個々の記述子を支持する事例数が少なくなる.そ
の結果として,偏った分布を示す記述子が多くなり,活性の識別に有効なものが減少する.反面,簡単な記述形式
では,マイニング結果の解釈が困難となる.
本研究では,4種の記述形式を検討した結果,線形フラグメントの両端から2個の原子のみに配位数と付随水
素原子の有無を記載した形式を採用した.なお,線形フラグメントの長さは原子数が 10 以内に限った.例えば,
C3H:C3-C-C4H-N3 は 3 配位の CH と C の芳香環(:は aromatic bond)に,C-C-N がつながった構造を示す.3
番目の C には配位数と水素の有無は記載されない.また,3 配位の N に H が記されていないことから,この N は
3 級アミンであることが分かる.
ところで,これまでの構造式の視察により,分子内水素結合 XH..Y が重要な役割を果たしていると考えられる
場合があった.ここで,X, Y は通常酸素または窒素など電子的に陰性の元素である.しかし,上記のフラグメン
ト生成アルゴリズムは構造式のトポロジカルな情報のみを利用しているため,このようなフラグメントは生成さ
れない.他方,物理化学的性質の推定に用いた MM-AM1-geo 法は,半経験的分子軌道法計算により,不十分なが
らも分子の3次元構造を与えており,これから分子内水素結合の存在を推定することができる.
我々は,以下の条件を満たす場合に水素結合が存在すると見なし,それを表すフラグメント群 Xh.Y, V-Xh.Y,
Xh.Y-W および V-Xh.Y-W を生成した.ここで,”h.”が水素結合を表し,V と W はそれぞれ X, Y に結合する原
子を示す.
1. 原子 X が O, N, S または 4 配位の C で少なくとも1つの水素原子と結合していること.
2. 原子 Y が O, N, S, F, Cl, Br のいずれかであること.
3. XY 間距離が,Y が O, N, F のいずれかである時は 3.7 Å以下であり,それ以外では 4.2 Å以下であること.
4. X と Y の原子が直接に,または間に1原子を隔てるのみで結合していないこと.
この方法をドーパミンアンタゴニスト分子群に適用した所,431 種の水素結合フラグメントが生成された.それ
らの中で最も多く出現するものでもその確率は 10%以下であったが,前節で述べた keep-del list にこれらを記載
することにより,それらの重要性を確認することができる.
2.4
カスケードモデルとデータスケープの探索
マイニングの方法論として用いるカスケードモデルは相関ルールを発展させたものであるが,真の相関を表現
できること,ルールの強さを BSS 値という一つの値で示し得ること,等の利点が存在する.カスケードモデルで
発掘されるルールは,下記の形式により説明変数値の組み合わせと活性との間の局所的な相関を表現する.
Rule: 化合物数 U ==> 化合物数 D; BSS 値
IF 主条件 added on 前提条件群
THEN 目的変数: 分布 U --> 分布 D
THEN
説明変数:
分布 U --> 分布 D
ここで主条件,前提条件には説明変数とその値が記述され,また主条件の適用前後を U, D で示している.主条件
の適用により,対象化合物数,目的変数値の分布がどのように変化するかが記載されるとともに,ルール全体の
強さを表現する BSS 値が記される.また,説明変数の中に主条件適用に伴って大きな分布変化を示すものがあれ
ば,それも付加的相関として示される.
意義ある解析結果を得るためには,利用者がデータの全体像から詳細な分布に至る各レベルで,データ分布の
特徴を把握できる必要がある.我々はこれをデータスケープ(datascape)と呼んで,その把握を支援するルール
表現を開発した.詳細は文献 [3, 4] を参照されたい.
この新しいシステムを利用することにより,下記の効果を得ることができる.(1) 全体のルール数が削減され
る.(2) ルール群が少数の主ルールとそれに付随する関連ルールに分けて示されるため,全貌を理解しやすい.(3)
ルール強度を示す BSS 値が急激に低下する説明変数の領域を ridge として表すことにより,解析に有効な特徴あ
る化合物群を容易に探すことができる.
2.5
マイニング計算の遂行
D1 — D4 ともに各活性の有無を目的変数として,下記のパラメータ値を用いた DISCAS ver.3 による計算を
行った.
thres = 0.10, minsup = 0.01 (lattice 展開の詳細度)
thr-BSS = 0.010 (ルール候補リンク強度の最低値)
M DL-para = 0.2 (ルール表現の簡易度)
min-rlv = 0.7 (ルール間関連性判断の閾値)
また,数値変数のカテゴリー化規範値としては,HOMO(-9.0, -8.5), LUMO (-1.0, -0.5, 0.0), dipole moment (2,
4, 6) および LogP (2, 4, 6) を採用した.
例えば D1 アンタゴニスト活性の有無を目的変数とした解析では,およそ 12 分の計算で 83,040 個のラティス
ノードが生成され,大きな BSS 値を有する 123 個のルール候補リンク群が検知された.これらのリンクは最適化
により 19 種のルールに収斂し,さらに 3 種の主ルールとそれに付随する 14 種の関連ルールに組織化することが
できた.
2.6
ルールからの仮説生成
専門家がリード構造に対する合理的な仮説として認めるためには,ルールから出発したとしても,専門家自身
が活性値の分布や化学構造式の視察により,その内容を十分に納得する過程が必要である.本研究では,まずルー
ルの条件記述に従って,図 2 の右側に示すように,説明変数の値に従って活性/不活性の分布を表示する.専門
家はこのような表示から,(1) 主条件の適用により大きく分布が変化すること,(2) 前提条件の有無によりその変
化の度合いが異なること,を実感できる.
図 2: 分布と化学構造の視察
ついで,棒グラフや円グラフをクリックすることにより,その部分を支持する化学構造式の一覧が図の左側のよ
うに現れるので,ルール中のフラグメントが実際に重要な意味を持つのか,それとも単に一群の化合物に共通の
大きな骨格の一部を表しているに過ぎないのかを判断できる.実際,化学者にとっては構造式記述こそが想像力
をはぐくむ源であり,支持事例の構造式が提示されなければ,決して仮説が納得されることはない.さらに軸と
なる変数を変えて視察を行うことにより,当初のルールとは全く異なった仮説が導かれることもある.
専門家が気づいた仮説は,対応する活性値の分布を表示して,検証を行う必要がある.そこで仮説を表すフラ
グメントを新規の属性として加えて,再度ルールを生成して活性値の分布を見ることとなる.
主要成果
3
得られたルールについて,その主条件,前提条件と目的活性値の分布から,そのルールの重要性を概観するこ
とができる.しかし,開発薬品データベースを対象としているため,その化合物構造には偏りがあり,ルールの記
述をそのまま受け取ると間違った,あるいは解釈不能の仮説を導かれることがある.そのため,意味ある構造的
特徴を把握するには,(1) 他の説明変数との付加的な相関関係のチェック,(2) ridge 領域と関連ルールの調査,(3)
活性/不活性化合物群構造式の視察,等の作業が必要となる.
以下では,各受容体のアンタゴニスト活性毎に,DISCAS システムから出力されたルールで重要と考えられる
部分を示し,さらに考察を進めて見出された構造的特徴を説明する.なお,解析は現在も進行中であり,今後新た
な内容の追加あるいは改訂が行われる可能性があることに留意されたい.
3.1
D1 アンタゴニストの特徴
この活性に関して現れたもっとも強いルールは以下のものである.
Rule 1:
Cases: 413 ==> 91;
BSS = 29.00
IF [C3-C4H-C4H-N3: y] added on
[C4H-C4H-C4H-N3: n] [C3-F1: n] [C4H-C4H-N-C-C4H-N3: n]
THEN D1: 0.81 0.19 --> 0.24 0.76 (off on)
THEN D4: 0.44 0.56
-->
0.84 0.16 (off on)
主条件に現れる C3-C4H-C4H-N3 の部分構造が存在するならば,D1 活性化合物の比率が 19%から 76%へと大き
く上昇することが分かる.また,同時に D4 活性の比率が大きく低下する点も興味深い.
ドーパミン自体の構造式を図 3 の I に示す.主条件中のフラグメントは I のアルキルアミン側鎖の部分を示して
いるが,NH2 が 3 配位の N に変わっている.また,3配位の C は,必ずしもベンゼン環を指示しているわけで
はない.しかし,実際にルールの条件を満たす活性化合物群の構造を視察したところ,活性分子 69 の内でフラグ
メント中 C3 の部分は,ただ1つの含窒素 5 員環を除き他はすべてベンゼン環であった.したがって図 3 の II を,
D1 アンタゴニスト活性のリード構造と解釈するのが合理的である.なお,主条件を満たしながら不活性な化合物
には,C3 の部分が複素環やオレフィンであるものが多い.
図 3: ドーパミンと D1 活性のリード構造
3 種の前提条件の中で第 1 と第 3 の条件は N 原子を含むフレキシブルなフラグメントが存在しないことを示し
ているが,このようなフラグメントが存在すれば活性点への配位競合により,アンタゴニスト活性の発現を妨害
すると考えられる.なお,2 番目の前提条件の C3-F1 フラグメントの解釈は不明であるが,他の前提条件と主条
件を満たし、これを満たさない化合物 9 種には,すべて 2 配位の N を含む芳香環が存在していた.
このように D1 活性では,ルールの表現から非常に素直にリード構造の仮説を導くことができた.しかし,この
ルールは D1 活性分子 154 種中の 69 分子を説明するに過ぎず,ridge 情報や関連ルール群からさらに他のリード構
造が発見される可能性がある.
3.2
D2 アンタゴニストの特徴
この活性の最初の解析では,活性と不活性を導く主ルール各1種が出力された.活性を導く Rule2 の重要な部
分を下に示す.
Rule 2:
Cases: 1227 ==> 277; BSS= 24.86
IF [C4H-C4H-O2: y] added on [ ]
THEN D2:
0.31 0.69 --> 0.61 0.39 (on off)
THEN C3-O2:
0.42 0.58 --> 0.88 0.12 (y n)
THEN C3H:C3-O2: 0.34 0.66 --> 0.70 0.30 (y n)
New:inside
[C3H:C3H:C:C3-O2: y]
D2: 0.53 0.47 / 238
New:inside
[C3:C3-N3: y]
D2: 0.49 0.51 / 208
New:inside
[C3-C4H-N-C-C4H-N3: y] D2: 0.14 0.86 / 183
-->
-->
-->
0.81 0.19 / 128
0.93 0.07 / 60
0.83 0.17 / 29
このルールには前提条件がなく,片側にアルキル鎖をもつエーテル (C4H-C4H-O2) が存在すれば 0.61 の割合で活
性が現れることを述べている.しかし,その精度は低く,また専門家にとって,このようなエーテルだけで D2 活
性が発現しないことは常識である.そこで,この主条件の適用に伴って出現頻度が大きく変化するフラグメント
を見ると,C3-O2 と C3H:C3-O2 の出現頻度がそれぞれ 88%, 70%へと上がっており,エーテルの他方は芳香族炭
素へ連結していることが示唆される.
次にルール下部の ridge 情報を見てみよう.最初の ridge 情報は,芳香環を片側に持つエーテルが,主条件適用
前後でそれぞれ 238, 128 化合物存在し,その中ではそれぞれ 53%, 81%が活性であることを示している.これは
上記の付加的相関から推測された仮説を裏付けるデータである.また,2 番目の ridge から芳香環にアミンが置換
した構造が 93%と高い活性を示し,さらに 3 番目の ridge のフラグメントを持つ化合物でも,主条件適用後の 29
化合物中で 83%が活性を示す.まず,3 番目の ridge 中の化合物群構造を視察したところ,活性なものはすべて下
記 III の構造を有していた.2 番目の ridge 情報を考え合わせると,ortho 位にアミンとエーテルが置換した IV が
リード構造の候補として推測できる.実際に調べるとこの構造を持って主条件を満たす化合物 49 中 45 が活性であ
り,これが D2 リード構造の 1 つであると推測できる.しかし,これだけでは説明できない活性化合物群が 2 番目
の ridge には含まれている.残った 12 の活性化合物中で 11 種は,O と N 間が 6 原子以上隔てられた下記 V の構
造をもっていた.この構造は IV と同じ配位を可能とするものであり,これらが合理的なリード構造と考えられた.
図 4: D2 活性のリード構造
ついで,IV に含まれる N3-C3:C3-O2 のフラグメントを追加して,ルールを生成した所,次の関連ルールが現
れ,上記の推測を裏付けた.このルールは,活性化合物のおよそ 20%を説明している.付加的相関に現れる高い
HOMO 値も,有効な示唆と考えられる.しかし,付加的相関の最後の行は,主条件のフラグメントが存在する化
合物中の 83%で III の構造が出現することを示しており,この構造中で他の部分が活性に関わる可能性は残る.
Cases: 1349 ==> 59; BSS= 15.72
IF [N3-C3:C3-O2: y] added on
[
THEN D2AN:
0.31 0.69
THEN HOMO:
0.16 0.51 0.33
THEN C3H:C3-N-C-C4H-N3: 0.24 0.76
]
==> 0.83 0.17
(on off)
==> 0.00 0.19 0.81 (low medium high)
==> 0.83 0.17
(y n)
次に不活性を導く Rule1 を下に示す.
Rule 1:
Cases: 649 ==> 295; BSS= 26.14
IF [C3H:C3-C4H-N3: y]
added on [C3-C4H-C4H-N3:
THEN D2: 0.36 0.64 ==> 0.06 0.94 (on off)
New:inside
[C4H-C4H-C-C-N-C3=O1: y] D2 0.70
New:inside
[C3:C3H:C:C3-F1: y]
D2 0.65
New:inside
[C3H:C3H:C3-F1: y]
D2 0.62
New:inside
[C4H-C4H-O2: y]
D2 0.65
n] [C3H:C3H:C-N-C-C4H-N3: n]
0.30
0.35
0.38
0.35
/
/
/
/
89
118
124
180
-->
-->
-->
-->
0.21
0.12
0.10
0.12
0.79
0.88
0.90
0.87
/
/
/
/
24
25
30
40
このルールは D1 活性のリード構造が存在しない場合で,かつ芳香環と 3 級アミン間のアルキル鎖長が 1 の場合に
は,D2 活性がほとんど消失することを示している.これ自体も興味深い結果であるが,D2 活性解析の立場から
は,最初の ridge 領域に現れるアミド基が面白い.主条件適用前の 89 化合物中で 62 化合物が活性を示し,それら
は VI, VII の部分構造を持つものが大部分であった.これらはリード構造を示唆するものと言える.また,前記の
Rule2 で活性を導く C4H-C4H-O2 が最後の ridge 条件として現れており,ここでは本ルールの主条件が Rule2 の
D2 活性をうち消すように働いている.なお,F 原子があらわれる ridge の意味は,D1 活性の場合と同様さらなる
検討が必要である.
図 5: D2 活性を示唆する構造
3.3
D3 アンタゴニストの特徴
この活性の解析から現れたルール中で,もっとも明確なパターンを示したものは次に示す関連ルールであった.
Rule 1-UL4: Cases: 285 ==> 62; BSS= 25.90
IF [C4H-C4H-C-C-N-C3=O1: y] added on
[C3H:C3-C-C4H-N3: y]
THEN D3: 0.69 0.31 --> 0.05 0.95 (off on)
THEN D1: 0.64 0.36 --> 1.00 0.00 (off on)
このルールの前提条件はまさに D1 活性のリード構造であり,VIII の様にフレキシブルなアルキル鎖につながった
アミド基が共存すれば D3 活性が発現すると共に,D1 活性が消失することを示している.また,支持事例群構造
の視察からは,アミド基と D1 リード構造が近すぎたり,コンフォメーションの柔軟性がないならば,D3 活性が
発現していないことが判明した.
主ルールの Rule1 は,Rule1-UL4 と同一の主条件を持ち,適用前後で 232, 54 化合物がそれぞれ重なっている.
これら以外の活性化合物群の構造式を視察したところ,IX の構造が活性の要因であることが推察された.また,
この場合には主条件と共に D4 活性が完全に消失している.なお,VIII, IX の構造をもっていても,ベンゼン環の
代わりに複素環がある場合、および NH2 や CF3 が置換しているものは不活性であった.
Rule 1:
Cases: 727 --> 94; BSS= 42.91
IF [C4H-C4H-C-C-N-C3=O1: y]
added on
[C3:C3-O2: n] [C3-N3-C4H: n]
THEN D3:
0.80 0.20 --> 0.13 0.87 (off on)
THEN D4:
0.49 0.51 -->
1.00 0.00 (off on)
2番目の主ルールとその関連ルールでは,下記の2種が興味深い.Rule2 で選択される化合物はすべて X を持
ち,複素環で 2 配位の N を持たない.Rule2-UL2 が対象とする化合物群は上記と重なるものが多いが,X を含む
図 6: D3 活性のリード構造
化合物群以外では,XI の構造が散見された.実際,この化合物で特徴的な N3Hh.O2 のフラグメントを追加した
所,最後に示したルールが現れ,その支持事例はすべて XI の構造を有するものであった.これらは D3 活性のリー
ド構造と解釈できる.
Rule 2:
Cases: 536 ==> 67; BSS= 41.33
IF [O1: y]
added on
[C3=O1: n] [C3H:C3-N3: n]
THEN D3:
0.82 0.18 --> 0.03 0.97 (off on)
THEN C3:N2: 0.37 0.63 --> 0.01 0.99 (y n)
Rule 2-UL2: Cases: 1024 ==> 65; BSS= 29.00
IF [C3:N3H: y]
added on
[C3:C3:N3H: n]
THEN D3:
0.79 0.21 -->
0.12 0.88 (off on)
THEN D2:
0.35 0.65 -->
0.05 0.95 (on off)
Cases: 903 ==> 43; BSS= 29.74
IF [N3Hh.O2: y] added on
[C3-N3H: n]
THEN D3AN: 0.88 0.12 ==> 0.05 0.95(off on)
3.4
D4 アンタゴニストの特徴
この活性の解析から得られたルール中で,不活性を指示するルール群では,アミド基や D1 活性のリード構造 II
の存在が主条件として現れている.以下では活性を導くルールについて説明する.これらの中でもっとも明確な
パターンを示したのは,下記の Rule2 である.
Rule 2:
Cases: 631 ==> 162; BSS= 40.41
IF [C3-C4H-N3: y] added on [C3H:C3H:C-C4H-N3: n] [C3-C4H-C4H-N3: n]
THEN D4: 0.57 0.43 --> 0.07 0.93 (off on)
THEN D2: 0.44 0.56 -->
New:inside
0.04 0.96 (on off)
[C3H:C3:C3:N2: y]
D4
0.44 0.56 / 135
-->
0.00 1.00 / 41
主条件を満たす化合物群の構造を視察したところ,XII のフラグメントを中心として全体として左右に長くかつ
両側に bulky なグループを持つものがほとんどであった.ここで左側の共役系には,methoxy 基による置換や複
素環等を含んで良い.ただし,アミド基の存在は活性を阻害する.2番目の前提条件は D1 活性のリード構造が存
在しないことを意味する.この構造を有し,かつ主条件をも満たす化合物群は丸い形をした分子であるか,ある
いはアミド基を持つために不活性である.1番目の前提条件に現れるフラグメントは主条件を部分構造として含
んでいる.この非存在が前提条件として現れていることは,ridge で現れるフラグメントと考え合わせるなら,含
窒素複素芳香環が D4 活性に関与している可能性を示している.なお,この主条件適用で D2 が不活性となること
は,すでに D2 活性の項で述べた.
図 7: D4 活性にかかわる部分構造
次に下記の Rule4 と Rule1 を見てみよう.Rule4 の主条件は Rule2 と似ているが,対象をベンゼン環に限って
いる.前提条件は XIII, XIV の部分構造を持つ化合物群を除外するためであると解釈できた.なお付言すれば,最
初にアミド基が D4 活性を阻害すると述べたが,アミド基中の NH 水素が前提条件中のエーテル酸素と分子内水素
結合を作る場合は,活性阻害の効果が現れない.
Rule 4:
Cases: 856 ==> 156; BSS=
33.82
IF [C3H:C3H:C:C-C4H-N3: y]
added on
[C3H:C3:C3-O2: n]
THEN D4: 0.51 0.49 --> 0.04 0.96 (off on)
Rule 1:
Cases: 998 ==> 175; BSS= 44.27
IF [C3-C4H-N-C-C4H-N3: y]
added on
[C3-C4H-C4H: n]
THEN D4:
0.62 0.38 --> 0.11 0.89 (off on)
Rule1 では主条件のフラグメントが,piperadino 基を含むように拡大されている.結果の構造の視察により,この
場合もアミド基やエーテル酸素が活性を阻害する点は認められたが,前提条件の表現とは直接つながっていない.
この条件の意味についてはさらなる検討が必要である.
4
今後の計画
本報告では,4種のドーパミン受容体に対してアンタゴニスト活性を有する化合物構造群を対象とした解析の
中間的な結果を述べた.MDDR データベース中には,本報告で扱った以外の薬品でドーパミン受容体に関連する
ものとして,アゴニスト活性を有する化合物群が D1, D2, Autoreceptor の3種に対して記載されている.我々は
すでにこれら化合物群の前処理を終了している.さらに,(i) これら3種の受容体に対するアゴニスト間の相違を
明確化するための解析,(ii) D1 および D2 受容体において,アンタゴニスト活性とアゴニスト活性を示す化合物
群の差を明らかにするための解析,を並行して進めている.これらの結果を総合して考察することにより,ドー
パミン受容体タンパク質と相互作用するリガンドにおける特徴的構造の全体像を浮かび上がらせる作業を進行さ
せている.
ドーパミン受容体と同様に神経系の膜表面に存在する GPCR タンパク質群は,全く同様の手法で解析可能であ
り,しかもそれらは創薬のターゲットとして大きな期待がもたれている.具体的には,セロトニンやオピオイド,
ヒスタミン,アドレナリンなどを対象として,解析を進める予定である.また,解析結果を知識ベースとして蓄
積し,WWW を通じて世界へ向けて発信するための作業も開始する予定である.
参考文献
[1] Okada, T.: Rule Induction in Cascade Model based on Sum of Squares Decomposition. Principles of Data
Mining and Knowledge Discovery PKDD’99, LNAI 1704, 468—475, 1999.
[2] Okada, T.: Efficient Detection of Local Interactions in the Cascade Model. Knowledge Discovery and Data
Mining PAKDD-2000, LNAI 1805, 193—203, 2000.
[3] Okada, T.: Datascape Survey using the Cascade Model. Discovery Science 2002, LNCS 2534, 233—246,
2002.
[4] Okada, T.: Topographical Expression of a Rule for Active Mining. Motoda, H. ed. Active Mining, 247—257,
IOS Press, 2002.
[5] Okada, T.: Discovery of Structure Activity Relationships using the Cascade Model: The Mutagenicity of
Aromatic Nitro Compounds. J. Computer Aided Chemistry, vol. 2, 79—86, 2001.
[6] Okada, T.: Characteristic Substructures and Properties in Chemical Carcinogens Studied by the Cascade
Model. Bioinformatics, vol. 19, 1208—1215, 2003.
[7] 元田浩編: 情報洪水時代におけるアクティブマイニングの実現 共通データ解析報告書,第 3 章 3 節, 2002.
3.3.2 立体グラフ構造マイニング手法と生理活性相関解析への適用(A02-05-3)
立体グラフ構造マイニング手法と生理活性相関解析への適用
概要
医療や化学などの分野では,多くの化合物の情報が化合物分子構造グラフとして表現されデータベースに蓄え
られている.このようなグラフ構造データの蓄積は,医療や化学の分野に限らず各方面で進行しており,アクティ
ブデータマイニングの対象になりつつある.このような研究の流れの中で,データベースに蓄積された大量のグラ
フデータから部分グラフとして含まれる特徴的なフラグメントを抽出するさまざまな手法が提案されている.フ
ラグメントの抽出は
完全である部分グラフ同型問題を含むため,実用時間での抽出は非常に困難な問題であ
る.例えば, のように一階述語論理を用いた帰納論理プログラミング はグラフを強力に表現で
きる.しかし,この手法の探索空間は非常に広いため,実用時間で抽出できるフラグメントはごく小さなものであ
る.そのため,フラグメントを抽出する手法は
や のように計算時間の観点から 探索を用いるものが多い.また,完全探索を用いる手法では,抽出される部分グラフがループや枝分かれを含ま
ないフラグメントに限定される ,連結グラフと呼ばれるすべての原子が繋がっている状態にある一部
のフラグメントに限定される ! "# "$ % など制限のあるものが多い.これに対し本研究プロ
ジェクトでは,グラフデータベースに誘導部分グラフとして含まれるすべてのフラグメントを完全探索で抽出す
る
アルゴリズム & ' を開発してきた. アルゴリズムは頂点及び辺が複数の種類(ラベル)を持つ有
向・無向グラフから特徴的パターンを抽出する.この特徴的パターンは連結グラフに限定されず,互いに連続せず
分離した位置にある誘導部分グラフも抽出可能である.
しかし,上記の手法はいずれもデータベースからグラフで表現された部分パターンを抽出するものであり,医
療や化学をはじめとする多くの分野で需要が高い立体構造の部分パターン抽出には利用できない.上記の手法の
中で,"# はデータベースに含まれる立体構造の情報を用いて部分パターン抽出を行う.しかし,この手法
は従来の で抽出されるグラフ表現の部分パターンをいくつかの立体構造情報を使用してフィルタリングする
ものにすぎず,立体構造の部分パターンを抽出することはできない.そこで本報告では, アルゴリズムを使
用して立体分子構造を解析するための手法を提案し,その実装,性能評価を行った結果について示す.提案手法で
は アルゴリズムで使用するグラフデータと頂点が 次元座標で表現された立体構造データを扱うことが可
能であり,このデータの部分構造に含まれる特徴的な立体構造パターンを抽出する.
アルゴリズム
アルゴリズムの概要
アルゴリズムは,$(( アルゴリズム をグラフデータに拡張したアルゴリズムであり,グラフデー
タベース が与えられたとき,$(( アルゴリズムと同様にユーザが指定した最小支持度 )(%*+$ と呼ばれ
の中に最小支持度を上回る支持度で誘導部分グラフとして含まれるグラフのみを効率よ
く抽出するアルゴリズムである.グラフ
の支持度 は,
る閾値を使用して,
, を誘導部分グラフとして含むグラフの数
に含まれるグラフの総数
で定義され,グラフ
の支持度
が最小支持度を上回る場合,グラフ
を多頻度グラフと呼ぶ.
アルゴリズムの探索はグラフの頂点数をレベルとして,頂点数が の多頻度グラフから逐次的に頂点数
が多い多頻度グラフをレベルワイズに抽出する.図 に アルゴリズムの概略を示す.はじめに,頂点数
が の多頻度グラフをデータベースより抽出し,それを に代入する.次に,関数 $(("%-(% では,頂点
グラフデータベース
頂点数 の多頻度グラフの集合
·½ 頂点数 の多頻度グラフを合成したものの集合
頂点数 の多頻度グラフの候補の集合
最小支持度 閾値
½ ·½ ·½ ·½ ·½ ! ·½ ·½ ·½ ·½ "
#
図
. アルゴリズム
の多頻度グラフから頂点数 / の多頻度グラフの候補を生成し,それを 0 に代入する.次に,関数
$(("%$+% では 0 に格納されている多頻度グラフの各候補について,多頻度グラフであるための必要
数が
条件を調べる.この条件を調べることで多頻度グラフの候補の数を絞りこむ.絞りこみで残った多頻度グラフの
候補のみを に格納する.次に,関数 1+%2 ではグラフデータベース
にアクセスして, の各要素の
支持度を求める. の各要素の支持度が最小支持度を上回る場合は,そのグラフを多頻度グラフとし,それを
に格納する.以上の操作を が空集合になるまで繰り返し,グラフデータベース
に含まれる多頻度グ
ラフをすべて抽出する.
アルゴリズムの詳細
アルゴリズムで扱うグラフは頂点,辺に種類を表すラベルを持ち,以下のように定義される.頂点の集合
,辺の集合 ,頂点のラベル集合 ,辺のラベル集合 が
, , , , , ,
, , と与えられたとき,グラフ
は
, , をグラフ の大きさとする.
および はそれぞれ 頂点 のラベル,辺 のラベルである.頂点ラベル および辺ラベル にはそれぞれ と表現される.ここで,頂点の数 によって自然数を以下のように割り当てる.
ラベル間の順序関係
グラフデータベースが与えられたとき,それに含まれる頂点ラベル を持つ頂点の数を
とする.
が少ないものから自然数を昇順に割り当てると,生成されるグラフ数は少なくなる &.つまり,
(3 3 , , に割り当てる自然数も同様に,
(3 3 , , とする.辺のラベル
とする.
隣接行列
頂点数
は
のグラフ , が与えられたとき,隣接行列 の 要素
(3 , , #
(3 で与えられる.さらに,グラフ
は頂点ラベルに割り当てられた自然数によって,
3 , の条件を満たすように行と列をソートする.
多頻度グラフの候補生成 部
多頻度グラフの候補生成は,頂点数が
の多頻度グラフを合成して頂点数 / の多頻度グラフの候補を作成
する -(% 部と,合成された多頻度グラフの候補が多頻度グラフになるための必要条件を満たすかどうかを調べる
$+% 部の2つの部分から成り立つ.-(% 部では以下の条件を満たすように多頻度グラフの候補 を順に
生成していく.
の多頻度グラフを つ考え,その隣接行列を , とする. , の 行及び 列以外の
頂点を除いてグラフ表現が等しいとき,以下のように ,
を結合し,頂点数 / の 隣接行列 を生成する.
条件 頂点数が
要素が全て等しいとき,すなわち各グラフの第
,
Ü
Ü
#
,
Ý
Ý
#
, Ü
Ü
#
Ý
Ý
#
vk+1
+
(
G(Xk )
v v
k,
k+1
)
vk
G( Yk )
G( Zk+1 )
. 多頻度グラフの候補生成例
ここで, は頂点数 のグラフの隣接行列,Ü Ý , は の縦ベクトルである. ,
をそれぞれ の第 生成グラフ,第 生成グラフと呼ぶ.
条件 , として,生成される の頂点ラベルには以下の条件がある.
図
·½
·½ ·½
·½ ·½
表現
に示す. , の各頂点は,白色が同じグラフ
の頂点,黒色が各グラフの 頂点を表す.このとき,生成される の頂点 と頂点 , の 頂点であるため,この 頂点間の辺 は , より作成できな
条件 条件 による多頻度グラフの候補生成の例を図
はそれぞれ
/ 要素 い.つまり,隣接行列 の できない.
/ 要素 は から決定することは
および 条件 そこで,隣接行列 は以下の条件を満たすものすべてが作られる.すなわち,
0
45 , % , # % # である.有向グラフの場合は / 個のグラフが生成される.無向グラフの場合は であるため,
/ 個のグラフが生成される.
条件 ここでグラフ
, と の第 頂点のラベルが等しい場合, をそれぞれ第 生成グラ
フ,第 生成グラフとして つのグラフを結合した場合,このグラフは冗長である.そこで,このような冗長な
生成を避けるため,以下の関係にある場合にのみグラフを結合する.
67
第 生成グラフ 67
第 生成グラフ
以上の つの条件のもとで生成されるグラフを正規形(%)
3)
)と呼ぶ.
多頻度グラフの候補生成 部
0 が多頻度グラフであるための必要条件は,
の全ての誘導部分グラフが多頻度グラフであることである.そこで,この必要条件と等価である以下の
必要条件を調べる.
前節の
-(% 部で合成された多頻度グラフの候補 誘導部分グラフの必要条件
グラフ
が多頻度グラフであるための必要条件は, の第 頂点 を除去してできる
グラフが全て多頻度グラフであることである.
先にも述べたように,このアルゴリズムでは正規形の隣接行列しか探索生成しないために,第 頂点を開放除去し
たグラフの隣接行列が正規形でなければ,それが多頻度グラフであるかを過去の探索から容易にチェックする事が
できない.よって,非正規形の隣接行列を正規化する手法が必要である.
正規化の具体例を図
の非正規形の隣接行列 の正規化で示す.
はじめに頂点が つからなる の部分
グラフの隣接行列を考える.
多数ある正規形の中で,最終的に つ正規形が見つかれば十分なので,結合の組
み合わせを限定し,
からなる隣接行列
を元にして結合を行う.
6 結合により得られない情報,例えば,
の 要素,
要素は元の隣接行列
の 及び から補う.
次に頂点数が の隣接行列の結合を行
う.
このとき隣接行列のコードが最小の行列を第 生成行列とする.ここではコードが # の隣接行列が つあ
るが,どちらか一方を選択する.以下,順に繰り返し,非正規形の隣接行列
を再構築し正規化された行列を
得る.
上記の方法によって頂点を除去した全てのグラフが過去の探索結果から多頻度グラフであることを確定できれ
ば
は多頻度グラフの候補となり,
に格納される.
全ての多頻度グラフの候補を取り出した後,実際にデータベースをスキャンして,それらの支持度を求める.し
かし,異なる正規形のグラフでも同型グラフが存在する場合があるため,支持度を計算する前に正準形を求める
処理が必要となる.正準形を求める処理と支持度の計算方法については文献 & を参照されたい8
の各要素
について多頻度グラフの候補の支持度を計算して,その支持度が最小支持度を上回る場合には,その多頻度グラ
B
v1
v2
v3
v4
v1v2v3v4
0
0
1
0
0
0
1
1
1
1
0
1
v1
v2
v3
v4
0
0
0
0
A
C
0
1
1
0
011011
v3
v2
v4
v1v3
v1v4
0 0
0 0
0 1
1 0
0 0
0 0
0
1
0
D
==WoÉ]ÈÌX4
v1
v1v2
E
v1v2v3
v1v2v4
0 0 1
0 0 1
1 1 0
0 0 0
0 0 1
0 1 0
011
001
v1v2v4v3
0
0
0
1
0
0
1
1
0
1
0
1
1
1
1
0
=WV·îÁ
É]ÈÌ
001111
図
. 正規化の例
フの候補を多頻度グラフとして, に格納する.つまり,
(3 % 25% である.
アルゴリズムの高速化
8 の のように,頂点数が の多頻度グラフ と を結合し,頂点数が / の多頻度グラフの候
を生成する場合を考える.グラフ の要素 と は から決定することができ
ないため,辺のラベル数 に応じて条件 で示された数のグラフ が生成される.そして,生
成されたグラフ に含まれるすべての誘導部分グラフが多頻度グラフであることを確認するために,それ
と等価な必要条件を確認している.この方法では合成されたすべてのグラフ について,その誘導部分グ
補
ラフを正規化する必要があるため多くの計算時間を要する.
の頂点 とその頂点間の辺 , から構成される頂点数 のグラフ に着目する. が多頻度グラフになるためには,その誘導部分グラフである も多頻度グラフであ
ることが必要条件の つである.つまり, が多頻度グラフでない場合は, も多頻度グラフになり
得ない.そのため,このような合成を行わない.そこで, では条件 の代わりに以下の条件 9 を使用する.
そこで,
条件 3 ! 25% 0 45 , この条件 9 は にあるグラフ のみを合成するため,そのグラフの頂点 と辺 の各ラベ
ルも限定されている.そのため,条件 9 は条件 よりも制約の厳しい条件である.提案手法はこの条件 9 と条件
条件 条件 を用いて多頻度グラフの候補 を生成するものである.この提案手法を 9 アルゴリ
ズムと呼ぶ.9 アルゴリズムではこの つの条件によって作成されたグラフを改めて正規形と定義する.
9 アルゴリズムで合成された 0 は 8 で述べた必要条件を確認するために の誘導
0 は,
部分グラフを正規化する必要がある.しかし,9 アルゴリズムで合成される多頻度グラフの候補数 従来の アルゴリズムで合成されるものよりも要素数が少ないため,正規化の計算時間を短縮できる.また,
条件 9 は必要条件の一つであるため,8 ですべての必要条件が確認された後に残るグラフの数 は,
アルゴリズム,9 アルゴリズムともに同じである.
主要成果
立体構造データの表現方法
アルゴリズムはグラフ表現のデータを扱い,データベースから部分パターンを抽出するが,立体構造の情
報を含むグラフデータを扱うことはできない.そこで,本稿では立体構造のグラフデータを扱い,データベースに
共通して現れる多頻度の部分パターンを抽出する手法を提案する.提案手法では図
に示すようなグラフの各頂
点が 次元座標で表された立体構造を扱う.この立体構造から各頂点間の距離を表す距離行列を計算し,計算さ
れた距離を離散化する.この距離行列の計算と離散化の方法については以下で詳しく述べる.提案手法では,離
散化した立体構造の情報をグラフの新たな辺ラベルとして扱うため,辺ラベル数が多数になる.そこで,立体構
造パターンの抽出はラベル数が多い場合に高速な 9 アルゴリズムを用いる.
距離行列の計算は,頂点が 次元座標で表された立体構造から各頂点間の距離を計算し,立体構造を図
の左側
に示す距離行列 : で表現する.距離を用いて立体構造を解析する手法を用いる利点は,距離以外の立体構造デー
タを使用しないため,立体構造モデルの回転や移動など座標系の影響を受けないこと,立体構造の同一性の判定
は,距離行列の各要素を比較することで実現できるため,容易に判定が行えることである.
H
C
x
y
z
C
(5.5365 , 4.0624 , 1.2901)
N
(4.2098 , 4.0624 , 1.2901)
Cl (5.8930 , 2.7082 , 3.8542)
N
図
次元座標
3
Cl
H
(6.4381 , 4.9983 , 1.4567)
. 次元座標で表現される立体構造
離散化による前処理方法
9 アルゴリズムで扱えるグラフは,6 ; などの頂点ラベルや単結合 二重結合などの辺ラベルのように離
散的なラベルで表現されることを前提としているため,頂点間の距離のように連続値をそのままラベルとして扱
うことはできない.そこで,本稿では連続値からなる距離値をある閾値で区切って離散化を行い,離散値に変換
左側の距離行列の各要素 (*2 を以下の閾値によって離散化した場合,図 右側となる.
! :
離散値 , : ! ! #
ここで離散化した距離値は図 & に示すように,隣接行列の辺ラベルの情報に追加し,9 アルゴリズムで解
析可能なグラフデータに変換する.提案手法は距離行列の計算とその離散化を行い,9 アルゴリズムで立体
構造の部分パターンを抽出する手法である.提案手法を 9 と呼ぶ.
する.例えば,図
立体構造パターン抽出と生理活性の相関解析
ここでは,
+"
2 $2 データベースに含まれるドーパミンアンタゴニスト活性を持つ
化合物データを対象とし, データベース所載の 次元座標値を立体構造データとして使用し,9
で立体構造の部分パターンを抽出した. データベースに含まれるドーパミンアンタゴニスト活性は作用す
る受容体によって の 種類あり,その活性をもつ化合物はそれぞれ ' 個# 個 個' 個
C
0
1.327
N
Cl
C N Cl H
H
0 a a a
1.327 1.400 1.300
0
2.160 2.417
1.400 2.160
0
2.354
1.300 2.417 2.354
図
a
0
b
a
c
b
C N Cl H
0 2 1 0
0 a a a
2 0 1 1
c
1 1 0 0
a b 0 b
0
C N Cl H
0 1 0 0
0
N
Cl
H
2a
1a
0a
a 0 b c
2a
0
0b
1c
a b 0 b
1a
0b
0
0b
1c
0b
0
a c b 0
0a
0
. 距離行列と離散化
表
+
C
図
&. 隣接行列に辺の情報を追加
. 検証用データと学習用データの化合物数
検証用データ
学習用データ
合計
#
'
#
!#
#
#
合計
&# :'
' のように全体の #<にあたる 個の化合物を検証用データとして除外し,残り
:' 個の化合物からなる学習用データを対象として 9 で立体構造の部分パターンを抽出した.
次に,学習用データから 9 で抽出した立体構造の部分パターン,原子団寄与法で計算された " 値を
用いて立体構造とドーパミンアンタゴニスト活性の相関解析を行った." 値は分子と分子の相互作用の大小を
考える重要な目安であり,薬学の分野の定量的構造活性相関 = において必ず用いられる物性値であり,化
学での理解度の容易さのために," 値も使用して解析した.学習用データの相関解析で得られた分類規則は,
である.このデータから,表
検証用データでこの分類誤差を評価した.
ドーパミン化合物からの立体構造パターン抽出
学習用データに含まれる :' 個の化合物を対象として,立体構造の部分パターン抽出を行った.学習用データ
から部分パターンを抽出する前に,仮想リンクの追加と距離行列の離散化を行った.まず最初に,それぞれの方
法について説明する.
仮想リンクは実際には結合が存在しない辺に,仮想的な辺のラベルをつけたものである.例えば,図
' の場合
は 6 と ; の原子間に結合はないが, つの結合を通じてつながっているため, という仮想的な辺ラベルを追加
する.同様に 6 と ; は つの結合で接続しているので, の辺ラベルを追加する.同様の方法で結合のない他
の原子間にも仮想リンクを追加する.学習用データの化合物では,単結合や二重結合で接続している原子間の距
離がほぼ決まっており,それによって仮想的な辺ラベル
や の原子間距離も特定されやすい.そのため,学
習用データの化合物には から の仮想リンクを追加した.
次に,距離行列の各要素の距離を離散化した.距離行列の距離は から計算したものである.離散化の閾値の設定方法は,図
る仮想的な辺ラベル
データベース所載の 次元座標値
: を用いて説明する.この図は学習用データに含まれ
について,横軸の距離を #8# Åごとに区切ったヒストグラムであり,縦軸はデータ数を
取っている.離散化閾値の設定方法は,このヒストグラムで最大値となる×印のついた点(モード)が基準にな
る.モードは辺ラベルごとに異なった値になる.各辺ラベルごとにモードを基準にして± #8 Åの点に最初の閾値
を設定し,残りの閾値は一定間隔
#8: Åごとに設定した.閾値の間隔はすべての辺ラベルで同じ値 #8: Åに設定し
た.辺ラベルごとに異なったモードを基準に閾値を設定するのは,ヒストグラムの分布が異なっているためであ
る.閾値の間隔が一定なのは,それが抽出する立体構造パターンに密接にかかわっているためであり,同一の立体
構造とみなせる距離値 #8: Åを離散化に使用した :.
仮想リンクの追加と距離行列の離散化の つの前処理によって,辺が持つ情報はもとの辺ラベル,仮想リンク,
3500
3000
2500
H
Cl
C
N
図
P3
Cl
H
P2
P2
C
N
2000
数1500
1000
500
'. 仮想リンクの追加
P3a
0
1.00
図
表
P3b
2.00
P3c
P3d
P3f
P3e
3.00
4.00
距離(Å)
5.00
6.00
:. ヒストグラムと離散化
. 辺ラベルに割り当て直された自然数の一例
辺ラベル
仮想リンク
単結合
−−
$
結合なし
$
距離 Å
8 ∼ 8!
8! ∼ 8'
8# ∼ 8!#
8!# ∼ 8'#
8& ∼ 8
8 ∼ 8
8 ∼ 8#
#
&
#:
'!
##
#&
:#
表
. "検定の分割表
部分構造を含む
部分構造を含まない
学習用データ数
#
# # #
合計
$
離散化された距離の3つになる.辺のラベルにはこの3つの情報によって新たに自然数を割り当てる.割り当てる
自然数は 88 で説明した辺ラベルの出現数によってきまる.表
は学習用データの辺ラベルに新たに割り当てら
れた自然数の一例である.単結合の辺ラベルは,仮想リンクを持たず距離が 8∼8! Åのものには # の自然
数を,距離が 8!∼8' Åのものには & の自然数を割り当てた.結合がない辺ラベルの場合は仮想リンク $ と
仮想リンク $ の場合で距離の閾値が異なるが,同様の方法で自然数を割り当てた.このように前処理を行った学
習用データのグラフは,原子の種類を表す頂点のラベル数が ,結合の種類を表す辺のラベル数が #: であった.
評価実験は立体構造のパターン抽出に要する計算時間を アルゴリズムと 9 アルゴリズムの場合で比
較した.実験には 6 が %2(+)
;>
メモリが 8 搭載された計算機を使用した.図
! は最小支持度
を変化された場合の各アルゴリズムの計算時間を示す.この結果,9 アルゴリズムは アルゴリズムよ
り約 #<高速であることが確認できた.これは,9 アルゴリズムは辺のラベル数が多いと条件 9 による探索
空間削減の効果が大きくなることの現れである.
"
本実験では多数の部分構造パターンが抽出されたが,活性に影響があると思われるものを 検定 で評価し
. 部分構造パターン の分割表
合計
部分構造を含む
! !& ! : &
部分構造を含まない
& ! # && '
学習用データ数
!# # :'
表
AGM
5000
AGM’
4500
]
[秒
間
時
算
計
の
体
全
4000
3500
3000
2500
2000
1500
1000
500
0
0
10
図
図
た.表
20
30
40
50
60
70
最小支持度
80
90
100
!. と 9 の計算時間
#. 抽出された部分構造パターン 図
. 抽出された部分構造パターン は抽出されたある部分構造パターンに対して,学習用データを活性の種類と部分構造パターンを含むか
含まないかによって分割し,分割された各ブロックのデータ数を数えるための分割表である.
の総数で,
は学習用データ
は部分構造パターンを含む学習用データ数, は部分構造パターンを含まない学習用データ数,
は活性が
を持つ学習用データ数, , は活性が
を持つデータの中で部分構
# , 造パターンを含む化合物数, は活性が - を持つデータの中で部分構造パターンを含まない化合物数である.
学習用データから部分構造パターンを抽出したため,# , # , !# # , # # , $ , :' であ
る.このとき,各部分構造パターンを含む学習用データの活性分布とすべての学習用データの活性分布を " 検定
で統計的に適合するかどうかを調べる式が以下の式である.
辺ラベル/
C
2
N
C
6
C
図
3
1
C
4
C
7
C
5
仮想リンク
距離 Å
単結合?−−
8 ∼ 8!
結合なし?$
8# ∼ 8!#
8& ∼ 8
結合なし?$
8 ∼ 8
8! ∼ 8'
結合なし?$
8' ∼ 8
結合なし?$ 8 ∼ &8
. 抽出された部分構造パターン 辺
頂点 のペア
&
'
'
&
'
&
'
'
&
&'
&
" ,
, $ #
と の に含む比率が # のそれと離れているほど " 値は大きくなり,活性に影響のある部分構造パ
ターンの特徴が抽出されていると考えられる.ここでは,実験で抽出した部分構造パターンの場合,自由度 の
" 分布になるため 有意水準が <となる" 値は 8 である.
ここでは " 値が大きな例を図 # に示す.図 # は左側に部分構造パターンの立体構造モデルを示し,
右側にグラフ表現を化学の表記方法に従って炭素原子を省略して示している.図
# の部分構造パターン は
, ! , !& , ! , : であり,表 の分割表が得られる.この分割表から上式で " 値を計
算すると :8# になる.図 のパターン は , : , & , ! , !: で " 値が !8' であ
る.パターン の分子は活性が の化合物に含まれる数が少なく,パターン の分子は , の化合物に
多く含まれる. つのパターンはベンゼン環に接続している原子が つ異なるだけであるが,それぞれの活性の特
徴を表している.
は左側に部分構造パターンの立体構造モデルを示し,右側にグラフ表現を示している.パターン
はフレキシブル @A(B な立体構造であるため,原子間の距離も図に示す.右側のグラフ表現では各原子に
頂点 を割り当て,この頂点 のペアで辺を表現し,下側の表で辺の距離を示している.例えば,頂点 が の 原子と頂点 が の 6 原子間の辺は,単結合で距離が 8∼8! Åであることを示す.このパターン は , , &# , : , : で " 値が 8 である. の化合物に含まれる数が少なく, の
また,図
化合物に多く含まれるため,これらの活性に影響を与えるものと考えられる.
立体構造パターンと生理活性の相関解析
9 によって得られる 次元構造の特徴を, アルゴリズムによるグラフ表現の場合と比較して論じ
るため,分類規則学習法では標準的な手法である 68 を使用して,学習用データからドーパミンアンタゴニ
スト活性の分類規則を作成し,新規化合物を想定した検証用データでこの分類誤差の測定を行った.68 は各化
合物のベクトル情報から目的とするクラス属性(本実験ではドーパミンアンタゴニスト活性レベル)を分類する
手法である.化合物のデータについて,実験 の 9 で抽出された 個の各パターンを部分構造に持つ
かどうか判定し,それぞれに「ある」,
「なし」の記号を割り当て,各化合物をベクトルで表す.このベクトル形式
のデータと " 値を属性に,ドーパミンアンタゴニスト活性をクラスに設定して 68 の入力とした.この場合,
各ドーパミンアンタゴニスト活性の分類誤差は 8&
<となった.68 によるデータの分類分布を表 に示す.横
行は実際の活性の種類,縦列は 68 による分類結果を表し,対角部分の個数が多いほうが精度が高いことを表す.
また,同様の実験を アルゴリズムに適用した.最小支持度 #<以上の化合物に含まれる部分パターンは,
9 よりも多い ' 個のパターンを抽出した.抽出したパターンは 68 の属性として使用した.この結果,
分類誤差は :8: <となった.68 によるデータの分類分布を表 & に示す.
アルゴリズムと 9 を用いて部分構造パターンの属性項目を生成し 68 で分類規則を得る両手法
を,表 ' に示す部分構造パターン数と分類誤差について比較した.この場合,9 の結果の方が分類精度が
低い.これは,68 で属性として使用した部分構造パターン数が 9 の場合は少ないためと思われる.
9 で抽出した部分構造パターン数が少ないのは以下の つ理由が考えられる.1つ目の理由は,9
で使用する辺ラベルは アルゴリズムの辺ラベルを距離によってさらに細かく区切られたものである. アルゴリズムのパターン数とそれに対応する 9 の立体構造のパターン数は 対複数になるが,部分構造
パターンの抽出は同じ最小支持度を基準にして行ったため,十分な数の立体部分構造パターンが抽出され難い.
番目の理由は,離散化の問題である.9 はもともとは連続値である距離を離散化して取り扱っているため,
距離が近く実際の立体構造も似ている化合物が,離散化によって異なる物質と判断される可能性がある.
表
. 68 によるデータ分類の分布 9
表
68 による分類→ '
! : ' 表
&. 68 によるデータ分類の分布 68 による分類→ :
'. 9 と の結果比較
9
部分パターン数
'
分類誤差
8&<
:8:<
今後の予定
本報告では アルゴリズムを高速化した 9 アルゴリズムと立体構造パターンを抽出する 9 手
法を提案した.9 手法では立体構造の情報をグラフの新たな辺ラベルとして扱うため,辺ラベルの数が多
数になる.このためラベル数が多い場合に有効な 9 アルゴリズムによっての高速化が得られた.実際の市販
薬物データベースを用いて立体構造パターンを抽出し,立体構造と生理活性の相関解析の応用に有効であること
が確認できた.しかし,3次元構造情報を用いて生理活性相関に関して特徴的な立体部分分子構造を抽出しよう
とすると,原子間の距離情報を利用するがためにパターンが多様化し,十分な数の立体部分構造パターンが抽出
され難くなったり,距離情報の離散化によって極めて似た構造が異なる構造と判断されてしまう問題が明らかと
なった.これら つの問題を回避するために,3次元空間上での原子間距離情報の扱いに関してパターン多様化
や離散化を行わずに,類似パターンを完全探索する手法の開発が最終的課題となる.そこで,3次元座標や原子
間距離といった数値データを直接取り扱うことが可能な,立体グラフの部分構造に関するアクティブマイニング
手法の開発に取り組む.
参考文献
" 4 8 % (C %2 8 *2 "(25)* 3 (%(%" **1( 2(% +* (% 11 D8 8 D C 8 %
E %( 68 *8 :'F!! " % G +3) %% !!8
(% 8 24 %( 8 % (H*2(% 68 % ) C2 B *C2*. "% (>(%" **1( 2(% +* 2 1
2(%* 18 3 6 7 6%3%1 !!'8
6C 8 D8 % ; 8 8 +B*2+12+ (*1H *(%" (%()+) *1($2(% %"25 % 1C"+%
G%4" I8 F !!8
5 *$ 8 J(H%% ;8 % G(%" 8 8 (%(%" 3K+%2 *+B*2+12+* (% 15)(1 1)$+%* (%
! " #F& !!:8
2 8 % G ) 8 J5 H4(* I*(% $ 1 "(25) % (2* $$(1 2(% 2 1+ ")%2 (%(%" (% #$ :F:! ##8
& %C+15( 8 *5( J8 % 2 ;8 % $(( * "(25) 3 (%(%" K+%2 +B*2+12+*
3) $5 2 (% %& & ! ' F ###
' %C+15( 8 *5( J8 (*5()+ L8 % 2 ;8 % )4C 3 (%(%" K+%2 2+1
2+* (% $5* (% ()& ! " F# ##8
: G 2 ;8 % J C 5 *5( L8 % $$ 15 2 J5()%*(% 2(3 (%(%" (% 2(%* 18 %)
%3) 2(1* C*5$ I F !!8
! G+ )15( 8 % G $(* 8 K+%2 +B" $5 (*1H (% # %%% " F# ##8
# G+ )15( 8 % G $(* 8 (*1H(%" K+%2 )2(1 +B" $5* (% %%%
" :F& ##8
+" 2 $2 H##8 ##8
2 ;8 % L*5( G8 15(% %(%" J15%(K+* 2 C 6)$+2* *( 2 * (% #* I8 &F& !!'8
=+(% % D8 8 68." )* 15(% %(%" !!8
L % M8 % ; % D8 "$ %. $5 * +B*2+12+ 22% (%(%" (% %%%
" 'F' ##8
L*5( G8 % 2 ;8 6. 6%1$2 %(%" 3) %3%1 22% I8 '
8 &F! !!8
&
猪口 明博 鷲尾 隆 元田 浩:$((
国大会
##8
* $5 (%(%" アルゴリズムの効率化 第 回 人工知能学会全
3.3.3 リスクレポートのための活性クラス分類
3.3.3 リスクレポートのための活性クラス分類(A03-10-2)
(A03-10-2)
1
概要
筆者らは,先に,マイニングされたルールでは説明できない例外分子に対し,構造類似性を基礎とし
た事例ベース推論によるリスクレポートの可能性を検討した[1,2].そこでは,事前の部分構造知識を
必要としない構造特徴のプロファイリング手法である Topological fragment spectra(TFS)法を導入し,
与えられた化学構造に対応するグラフ構造から TFS を生成し,TFS 空間における類似性をもとに,少数
の例外分子からの類似構造検索を実現するとともに,その有用性を実データを用いて実証した.また,
リスク推定の観点から,構造特徴表現の数値的記述法としての TFS の有用性を人工ニューラルネットワ
ーク(Artificial Neural Network, ANN)を用いた活性クラス識別を通じて示した.現在,引き続き同様な
観点から,より良好な分類/予測モデルの獲得を目的とし,近年,分類学習モデルの一つとして注目を集
めているサポートベクターマシン(Support Vector Machine, SVM)における TFS 法の有用性について検
討を進めている[3].
2
データセットと処理手順
2.1 データセット
ここでは,先のニューラルネットワークによる解析で用いたものと同様に,米国 MDL 社の治験薬構造
データベース MDDR(MDL Drug Data Report) [4]より抽出した 4 種の異なる受容体(D1, D2, D3, D4)
に作用するドーパミンアンタゴニスト 1,364 種を対象に検討を行った.
2.2 化学構造の TFS 表現
TFS とは化学物質の構造式から可能な部分構造を列挙し,その数値的な特徴付けに基づいて化学物質
のトポロジカルな構造プロフィールを多次元数値ベクトルとして記述表現したものである[5].ここで
は,結合サイズ 5 までの部分構造を列挙し,特徴付けには各部分構造の質量数を用いた.解析に際して
は上記の全ての化学構造にたいする TFS を生成し,データベース化したものを用いた.
2.3 サポートベクターマシン[6]
SVM は,パーセプトロン型学習モデルである.SVM の基本的な構造は単純な線形識別関数であるに
も関わらず,カーネル関数とマージン最大化といった工夫を加えることにより,チューニングを施した
複雑な多層パーセプトロンに劣らない性能を
超平面(分類面)
有することが知られている.SVM による入力
ベクトル x=(x1, …, xd)の識別関数は,次のよう
に表される.
分類面
(B群)
d
f (x ) = ∑ wi xi + b
非線形写像
Φ
マージン
最大化
f(x)>0
(A群)
(1)
f(x)<0
i =1
ここで,wi は線形識別器の重みパラメータで,
b はバイアス項である.この識別器の f(x)=0 を
入力空間
f(x)=1
f(x)=0
サポートベクタ
f(x)=-1
サポートベクタマシンの基本概念
満たす点の集合(識別面)は,d-1 次元の超平面となる.SVM では超平面と訓練サンプルとの最小距離
を最大化することで目的とする超平面を決定する.SVM はまた,入力パターンデータの高次元非線形
写像を基礎としたとしたカーネルトリックにより,非線形識別問題にも容易に拡張できる.ここでは
Dong らの提案した SMO(Sequential Minimal Optimization)改良アルゴリズム[7]を用いるとともに,TFS を
入力ベクトルとした SVM を実装し,実験を行った.非線形写像のカーネル関数には Radial Basis Function
を用いた.SVM は 2 クラス分類モデルであり,複数クラスに関する分類のためには,SVM を組み合わ
せる必要がある.そこで本研究では,k クラスの分類問題を解くための一般的な組み合わせ法である,
one-against-the-rest を利用した.クラスの判定には,k 個の SVM による k 回の判定が必要となる.判定
の結果,複数のクラスが候補として残った場合,また候補が一つもない場合は,超平面からの距離によ
りクラスを決定した.
3
主要成果
3.1
SVM による薬物活性クラス分類
上述の治験薬構造データベースMDDR(MDL Drug Data Report)より抽出した 4 種の異なる受容体
(D1, D2, D3, D4)に作用するドーパミン拮抗薬 1,364 種を対象に,SVM を利用した活性クラス識別問
題における構造記述子としてのTFS法の有効性を検証した.実験に際しては対象データを事前に訓練
集合(1,227 化合物;D1:155, D2:356, D3:216, D4:500)と予測集合(137 化合物;D1:18, D2:39, D3:24, D4:56)
に分割し,学習には訓練集合 1,227 化合物を用い,これらのTFSを入力ベクトルとした.学習の結果,
訓練集合 1,227 化合物全ての活性クラスを全て正しく認識することができた.つぎに、得られたモデル
を活性クラスが未知の予測集合に適用し,予測試験を試みた.予測集合には,上記 137 化合物を用いた.
その結果,123 化合物(89.8%)の活性クラスを正しく予測することができた.このことは化学構造情
報からの薬物活性クラス識別における構造記述子としての TFS の有効性を改めて強く示唆するととも
に,薬物活性クラス分類における SVM の有用性を示すものである.
3.2
人工ニューラルネットワーク
Comparison between SVM and ANN by ten-fold cross validation
との比較
SVM
筆者らは先に,TFS を入力シグナ
ANN
ルとした人工ニューラルネットワー
Training
Prediction
Training
Prediction
%correct
%correct
%correct
%correct
ALL
100
90.6
87.5
81.1
D1
100
87.5
76.0
70.7
ドーパミンアンタゴニスト 1,364 種
D2
100
86.1
80.7
69.9
を対象に,その 90%を訓練集合,10%
D3
100
88.3
90.9
85.8
を予測集合とする ten-fold cross
D4
100
95.5
94.5
90.5
クが薬物の活性クラス識別に対して
良好な結果を与えることを示した[8].
Active
class
そこで,上記 TFS 表現を基礎とした
SVM の薬物活性クラス識別におけ
る分類・予測性能を ANN のそれと比
較検討した.比較に際しては前述の
validation 法を用いて実験を行った.
その結果, SVM は ANN に比べて全ての活性クラスでより良好な予測結果を与えた.これにより,薬物活
性クラス識別における TFS を特徴記述ベクトルとしたサポートベクターマシンは,人工ニューラルネッ
トワークによるそれに比べ,より優れた予測安定性を有することが示された.
4
今後の予定
これまでの解析から,化学構造の TFS 表現を基礎とした人工ニューラルネットワークやサポートベク
ターマシンによる薬物活性クラス分類の有効性が示された.現在,15 年度に新たに関西学院大グループ
より追加提供されたドーパミンアゴニストのデータを加え,アゴニスト/アンタゴニストの識別と有意
な構造特徴の解析を進めている.
リスク評価レポートには様々な参照事例が不可欠であり,引き続き,活性クラスを拡大するとともに
より大規模な実データを用いながら検討を進める必要がある.このことから,引き続き MDDR をデータソ
ースとし,以下の点について検討を進め,システム化を目指す.
(1) 本年度新たに関西学院大グループより追加提供されたドーパミンアゴニストデータをもとにア
ゴニスト/アンタゴニストの識別と有意な構造特徴の解析を行う.
(2) 上記ドーパミンデータセットにノイズデータを加えて活性クラス識別の可能性を検討する.
(3) 活性種の拡大を目的に,MDDR 中での収載件数の多い活性群を中心にタイプの異なる薬物活性
クラス 10 種類程度を選抜し,リスクレポートの観点から,より多様なデータを対象とした識別
モデルの開発を試みる.
(4) 解析対象とした薬物データの全てについて TFS のデータベース化を図るとともに,TFS 法による
少数例外分子からの類似分子検索を可能とし,活性クラスあるいはリスク推定の機能を備えた
システムを試作する.
また,上記と平行して新たな TFS 表現を工夫するとともに,別途開発を進めている構造特徴解析のため
の TFS ピークピーク同定システムについても引き続き開発を進める.
参考文献
[1] Y. Takahashi, S. Fujishima and K. Yokoe: Chemical Data Mining Based on Structural Similarity, Proceedings
of International Workshop on Active Mining, IEEE ICDM 2002, 132-135, 2002.
[2] 高橋由雅, 藤島悟志, 横江恭子 : "TFS を利用した薬物活性クラス分類とリスクレポート", 電子情
報通信学会「人工知能と知識処理」研究会・ 情報処理学会「知能と複雑系」研究会・ 人工知能学
会「人工知能基礎論」研究会・ 人工知能学会「知識ベースシステム」研究会, 「アクティブマイ
ニング合同研究会」, 2003.
[3] 錦織克美,高橋由雅:薬物活性クラス分類へのサポートベクターマシン(SVM)の応用,2003 年
度人工知能学会全国大会(第 17 回)論文集,1F5-01, 2003.
[4] MDL Drug Data Report, MDL, ver. 2001.1, 2001.
[5] Y. Takahashi, H. Ohoka, and Y. Ishiyama, Structural Similarity Analysis Based on Topological Fragment
Spectra, In “Advances in Molecular Similarity”, 2, (Eds. R. Carbo & P. Mezey), JAI Press, Greenwich, CT,
93-104, 1998.
[6] V. N. Vapnik : The Nature of Statistical Learning Theory, Springer, 1995.
[7] J. Dong, A. Krzyzak, and C. Y. Suen. A fast SVM Training Algorithm. In Proceedings of First International
Workshop, SVM 2002, pp. 53-67, 2002.
2.3.4
化学物質構造からのデータマイニングのための帰納論理プログラミング
3.3.4 化学物質構造からのデータマイニングのための帰納論理
(A01-04-2)
プログラミング(A01-04-2)
1
Introduction
The studies of structure-activity relationship (SAR) in chemical compound structures are a challenging process
since the knowledge discovered would be useful for developing the new drugs. Recent years, the advance in
high throughput screening technology has produced vast amount of SAR data. However, an essential problem
in this study is related to the knowledge representation. Since the chemical compounds consist of atoms which
are linked by several kinds of bond, they cannot be well denoted by using only the propositional logic. Hence,
the first-order logic which overcomes this limitation has been applied for representing these chemical structures.
Then, Inductive Logic Programming (ILP) is applied for extracting knowledge from the structures in order
to predict the characteristics of the chemical compounds from their structures. Nevertheless, the existing ILP
systems do not work well with this kind of data. Then, new heuristic function is proposed for better handling
these data.
2
Aims and data source
In this research, we aim to discover rules describing the activities of chemical compounds from their structures.
Two kinds of SAR data were studied: the mutagenesis data [5] and the dopamine antagonist data.
• Mutagenesis data aims to the test mutagenicity in nitroaromatic compounds which are often known to
be carcinogenic and also cause damage to DNA. These compounds occur in automobile exhaust fumes and
are also common intermediates used in chemical industry. In this dataset, 230 compounds were obtained
from the standard molecular modeling package QUANTA.
• Dopamine antagonist activity data contains 1,364 molecules from the MDDR database of MDL
Inc. Dopamine is a neurotransmitter in the brain that neural signals are transmitted via the interaction
between dopamines and proteins known as dopamine receptors. An antagonist is a chemical compound
that binds to a receptor, but does not function as a neurotransmitter. Therefore, it blocks the function of
the dopamine molecule. The antagonist for these receptors might be useful for developing schizophrenia
drugs. This research aims to identify four kinds of dopamine antagonist activities (D1, D2, D3 and D4).
3
3.1
Analysis Method
Inductive Logic Programming
Inductive Logic Programming is applied in this research for data analysis. ILP combines inductive learning
methods with the first-order representation. With more expressive first-order representation, it can therefore
learn in domains where the propositional logic is hard to apply, such as the chemical compound structures that
relationships between objects are involved.
Various learning algorithms are proposed for ILP. These algorithms can mainly be separated as top-down and
bottom-up approach due to the method used for constructing hypotheses. In this research, FOIL, a top-down ILP
system proposed by Ross Quinlan[4], is applied. The learning process in FOIL starts with a training examples
表 1: Accuracy on the mutagenesis dataset comparing
to the other ILP systems.
Approach
Proposed method
Progol
FOIL
Accuracy
0.82
0.76[1]
0.61[1]
図 1: An example of problem domain for MI data
containing all positive and negative examples, constructs a clause to cover some of the positive examples but
not cover any negative example. Then, the covered examples are removed and it continues searching for the
next clause until all positive examples are covered.
FOIL uses a heuristic function based on the information theory for assessing the usefulness of the partially
developing clause. The purpose of this heuristic function is to characterize a subset of the positive examples and
the negative examples covered. From the partially developing clause, R(V1 , V 2, . . . , Vk ) ← L1 , L2 , . . . , Lm−1 ,
the training examples covered by this clause are denoted as Ti . Then, the information required for Ti is given
by
I(Ti ) = − log2 (|Ti+ |/(|Ti+ | + |Ti− |))
(1)
This heuristic function is used to evaluate each clause in order to search for the most suitable clause that
only covers the positive examples.
3.2
Adapted Heuristics
From our preliminary experiments, FOIL can produce some rules from chemical compound structures, it
however does not produce the high accurate hypotheses since each compound consists of several atoms and
bonds that few of them are related to the activities of the compound. The unrelated atoms or bonds maybe
treated as noise.
However, the chemical structure data can be considered as data in the Multiple-Instance (MI) problem [2, 1].
This problem is extended from the classification problem that each example (or instance) cannot be labeled
exactly as positive or negative. The training examples are however grouped into the bags labeled as positive if
they are known that there is at least one instance is positive, otherwise the bags are labeled as negative. In the
chemical compound structure data, each compound can be considered as a bag while each atom is treated as
an instance. In order to find the target concept in this problem, since the positive instances cannot be specified
exactly in MI data, thus the distance between instances plays an important role in this determination. The
target concept would come from the area where many instances from various positive bags locate together and
far from the instances from negative bags. From this consideration, the Diverse Density (DD) [3] is proposed for
evaluating MI data. This approach aims to measure a point in an n-dimensional feature space to be a positive
instance. The DD at point p in the feature space shows both how many different positive bags have an instance
near p, and how far the negative instances are from p. Thus, the DD would become high in the area where
instances from various positive bags are located together.
From the chemical compound structure data, an atom in a molecule is treated as an instance and a molecule
is treated as a bag. Therefore, the DD can be used to evaluate which atoms are located together among atoms
from various positive and negative molecules (figure 1). In order to make FOIL better handling these data,
the DD is firstly applied to evaluate all atoms in the compounds so that each atom is attached with a weight
between 0 and 1 that shows strength of that atom to be positive. Then, the heuristic function is adapted in
order to use these weights by changing from |Ti+ | in formula 1 which is the number of positive examples covered
to the sum of DD of positive examples as formula below.
DDs (T ) =
X
DD(Ti )
(2)
Ti ∈T
I(Ti )
= − log2 (DDs (Ti+ )/(DDs (Ti+ ) + |Ti− |))
(3)
The distance between atoms, which the basic information for DD, is computed based on the Euclidean distance
using the properties of atom as formula below.
X
kP1 − P2 k2 =
(∆p)2
(4)
p1i ∈P1 ,p2i ∈P2
This computation is quite different among data sources, thus, it will then be explained in details in the next
section.
4
Data Preprocessing
4.1
Mutagenesis Data
The mutagenesis dataset has already opened to the public as the first-order logic dataset. Therefore, no
preprocessing is needed. The background knowledge consists of two kinds of predicate, atom and bond.
• bond(compound, atom1, atom2, bondtype), showing that there is a bond of bondtype between the atom
atom1 and atom2 in the compound.
• atom(compound, atom, element, atomtype, charge), showing that in the compound there is the atom that
has element element of atomtype and partial charge charge
In order to measure the DD of each atom, the distance between atoms is calculated by using the characteristics
of atom which are element, atom type and charge. Therefore, each atom is treated as a point in 3-dimensional
domain, then formula 4 is used for distance calculation. For example, the distance between atom(m1, a1 1, c,
20, 0.1) and atom(m1, a1 2, o, 15, 0.2) will be calculated from the difference between ‘c’ and ‘o’, ‘20’ and ‘15’
(these values are treated as discrete because it is the atom type), and ‘0.1’ and ‘0.2’ that is 12 + 12 + 0.12 = 2.01.
4.2
Dopamine Antagonist Activity Data
This dataset describes each compound as atoms and bonds when the compound is plotted in the 3-dimensional
area. Each atom is represented by element type and its position in the 3-dimensional area. Each bond is
represented by two atoms and bond type. From this information, it can be seen that the position of atom
has no meaning since a compound can be plotted in many different ways. Therefore, the positions are not
used directly but they are used for computing length of bond between atoms. Hence, after preprocessing, the
background knowledge consists of two kinds of predicate.
• bond(compound, bond, atom1, atom2, bondtype, length), showing that there is a bond of bondtype between
the atom atom1 and atom2 in the compound with length.
• atom(compound, atom, element), showing that in the compound there is the atom of element.
In this dataset, each atom is described by only its element. This would not be enough for computing distances
for the DD. Therefore, due to consulting with the domain expert, the number of bonds linked to the atom and
the average length of bonds are added for the distance computing. Hence, each atom is represented by three
features, element type, number of bond linked, and average length of bonds.
Moreover, as the proposed method can handle only two-class data (only positive or negative), but there are
four classes for the dopamine antagonist compounds. Then, hypotheses for each class are learned by one-againstthe-rest technique, for instance, learning class D1 by using D1 as positive examples and D2,D3,D4 as negative
examples.
5
Analysis Results
The mutagenesis dataset is used to evaluate the proposed method using 10-fold cross validation comparing to
the existing ILP systems (shown in table 1). From the experimental results, we found that the proposed method
can produce more accurate rules than the others. An example of rules generated by the proposed method is
shown below.
active(A) ← atom(A,B,C,D,E), D=27, atom(A,F,G,H,I), I=27, bond(A,B,F,J).
This rule shows that a compound is active if it contains two atoms, both are type 27 which is a fused aromatic
ring connecting atom and there is a bond between them.
For the dopamine antagonist dataset, the proposed method generated several rules for class D1. The example
of these rules are shown below.
• D1(A) ← bond(A,B,C,D,E,F), F=1.45, atom(A,C,G), G=c.
This rule shows that a compound is class D1 if it contains a bond of length 1.45 and one of atom linked
with this bond is a carbon atom.
• D1(A) ← bond(A,B,C,D,E,F), F=1.78, bond(A,G,H,D,I,J).
This rule shows that a compound is class D1 if it contains two bonds which link three atoms together as
shown in the figure below where each node represents an atom and each edge represents a bond.
C
D
H
1.78
• D1(A) ← bond(A,B,C,D,E,F), F=1.345, bond(A,G,H,C,I,J), J=1.35.
This rule shows that a compound is class D1 if it contains two bonds which link three atoms together as
shown in the figure below.
H
C
1.35
D
1.345
• D1(A) ← bond(A,B,C,D,E,F), F<1.123, bond(A,G,C,H,I,J), J<1.458, bond(A,K,H,L,M,N).
This rule shows that a compound is class D1 if it contains three bonds and the relation between bonds
and their length is shown in the figure below.
L
H
C
<1.458
D
<1.123
These rules are needed to be evaluated by the domain expert so that the predicate or background knowledge
can be improved in order to discover the interesting knowledge.
6
Future Works
In the current method, only atoms are considered as instances in bags. However, each bond itself may also
be considered as an instance. Therefore, we will try to improve the proposed system in order to handle various
kinds of instances in one bag. We also plan to improve the background knowledge due to the discussion with
the domain expert.
参考文献
[1] Y. Chevaleyre, N. Bredeche, and J. D. Zucker. Learning rules from multiple instance data : Issues and
algorithms. In Proceedings of the 9th International Conference on Information Processing and Management
of Uncertainty in Knowledge-Based Systems (IPMU02), 2002.
[2] Thomas G. Dietterich, Richard H. Lathrop, and Tomás Lazano-Pérez. Solving the multiple instance problem
with axis-parallel rectangles. Artificial Intelligence, 89(1-2):31–71, 1997.
[3] Oded Maron and Tomás Lazano-Pérez. A framework for multiple-instance learning. Neural Information
Processing Systems 10, 1998. Available at ftp://ftp.ai.mit.edu/pub/users/oded/papers/NIPS97.ps.Z.
[4] J. R. Quinlan and R. M. Cameron-Jones. FOIL: A midterm report. In Machine Learning: ECML-93 Proceedings of the European Conference on Machine Learning, pages 3–20. Springer Verlag, 1993.
[5] A. Srinivasan, S. Muggleton, R. D. King, and M.J.E. Sternberg. Mutagenesis: ILP experiments in a nondeterminate biological domain. In S. Wrobel, editor, Proceedings of the 4th International Workshop on
Inductive Logic Programming, volume 237, pages 217–232. Gesellschaft für Mathematik und Datenverarbeitung MBH, 1994.
4
おわりに
本資料では,肝炎データと化学薬品データの2種類の実データを対象とし,アクティブマイ
ニングプロジェクトで進めてきた現時点までの適用結果とその成果について報告した.研究
開始後約 2 年半を経過した現在,2 つの共通データ解析のそれぞれで,問題の難しさに直面
しつつも,各計画研究が総力をあげ,専門家の協力を仰ぎつつ,着実に前進している.1) ア
クティブ情報収集では,効率的な情報収集のためのメタ情報源の自動学習,マイニング結果
に関連のある既存知識の高速探索,前処理の半自動化,伝言ゲーム型の情報収集・前処理結
果の交換などが,2) ユーザ指向アクティブマイニングでは,構造データからの共起パターン
の高速発見,時系列データの抽象化,データの特徴に最適なマイニングアルゴリズムの自動
構築,スパイラル的例外性発見,時系列データのクラスタリングと可視化,時系列データの
決定木学習, 専門家が容易に関与し得る環境の構築などが,3) アクティブユーザリアクショ
ンでは,マイニングの対象となる元データやマイニング結果の知識の視覚化,専門医が直接
マイニングに関与できるインターフェイス,視覚化を通した専門家の主観的発見プロセスの
モデル化などが大きく進展した.肝炎データの解析では,各要素技術を連携して前処理,マ
イニング,評価のサイクルが周り始めた.専門医とのインタラクションも活発に行われてお
り,専門医の興味を引く具体的な成果も出はじめた.化学薬品データのマイニングに関して
も,部分構造の発見と類似構造の高速探索に成功し,ドーパミン拮抗薬に類似の構造を持つ
化学物質を探索した結果,抗血圧剤が抽出され,精神病治療に伴う副作用の恐れがある可能
性を提示できるなど,目標とするリスク警告の見通しを得た.
特に注目すべきは,現アクティブマイニングの特色として,データ解析者と提供者との collaboration だけでなく,データ解析者間の collaboration がいくつか成果を生み出していると
いうことである.共通データを複数グループがマイニングすることで,そのデータの前処理
に関する知見の共有や,それぞれの手法によるマイニング結果についてもより詳細に検討で
き,単独グループで行う研究ではなし得ない成果が得られている.マイニング側からもいく
つかの仮説が提案され,データ収集に関するいくつかの方向性が定まってきた.所期した,
らせんのサイクルが回りはじめたと言える.専門家側も,より有益な結果を得るために前処
理段階からデータについての様々な情報を提供すべきだと考え,準備をすすめてくれている.
現在までの成果を通して,いくつかの方向性が見えてきた.一つは,らせんのサイクルが回
る中で,専門領域の立場からマイニングの目標を定めたとき,どのようなマイニングの手法
が有効で,どのような知識を抽出できるかといった方法論を確立することが可能ではないか
ということ.もう一つは,専門家にとっては予想外の目標が情報科学の立場から提起される
ことで,新たな研究の方向性が,異なる分野の研究者の協力によって模索されていくという,
新しい方法論の可能性も見えてきたことである. 今後,これらの方向性で具体的な成果を
積み上げていくために,より密な連携の下に,アクティブマイニングプロジェクトを推進し
ていきたい所存である.
Fly UP