...

生活習慣と健康状態に関する時系列データ解析手法

by user

on
Category: Documents
12

views

Report

Comments

Transcript

生活習慣と健康状態に関する時系列データ解析手法
DEWS2008 E1-5
生活習慣と健康状態に関する時系列データ解析手法の開発
竹内
高崎健康福祉大学 健康福祉学部
E-mail:
裕之†
児玉直樹‡
医療福祉情報学科
〒370-0033 群馬県高崎市中大類町 37-1
†[email protected], ‡[email protected]
あらまし 2008 年度から実施される、メタボリックシンドロームの予防を目的とした特定健診・保健指導におい
ては、個人それぞれの生活習慣や日々の健康状態を把握してきめ細かなフォローアップを行うことが肝要である.
本研究では、生活習慣と健康状態に関する時系列データを解析し、両者の間に潜む相関ルールを抽出することを目
的としている.生活習慣データに関してはその蓄積に、健康データに関してはその変化に着目して、時系列データ
間の相関を遅延パラメータの概念を導入してチェックする.遅延パラメータは、生活習慣の蓄積がある遅れをもっ
て健康状態の変化に反映されることを想定しており、実際に両者の時系列データ間の相関に大きな影響を及ぼすこ
とが判った.
キーワード メタボリックシンドローム, 時系列データ解析, 生活習慣データ, 健康データ, 相関ルール
Time-Series Data Analyses for Lifestyle and Daily Health Condition
Hiroshi TAKEUCHI†
and Naoki KODAMA‡
Department of Healthcare Informatics, Faculty of Health and Welfare, Takasaki University of Health and Welfare
37-1 Nakaorui-machi, Takasaki-shi, Gunma, 370-0033 Japan
E-mail:
†[email protected], ‡[email protected]
Abstract A health-check system for protection against metabolic-syndrome will start in 2008 in our country. In this new
system, checking one’s health based on medical data that specifies the relationship between personal lifestyle and health data is
very important. The purpose of this study is to extract association rules between personal lifestyle and health conditions by
time-series data analyses. These analyses were based on the simple idea that accumulation of the effects of a person’s lifestyle
could influence daily health with some delay. In these analyses, correlations of time-series data are checked focusing on the
accumulation of effects of daily lifestyle, and on variation of daily health data. A retardation parameter, which is introduced
assuming that lifestyle data affect health data with some delay, was found to change correlation coefficients dramatically.
Keyword Metabolic-syndrome, Time-series data analysis, Lifestyle data, Health data, Association rule
1. は じ め に
由で時系列的にサーバコンピュータに蓄積する仕組で
メタボリックシンドロームに象徴される生活習慣
ある.蓄積されたデータはその統計を判りやすいグラ
病の予防は少子高齢化社会に突入した我が国にとって
フ表示で見ることができる他、個人の生活習慣と健康
最 重 要 課 題 の 一 つ で あ る .政 府 は そ の 対 策 と し て 、2008
状態の間に何らかの規則性が見出せれば相関ルールと
年度から医療保険者にその40歳以上のすべての加入
し て ユ ー ザ の 携 帯 電 話 に 通 知 す る [4]-[6]. そ し て 、 こ
者を対象にメタボリックシンドロームの予防のための
れらの情報を参考にユーザが自分で自分の健康管理を
特定健診および特定保健指導を義務付ける.この特定
行うことを期待している.
保健指導においては、加入者個人それぞれの生活習慣
本研究では、個人健康管理システムにおいて開発し
や日々の健康状態を把握して、きめ細かいフォローア
た、相関ルールを抽出するための前段処理として行っ
ップを実施することが肝要である.
ている時系列データ解析手法を実データに適用するこ
我 々 は こ れ ま で 携 帯 電 話 と Web テ ク ノ ロ ジ ー を 活
とによりその有効性を実証した.さらに、この時系列
用した個人健康管理システムの開発を行ってきた
データ解析手法が特定保健指導を支援する強力なツー
[1]-[3]. こ の シ ス テ ム は 、 携 帯 電 話 を 端 末 と し て 日 常
ルになりうることを示唆した.
の生活習慣と健康に関するデータをインターネット経
2. 解 析 方 法
するとは限らない.これは、相関ルールは因果関係で
2.1. 時 系 列 データ解 析 の概 念
あ り 、 相 関 関 係 と は 異 な る こ と に 起 因 す る [7].
個人の日常生活においては様々な生活習慣データ
が変動しており、これらがその人の健康データに複雑
に関与していると考えられる.従って、ある1つの生
2.2. 時 系 列 データの処 理
時系列的に蓄積されたある生活習慣データと関心
ある健康データを図2に示す手法でチェックする.
活習慣が関心のある健康データに影響しているかどう
h: 関 心 のある健 康 データ
hm
h n-1 h n
ej
e i-1 e i
かを検証するためには、何らかの統計的手法に頼らざ
るを得ない.本研究の手法は、ある期間に亘る個人の
生活習慣と健康状態の時期列データ間の相関をみるこ
と に よ っ て 、両 者 の 関 係 を 抽 出 す る こ と に 特 徴 が あ る .
e: 生 活 習 慣 データ
Δh nm = h n – h m
図1に本手法と従来の疫学的手法の比較を示した.
e
疫学的手法
時間t
運 動 による消 費 エネルギー 時 系 列 データ
その他 Aさんの生 活 習 慣
ij
= e i + e i -1 + ・・・+e j (何 日 かの生 活 習 慣 データの加 算 )
Bさん
図1
肥満度
時間t
運 動 による消 費 エネルギー 時 系 列 データ
その他 Bさんの生 活 習 慣
時系列データ解析の概念
Fig.1 Concept of Time-Series Data Analysis
(i≦n-1: 遅 延 パラメータ s = n - i)
遅 延 パラメータs = 3
s = 1
0.3
s = 5
相 関 係 数 = 0.4
生 活 習 慣 データの5日 間 の
加 算 (遅 延 パラメータs = 3)
図2
ータ解析
相関?
(何 日 か前 からの健 康 データの変 化 )
相関係数
Aさん
肥満度
t
健 康 デ ー タ の 3日
肥満度
相関?
時系列デ
前 から の変 化
肥満度
人数
人数
統計的有意差?
日付
相 関 チェック
B群 (運 動 メニューの実 施 )
A群
遅 延 パラメータ s
5
10
生 活 習 慣 データの加 算 日 数
時系列データの処理
Fig.2 Actual Process of Time-Series Data Analysis
データはほぼ毎日取得されていることを前提とし、
何 日 か 前 か ら の 健 康 デ ー タ の 変 化 ⊿ h nm と 何 日 か の 生
活 習 慣 デ ー タ の 加 算 e t ij の 相 関 の 有 無 を 、時 系 列 デ ー タ
間のピアソンの積率相関係数を評価してチェックする.
疫学的手法では、ある規模の集団を無作為に2つの
ここで、何日かの生活習慣データの加算が遅れをもっ
群に分け、ある生活習慣について介入(図1の例では
て健康データに反映されることがあることを想定し、
運動メニューの実施)を行った群と行わない群で関心
遅 延 パ ラ メ ー タ s=n-iを 定 義 す る . 相 関 係 数 は 、 n-m 、
ある健康データ(図1の例では肥満度)に統計的な有
i-j 、お よ び sを パ ラ メ ー タ と し て 変 化 さ せ 、蓄 積 さ れ た
意差がでるかどうかで個人差に埋もれた関係をあぶり
時 系 列 デ ー タ を も と に (1)式 で 計 算 さ れ 、最 大 値 が 求 め
だす.しかしこの手法では、統計的有意差を判定する
られる.
のに多数のn(人数)が必要であり、また集団として
r he = S he /(S h ×S e )
の差異をみることはできても、必ずしも個人にとって
(1)
有用な情報が得られるわけではない.本研究では、あ
くまでも個人の時系列データを統計処理の対象にし、
こ こ で 、 S h お よ び S e は そ れ ぞ れ ⊿ h nm の 標 準 偏 差 、 e t ij
他の生活習慣データも時間的に変動するなかで、ある
の 標 準 偏 差 で あ る .ま た 、S h e は ⊿ h n m と e t i j の 共 分 散 で
生活習慣データと関心ある健康データとの相関を抽出
ある.
する.具体的には、ある生活習慣データの蓄積と関心
図 2 の 例 で は 、 n-m=3( 3 日 前 か ら の 変 化 )、 i-j=4 (5
ある健康データの変化に着目し、散布図を確認しなが
日 間 の 加 算 )、 s=3( 3 日 遅 れ ) で 相 関 係 数 が 最 大 と な
らピアソンの積率相関係数を算出することで時系列デ
り 、 あ る 閾 値 ( こ こ で は 0.3) を 超 え る . す な わ ち 、
ータ間の相関の程度を推し量る.そして、ある程度相
生活習慣データの 5 日間の加算が 3 日間の遅れをもっ
関が認められる生活習慣データ項目を後段の相関ルー
て、3 日前からの健康データの変化に影響を与えるこ
ル マ イ ニ ン グ の 入 力 変 数 と し て 採 用 す る [6]. た だ し 、
と が 最 も 確 か ら し い と い う こ と に な る .こ の 場 合 に は 、
採用された入力変数がすべて相関ルールの生成に寄与
「3 日前から 5 日間の生活習慣データの加算」が相関
ルールマイニングの入力変数(フィールド)として採
タ の 値 に よ っ て 大 き く 変 化 し 、 12 日 間 の 加 算 、 4 日 間
用される.なお、相関ルールマイニングは J 測度を評
の 遅 延 で 相 関 係 数 の 絶 対 値 が 最 大( -0.470)と な っ た [9].
価 す る 手 法 を 用 い る [8].
こ の と き の 散 布 図 を 図 3( a)に 示 す .豆 乳 の( 継 続 的 )
3. 解 析 の 実 例
摂取は遅延をもって明らかに体脂肪率を下げることが
3.1. 大 豆 たんぱく質 の摂 取 と体 脂 肪 率
判るが、他の条件では、例えば 3 日間の加算、遅延パ
大豆たんぱく質は血中コレステロールを低下させ、
ラ メ ー タ 1 で は 図 3( b)に 散 布 図 を 示 す よ う に 全 く 相
特にその中に含まれるβ―コングリシニンは中性脂肪
関 を 示 さ な い .時 系 列 デ ー タ 解 析 を 適 切 に 行 わ な い と 、
を 低 下 さ せ 、さ ら に は 体 脂 肪 率 を 下 げ る と さ れ て い る .
豆乳の摂取は体脂肪率には影響を与えないという誤っ
あ る シ ス テ ム ユ ー ザ( 22 歳 、女 性 )は 約 6 ヶ 月 間 に 亘
た結論になってしまうことが判る.
り豆乳により大豆たんぱく質を摂取し、その効果を検
3.2. 運 動 による消 費 エネルギーと体 脂 肪 率
証した.体脂肪率の時系列データと豆乳加算摂取量の
別 の シ ス テ ム ユ ー ザ( 59 歳 、男 性 )は 運 動 に よ る 消
時系列データ間の相関係数は加算日数と遅延パラメー
(a) 遅 延 パ ラ メ ー タ : 2 、 加 算 日 数 : 5 ( デ ー タ
数 : 131
(a) 遅 延 パ ラ メ ー タ:4、加 算 日 数:12( デ ー タ 数 :
139
相 関 係 数 : -0.470) [9]
(a) Retardation parameter: 4, Summation-day number: 12
相 関 係 数 : -0.406)
(a) Retardation parameter: 2, Summation-day number: 5
(data number: 131, correlation coefficient: -0.406)
(data number: 139, correlation coefficient: -0.470)
(b) 遅 延 パ ラ メ ー タ : 1 、 加 算 日 数 : 2 ( デ ー タ
数 : 131
(b) 遅 延 パ ラ メ ー タ : 1 、 加 算 日 数 : 3 ( デ ー タ
相 関 係 数 : -0.008)
相 関 係 数 : -0.032)
(b) Retardation parameter: 1, Summation-day number: 2
(b) Retardation parameter: 1, Summation-day number: 3
(data number: 131, correlation coefficient: -0.008)
数 : 139
(data number: 139, correlation coefficient: -0.032)
図4
図3
豆乳加算摂取量と体脂肪率の散布図
Fig.3 Scatterplot of Body-fat Percentage versus
Soybean Milk Ingestion
運動による加算消費エネルギーと体脂肪率
散布図
Fig.4 Scatterplot of Body-fat Percentage versus Energy
Expenditure
費エネルギーと体脂肪率の時系列データを約 6 ヶ月間
3.3. 穀 物 の摂 取 と食 前 (空 腹 時 )血 糖 値
蓄積した.体脂肪率の時系列データと運動による加算
定期的な外来診療を受けているある軽度の糖尿病
消費エネルギーの時系列データ間の相関係数も加算日
患 者 さ ん( 42 歳 、男 性 )の 食 生 活 を 中 心 に し た 生 活 習
数と遅延パラメータの値によって大きく変化し、5 日
慣と食前血糖値の約 3 年間に亘る時系列データの解析
間の加算、遅延パラメータ2で相関係数の絶対値が最
を行った.本例では、食前血糖値のデータは月に1回
大 ( -0.406) と な っ た . こ の と き の 散 布 図 を 図 4(a)に
で あ り 、食 事 内 容 は ほ ぼ 毎 日 記 録 さ れ て い た .そ こ で 、
示す.運動の(継続的)実施が遅延をもって明らかに
食前血糖値の時系列データと食前血糖値計測日前の何
体脂肪率を下げることが判る.これは一般的に予想さ
日間かの穀物加算摂取量の時系列データとの相関をチ
れる当然の結果のようであるが、例えば、2日間の加
ェックした.
算 、 遅 延 パ ラ メ ー タ 1 で は 図 4(b)に 示 す よ う に 全 く 相
時系列データ間の相関係数はやはり加算日数と遅延
関を示さない.やはり、時系列データ解析を適切に行
パラメータにより変化し、6 日間の加算、遅延パラメ
わないと結論を誤ることになる.
ー タ 1 で 相 関 係 数 が 最 大( 0.367)に な っ た .こ の と き
の 散 布 図 を 図 5(a)に 示 す . 穀 物 の ( 継 続 的 ) 摂 取 が 食
前血糖値を上昇させることが判るが、この場合も他の
条 件 、 例 え ば 計 測 日 前 日 の 摂 取 量 と の 間 で は 図 5(b)に
示すように相関を示さない.
4. 考 察
4.1. 遅 延 パラメータと加 算 日 数
4.1.1. 大 豆 た ん ぱ く 質 の 摂 取
大豆たんぱく質に含まれるβ―コングリシニンは
「食べた油脂を完全には消化せず、一部を未消化で対
外 に 排 泄 し 」、か つ「 肝 臓 内 の 中 性 脂 肪 を 血 中 へ と 運 び
(a) 遅 延 パ ラ メ ー タ:1 、加 算 日 数:6( デ ー タ 数 :
36
相 関 係 数 : 0.367)
(a) Retardation parameter: 1, Summation-day number: 6
(data number: 36, correlation coefficient: 0.367)
出す機能を低下させる」作用をもつとされている.さ
らに最近の研究では、β―コングリシニンは脂質の代
謝に関する遺伝子に作用し、中性脂肪低減に効果を発
揮することが示されている.このようなことから、β
―コングリシニンは体脂肪率の低下にも効果があると
されている.体脂肪率と豆乳摂取量の相関に関する図
3の結果は、2 週間近くに亘る継続的な摂取が 4 日程
度の時間遅れをもってゆっくりと体脂肪率に影響する
ことを示唆している.3 日間程度の短期間の摂取で効
果がないと判断してしまう可能性がある例である。上
述の中性脂肪低減のメカニズムから、おそらく最大の
相関を示す加算日数や遅延パラメータの値は、個人の
遺伝的な体質によって異なると考えられる.
4.1.2. 運 動 に よ る 消 費 エ ネ ル ギ ー
消費エネルギーと摂取エネルギーのバランスが体
脂肪率に反映されることは言うまでもない.しかし、
(b) 遅 延 パ ラ メ ー タ:1 、加 算 日 数:1( デ ー タ 数 :
36
相 関 係 数 : 0.032)
(b) Retardation parameter: 1, Summation-day number: 1
(data number: 36, correlation coefficient: 0.032)
図5
穀物の加算摂取量と食前血糖値の散布図
Fig.5 Scatterplot of Blood-sugar Level versus Grain
Ingestion
体脂肪率との関係において時系列データを解析してみ
ると興味深い結果が得られる.遅延パラメータ1およ
び 3 では加算日数を変化させても相関係数の絶対値が
0.3 を 超 え る こ と は な い が 、 遅 延 パ ラ メ ー タ を 2 に す
る と 、 加 算 日 数 5 で 相 関 係 数 の 絶 対 値 は 一 気 に 0.4 を
超 え る ( 図 4(a)). こ の シ ス テ ム ユ ー ザ の 場 合 に は 5
日間程度の継続的運動が 2 日の遅延で体脂肪率に影響
を強く与えるということが特徴になっている.またこ
の例においても、解析の条件によっては相関を全く示
さ ず( 図 4(b))、運 動 の 効 果 に つ い て 誤 っ た 判 断 を す る
い場合もある.図 6 に本研究の時系列データ解析の一
可能性がある.
般化された手法を示す.
現 在 、血 糖 値 の 変 化 と 生 活 習 慣( 食 事 、運 動 な ど の イ
4.1.3. 穀 物 摂 取 と 食 前 血 糖 値
糖 尿 病 の 指 標 の 1 つ に 食 前( 空 腹 時 )血 糖 値 が あ る .
これは食後3時間以上経過して血糖値の変化が落ち着
ベント)の時系列相関をこの一般化された手法で解析
中である.
いた時点での値である.食前血糖値には、食生活や運
動習慣が大きな影響を与えるとされている.食生活で
4.3. 特 定 保 健 指 導 支 援 システムへの展 開
特定保健指導においては、対象者への情報提供とし
はやはり糖(グルコース)の元となる穀物摂取の影響
が 大 き い と 予 想 さ れ る . 実 際 に 図 5(a)に 示 す よ う に 、
6日間程度の継続的穀物摂取が食前血糖値を押し上げ
て
(1)
日の穀物摂取量との間には相関がみられなかった.こ
の結果はデータを提供した患者さんの食生活改善のヒ
生活習慣病の特性や生活習慣の改善に関する基
本的な理解を支援する.
るという解析結果が得られたが、食前血糖値計測日前
(2)
健診結果の提供に合わせて、全員に個別のニー
ズ、生活習慣に即した情報提供を実施する.
とあり、対象者ごとの個別の計画を作成することが求
ントになると考えられる.
められている.さらに、動機づけ支援として、生活習
慣の改善に対する個別の目標を設定し、自助努力によ
4.2. 時 系 列 データ解 析 の一 般 化
生活習慣と健康状態に関する時系列データ解析の
実例を3つ示したが、生活習慣データの加算(積分)
る行動変容が可能となるようにするとある.
本研究における時系列データ解析のアウトプットは、
と健康データの変化(微分)に着目し、遅延パラメー
個人毎に生活習慣と健康状態の相関に関するエビデン
タの概念を導入して解析する本手法は、代謝を含めた
スを提供するものであり、まさに対象者毎の生活習慣
生体内の複雑な反応を最も単純にモデル化したものと
改善に対する個別の目標設定につながるものと期待で
言 え る .す な わ ち 、「 生 活 習 慣 の 積 み 重 ね が 健 康 状 態 に
きる.今後、特定保健指導を支援するツールとしての
変化をもたらし、その影響は時間遅れをもって現れる
可能性を追究する.
ことがある」という単純な発想に基づく解析手法であ
る.解析の実例から明らかなように、遅延パラメータ
と加算日数を選ぶことにより、時系列データ間に潜む
5. ま と め
生活習慣病の予防を目的とした個人健康管理シス
テムにおいて開発した生活習慣と健康状態に関する時
相関をあぶりだすことができた.
本研究では、1日きざみの時系列データを元に解析
系列データ解析手法の実例を3例示し、生活習慣の蓄
を行った(食前血糖値のデータは1月に1回で例外で
積がある遅れをもって健康状態に反映することを想定
あ る が ).す な わ ち 、サ ン プ リ ン グ 周 期 1 日 で デ ー タ 解
して導入した遅延パラメータが非常に重要な役割を果
析を行ったが、この解析手法は必ずしも1日きざみで
たすことを示した.すなわち、遅延パラメータと生活
ある必要はなく、任意の時間間隔を設定できる.健康
習慣データの加算日数を選ぶことにより、生活習慣と
に関するデータでは、血圧や血糖値など日内変動が重
健康状態の時系列データ間に潜む相関をあぶりだすこ
要になる場合もあれば、内臓脂肪やコレステロール値
とができた.この遅延パラメータは、代謝など生体内
など1週間毎、1ヶ月毎のゆっくりとした変化を見た
の複雑な反応が反映されているものと推察される.
また、本研究の時系列データ解析手法が任意の時間
[差 分 値 ]
si
健 康 データ変 化 3 ( =
:健 康 データ値
s n –s n-3 )
s n-6 s n-5 s n-4 s n-3 s n-2 s n-1 s n
t
時 系 列 データをt
分 間 隔 で量 子 化
生 活 習 慣 データ 3
( 3 t 分 間 の加 算 )
間 隔 サ ン プ リ ン グ に 一 般 化 で き る こ と 、2008 年 度 か ら
スタートするメタボリックシンドロームの予防を目的
とした特定健診・特定保健指導を支援するツールとし
て展開できる可能性を示した.
遅 延 パラメータ 2 (サンプリング)
[加 算 値 ]
図 6 一般化された時系列データ解析手法
( 変 化 3、 加 算 3、 遅 延 2 の 場 合 )
謝辞
長期にわたる食前血糖値、生活習慣の時系列データ
を提供していただいた、竹内順氏に感謝いたします.
また、糖尿病の運動・食事療法の効果に関してご指導
Fig.6 Generalized Method for Time-Series Data Analysis
いただいている本学健康福祉学部健康栄養学科の鶴見
(In case of variation interval: 3, summation number: 3,
克則教授に感謝いたします.さらに、常に本研究を励
and retardation parameter: 2)
まして頂いている本学学長須藤賢一博士に感謝いたし
ます.
文
献
[1] 竹 内 裕 之 , 橋 口 猛 志 , 新 谷 隆 彦 , “日 常 の 健 康 管 理
を 目 的 と し た 個 人 対 応 動 的 デ ー タ ベ ー ス , ”医 療
情 報 学 , vol.23, no.6, pp.497-502, Feb.2004.
[2] H. Takeuchi, T. Hashiguchi, and T. Shintani,
“Personal dynamic healthcare system utilizing
mobile phone and Web technology,” Proc. 2 n d Int.
Conf. on Advances in Medical Signal and
Information Processing, pp.304-307, Malta, Aug.
2004.
[3] H. Takeuchi, N. Kodama, T. Hashiguchi, and N.
Mitsui, “Healthcare data mining based on a personal
dynamic healthcare system,” Proc. 2 n d Int. Conf. on
Computational Intelligence in Medicine and
Healthcare, pp.37-43, Lisbon, Portugal, Jun.2005.
[4] 竹 内 裕 之 , 児 玉 直 樹 , 橋 口 猛 志 , 林 同 文 , “個 人
健康管理を目的とした健康データマイニングシ
ス テ ム , ” DEWS2006 1B-i11, Mar.2006.
[5] 竹 内 裕 之 , 児 玉 直 樹 , 橋 口 猛 志 , 林 同 文 , “個 人
健康管理システムのための自動相関ルール抽出
ア ル ゴ リ ズ ム , ”DBSJ Letters, vol.5. no.1, pp.25-28,
Jun.2006.
[6] H. Takeuchi, N. Kodama, T. Hashiguchi, and D.
Hayashi, “Automated healthcare data mining based
on a personal dynamic healthcare system,” Proc. 28 t h
IEEE EMBS Annual Int. Conf., pp. 3604-3607, New
York, Sep.2006.
[7] M. J. A. Berry and G. Linoff, Data Mining
Techniques: For Marketing, Sales, and Customer
Support, John Wiley & Sons, Inc., 1997.
[8] P. Smyth and R. M. Goodman, an information
theoretical approach to rule induction from databases,
IEEE Trans. Knowledge and Data Engineering, vol.4,
no.4, pp.301-316, Aug.1992.
[9] H. Takeuchi, Y. Ikeda, and N. Kodama, “Time-series
data analyses for healthcare-data-mining based on a
personal dynamic healthcare system, ”Proc. 12 t h
World Congress on Medical Informatics, P309,
Brisbane, Australia, Aug.2007.
Fly UP