...

F - 知識ベース研究室

by user

on
Category: Documents
6

views

Report

Comments

Transcript

F - 知識ベース研究室
知識ベース研究室概要
• 教授:原口誠
• DC:2
MC:9
准教授:吉岡真治
B:3
助教:大久保好章
研究生:2
キーは情報の類似性・抽象化
膨大なデータから,有用な
知識や情報を発見・抽出し,
既存の知識とともにそれら
を組織化・体系化した後、
再利用するためのキーは,
情報の類似性・抽象化にあ
るとの問題意識のもとに,
知識ベース研究室では,理
論的・実験的側面から様々
な研究を行っています.
文書化された知識
作業記録
DB
身体動作のような
動きのある情報
膨大な文書・Web
ページ管理のための
物語データベース
情報検索+
知識管理
「差異・派生現
象」の発見・マ
イニング
身体動作DB+モーショ
ン合成・編集
複数国の新聞からの他観点比較による分析
~GDELTデータを用いた分析~
○吉岡真治(北海道大学)
神門典子(NII)
背景:複数国のニュースサイトの分析

地域ごとに取り上げるニュースが違う
– 国連の会議のような全世界的に興味をもたれる事象
の報道内容は、地域(読者)の興味の影響を受ける

複数ニュースサイトの比較による世界ニュース
分析システムの提案
世界ニュース分析システム
異なる国から発信されたニュースを統合
言語横断検索
世界
ニュース
DB
日本の主張が
海外で
あまり報道さ
れていないな
情報源分析
観点の整理
情報要求に
応じた要約
異なる特徴:言語(他言語(自国語・他国語))
興味(想定読者の興味:発行元の国の興味)
報道されるニュースの量(自国語版と他国語版の違い)
情報源の違いの分析
地球温暖化に
関する世界中
の意見は?
様々な観点から
新聞の分析
NSContrastの機能

複数国のニュースサイトの比較
– 各国が関心を持つトピックの比較分析
• 各国におけるメジャーなトピックの違い
– バースト解析の比較
– 相関性の高い共起語による関連語の抽出
• 各国の比較によるトピックの分析
– 相関性の比に注目した関連語の抽出
マイナーメジャーな関連語や無視されている関連語を抽
出
– 様々な観点による分析
• 意見分析の結果を考慮した比較
– 意見の賛否を考慮した比較
• マルチファセットによる結果の提示
NSContrastの機能(1)

各国におけるメジャーなトピックの発見・比較
– 今日の話題
• 記事のクラスタリング結果によるトピック発見
– 国別注目単語比較
• 単語の出現回数に注目し、通常時よりも多く出現し
ている単語に注目し、各国の注目トピックに関する
情報を発見
日本
・インフルエンザ
・エジプトのデモ
・大雪
韓国
・エジプトのデモ
・口蹄疫
・KTXの脱線
中国
・春節
・インフレ
・エジプトからの
引き上げ
NSContrastの機能(2)

同一トピックに対する興味の違いの分析
– 関連語の関係性分析
• トピックに関する新聞記事を検索結果として絞り込
み、各国で、その記事群に特徴的な単語を関連語
として抽出し、その関係をネットワークとして可視化
– 関連語の時間遷移分析
関連語の関係性分析
核兵器問題に注目
(北朝鮮とセット)
インドのテロ事件の報道
多くの新聞の共通の興味
アルカイダに注目
NSContrastの機能(3)

複数の情報の集約
– 国別比較
• バースト期間とその記事数の繊維の可視化+関連
語の関係性分析の可視化結果を表示
エジプトを含む
記事数の遷移
・中国は記事
が少ない
システムの機能(4)

複数の情報の集約
– 多観点分析(マルチファセット分析)
• 人名・地名・意見など様々な条件でデータを絞り込
み、結果をグラフとして可視化
GDELT

Global Database of Events, Language and Tone
– 全世界規模で集めた新聞記事(GoogleNewsが主なリ
ソース)から作成した世界中のイベントやその報道の
トーン(賛否)のデータベース
GDELTデータの詳細

2つのデータベース
– Global Event Database
世界中で起こったイベントに関するデータベース、特
定の月(2013年4月1日以降では、特定の日)に起こ
ったイベントのリストと、その関連情報のデータベース
(1979年〜現在)
– GDELT Global Knowledge Graph (GKG)
Global Event Databaseのイベントに関するより詳細な
データベースで、主に記事を単位として作成され、そ
の記事中で参照されているイベントやその関連情報
のデータベース(2013年4月1日〜現在)
Global Event Database

イベントに関するデータベース
–
–
–
–
–
–
イベントの起きた日時
同一のイベントを報じている記事の記事数
報道が開始された期日
イベントのタイプ(CAMEOコードの利用)
関連する人物、組織、地名
数値化したトーン(正の値が賛成、0が中立、負の値
が反対で、絶対値がその度合いを示す)の平均
Global Event Databaseの例





Event and Date
323738695 20141116 201411 2014 2014.8658
Actor attribute
JPNELIGOV SHINZO ABE JPN ELI GOV SGP
013:楽観的なコメント
イベントのインパクト(GoldSteinScale)0.4
SINGAPORE
SGP
情報源は1つ、3つの記事で報道、トーン2.4822…
Event Action Attribute
1 013 013 01 1 0.4 3 1 3 2.4822695035461 4
Event Geography
Queensland Australia AS AS04 -27.5 153.017 1561728 1 Brunei BX BX 4.5 114.667 BX 4 Brisbane
Queensland Australia AS AS04 -27.5 153.017 1561728 20141117
URL
最初にイベントが現れたURL1件のみ
Global Knowledge Graph

記事を単位としたデータベース
–
–
–
–
–
記事中で述べられているイベントのリスト
ほぼ同じ内容を報じている記事の記事数
記事の分類コード
記事中に含まれる人物、組織、地名
数値化したトーン(正の値が賛成、0が中立、負の値
が反対で、絶対値がその度合いを示す)の平均
Global Knowledge Graphの例







Primary attribute
20141117 1
Topic
PROTEST#10##1#Singapore#SN#SN#1.3667#103.8#SN
TAX_ETHNICITY;TAX_ETHNICITY_JAPANESE;...
Location and count
1#Peru#PE#PE#-10#-76#PE;1#Australia#AS#AS#27#133#AS;
Person name, organization name shinzo abe pacific
トーン(賛否)、賛成スコア、否定スコア、
partnership;foreign
ministry;united states
極性、活性度、他の情報源への参照度合い
Tone score
1.73010380622837 2.422145329 0.692041522
3.114186851 19.03114187 0.346020761245675
Event id
323861826 323861741 323861743 …
URL
記事のURL
GDELTデータの利用


記事をベースに分析
→ Global Knowledge Graphの利用
GKGから抽出可能な情報
–
–
–
–
–

日付
人命、組織名、地名
賛否
サイト名
URL
サイト国の情報
– 各国のニュースサイトに関するポータルサイト
http://www.world-newspapers.com/ の情報を利用

サイトの属する地域
– 国名から、アメリカ合衆国、北アメリカ、南アメリカ、アジア、
ヨーロッパ、中東、アフリカ、オセアニアの8地域に分類
Global Knowledge Graphの問題

同じサイトの異なるURLの記事は異なる記事とし
て判定
– 多くの場合、以下のようなURLで、内容は同じ
• http://サイト名/分類1/記事名
• http://サイト名/分類2/記事名
– このような記事については、代表URLを1つだけとっ
て、1記事として利用
記事データベースの構築


2013年4月1日から2013年12月25日のデー
タを利用して分析
地域ごとの記事数の分布(国名が分類できなか
ったものは、分類不能と判定)
– 総記事数:11,177,775件
– 38%の記事は国名の分類に失敗
地域
記事数
地域
アメリカ合衆国
2,933,282 アジア
ヨーロッパ
1,258,470 中東
記事数
1,295274
343,462
アフリカ
392,768 オセアニア
383,462
北アメリカ
254,204 南アメリカ
35,552
分類不能
4,280,168
分析の事例(注目話題の比較)
分析の事例(注目期間の比較)

Nawaz Sharif(パキスタンの首相)
分析の事例(関連人物)
分類の事例(多観点分析)
検索条件
地域の時間遷移
国名の時間遷移
人名の時間遷移
賛否の時間遷移
人名
nawaz sharif
期間:
2013/4/1以降
分類の事例(多観点分析):各国比較
検索条件
全体の賛否
国名=インドの賛否
人名
nawaz sharif
期間:
2013/4/1以降
国名=パキスタンの賛否
国名=アメリカの賛否
分類の事例(多観点分析):検索語の追加
検索条件
地域の時間遷移
国名の時間遷移
人名の時間遷移
賛否の時間遷移
人名
nawaz sharif
期間:
2013/4/1以降
人名(追加)
Imran khan
考察


従来のNSContrastと比較して、大量の記事を利
用して、世界中の動向を分析可能
データについての問題点
– サイトの所属する国の判定精度の向上
– ニュース記事のタイトルの情報を追加
現時点では、記事検索をしても、実際のURLにアクセ
スしないと意味を理解しづらい。
まとめ



NSContrastとGDELTを紹介し、GDELTデータを
NSContrastで利用する方法を提案した。
大規模な情報を用いることにより、従来と比較し
て、広範囲の記事を用いた分析が可能となった。
今後は、データの利用方法について、さらなる検
討を行う必要がある。
Top-N 形式概念に基づく
タグ情報を用いた楽曲クラスタリング
北海道大学工学部
情報エレクトロニクス学科
情報理工学コース
大久保 好章・原口 誠
膨大な楽曲データ(1/2)
飽きた曲
お気に入りアーティスト
好きな曲
整理整頓
期待外れ
膨大な楽曲データ(2/2)
検索
整理整頓
楽曲クラスタリング(1/2)
クラスタリング
クラスタリング
クラスタリング
クラスタリング:似たもの同士にグループ化
楽曲クラスタリング(2/2)
(ジャンルを超えた)意外な
共通性の認識
新たなお気に入り
アーティストの開拓
検索結果
形式概念分析に基づく
楽曲クラスタリング
クラスタリング:似たもの同士にグループ化
如何なる意味で類似?
楽曲クラスタの解釈は極めて感覚的
明確な説明を与えるのは困難
形式概念分析により明確な説明を与える
形式概念としてのクラスタ

形式概念分析(Formal Concept Analysis)[Ganter;99]
の枠組みでクラスタ抽出を議論 [Haraguchi;06]

形式概念 … 個体集合 X と 属性集合 Y の組
X
Y
X : 外延(個体集合 )
Y : 内包( 属性集合 )
※ X 中の個体が共有する属性の集合は Y である.
※ 属性集合 Y を有する個体は,X 中の個体以外にない.
形式概念としてのクラスタ :
クラスタ(外延)を内包の言葉で明確に解釈可能
形式概念(Formal Concepts) (1/2)
E = ψ・φ : 固体集合→固体集合
Closed
{ 1, 2, 3, 4 } ψ
E
{ 2, 4 }
φ
{ b, e }
I = φ・ψ : 属性集合→属性集合
φ
{ 1, 4, 6 }
a, b, c, d, e, f
2
b, c, e
3
b, e
4
a, b, d, e, f
5
b, d
6
a, d, f
7
c, d, f
{ a, d, f }
I
ψ
1
{ a, f }
Closed
E, I … 閉包演算子
形式概念(Formal Concepts) (2/2)
形式概念 : ( E(O), φ(O) )
あるいは,(ψ(A), I(A) )
{ 1, 2, 3, 4 } ψ
E
{ 2, 4 }
φ
{ b, e }
外延(extent)
内包(intent)
1
a, b, c, d, e, f
2
b, c, e
3
b, e
4
a, b, d, e, f
5
b, d
6
a, d, f
7
c, d, f
形式概念 : ( { 1, 2, 3, 4 }, { b, e } )
1, 2, 3, 4 の共有属性は b, e であり,かつ,
b, e を有する固体は 1, 2, 3, 4 以外にない.
形式概念束 (Formal Concept Lattice)
( 1234567, φ )
( 12345, b )
( 14567, d )
( 1234, be )
( 127, c )
( 1467, df )
( 145, bd )
( 12, bce )
( 14, abdef )
( 1, abcdef )
( 146, adf )
1
a, b, c, d, e, f
2
b, c, e
3
b, e
4
a, b, d, e, f
5
b, d
6
a, d, f
7
c, d, f
( 17, cdf )
( X’, Y’ )
⇔
( X, Y )
X ⊆X’ かつ Y’ ⊆ Y
形式概念に基づく Top-N クラスタ
内包評価値:制約条件(共有属性数が一定以上)
外延評価値:目的関数(できるだけ大きな外延)
求めるべきクラスタ(形式概念):
内包に関する制約を満たすものの中で,
外延評価が上位 N であるクラスタ.
※ ある度合いの品質が保障された上位 N のクラスタ
クリーク探索による
Top-N クラスタの抽出

Top-N 形式概念抽出をクリーク探索で実現


内包制約を考慮した重み付き無向グラフにおけ
るクリーク探索
効率的な深さ優先分枝限定探索


高速な最大クリーク探索アルゴリズム MCQ
[ Tomita 03 ]の拡張
形式概念の性質,および,クリークの性質を利用
した枝刈り規則
タグ情報を用いた
形式概念クラスタ抽出
Million Song Dataset [T. Bertin-Mahieux; 2011]
 100万曲の楽曲データ


音楽情報検索のベンチマークデータ
各楽曲を55の属性で表現


タイトル,アーティスト,発表年,国,
クロマベクトル(信号処理後のデータ),etc.
Last.fm 提供のタグ情報


音楽好きユーザーのための SNS・インターネットラジオ
ジャンル,雰囲気,楽曲の特徴,etc. のタグ付け
楽曲タグ情報データ

楽曲データ


タイトル・アーティスト:個体
タグ情報(タグのリスト):属性


楽曲総数:9330


Beautiful, Love, Rock, Awesome, …
Million Song Dataset の一部
タグ総数:33354
抽出クラスタ例(1/2)

外延(楽曲クラスタ)








Radiohead:Subterranean Homesick Alien
Snow Patrol: Chocolate
Snow Patrol: Chasing Cars
Maroon 5: She Will Be Loved
Maroon 5: Sweetest Goodbye
3 Doors Down: Here Without You
Howie Day: Collide
内包(共有属性)

Beautiful, Love, Male_Vocalists, Pop, Amazing,
Mellow, Emotive_Hardcore, Sad, Chillout,… (21)
抽出クラスタ例(2/2)

外延(楽曲クラスタ)






Rihanna, Don't Stop The Music
Britney Spears, Break The Ice
Beyonce, Single Ladies (Put a Ring on It)
Chris Brown, Forever
Lady Gaga, Poker Face
内包(共有属性)

Love, Pop, 00s, Awesome, Energetic, American,
Party, Dance, USA, Catchy, Fun, … (20)
まとめと課題




Top-N 形式概念に基づく楽曲クラスタ抽出
Last.fm 提供のタグ情報を用いた楽曲クラスタ抽出
楽曲コンテンツ(音に関するデータ)を用いたクラス
タ抽出
インタラクティブな楽曲推薦
End
情報理工学入門
20150526 A21
知識ベース研究室
主題別主題別科目
科学・技術の世界:ロボットは感情を持つか
ーロボット(人工知能)は学べるか?
変わるもの変わらないもの.
変わらないものが多分多いであろう.だとすると,
変わった部分をコントラスト法で高速にマイニングできるハズ …
レポート
• 400字程度のレポート(出欠を兼ねる)
• 分量が増える分には構わない.
• 提出場所: IST棟6F 6-03 室ドアに設置したレポートボックス
• 本日の資料(PPT)は
http://www-kb.ist.hokudai.ac.jp/~mh-j/csit-mh.pdf
(本日の夜までにアップしておく)
そもそもグラフデータ or 共起グラフ等の場合1
地方票
党友
落選議員名
健闘
etc.
全国の新聞記事
2006年9月の選挙において、ある政党の議員が
全国的には圧勝であったが、北海道では別の政
党の議員も健闘していたという記事が見られた。
Lsim = D −1/ 2 L D −1/ 2 = D −1/ 2 ( D − W ) D −1/ 2
 λ1  0 




V ' LsimV =      V = (v1 ... vn )
グラフラプラシアンで
0  λ 
n

D
距離空間に射影(次元縮
v / d  v / d 




約)し,そこでのクリーク

(v ... v ) =  



 v / d  v / d 
(独立集合)を見つける


11
1
1k
1
n1
n
nk
n
−1 / 2
1
k
北海道の新聞記事
2012/4/4 –
2012/4/6
…
…
ある施
設の再
稼働
…
…
…..
…
…
ある政党
の議員
…
…
…
…
グラフにおける変化の検出2
2012/4/13 –
2012/4/15
 Before で(疑似)独立集合
After で (疑似)クリーク
 両制約を満たす頂点集合の検出・列挙
 「統合グラフ」における疑似クリーク検出
 外部への接続性: 単調評価関数も利用
 疑似クリークとしては k-Plex
自己を含めて未接続数は高々 k 個
クリーク同様の単調性と枝刈
(重複クリークを無駄なく列挙する)
 同時制約のために,k が小さいときは高速
しかし,k-Plex を使った研究は多くない
文書要約・理解
• 文書の全体像把握に向けた重要文抽出のために
概要をつかむための視点を追加
猪が国を荒らしました。
文書は複数の話題から構成
誰も猪のいる森には入りませんでした。
森
猪
森 王様は猪を倒すように頼みました。
兄と弟は森を探しました。
森
兄・弟
兄・弟
単語による文の関係
兄は弟の命を狙っていました。
話題
兄は弟を襲いかかりました。
話題間の構造
橋
兄は弟の遺体を橋の下に埋めました。
ひとりの羊飼いが歩いていました。
羊飼い
羊飼いが橋で骨を拾いました。
橋
話題をつなぐ役割に重要度
文脈語
羊飼いは骨で笛を作りました。
橋
シーンへの分節化(セグメンテーション)
1
2
3
4
5
6
7
A
A
A A
B B
B
B
C C
C C
D
D
E
E E
F F
F F
k =3
Point to compare the
left and right k
sentences
類似度
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
4
6
8
10
12
基準点
出現する単語の出方(パターン、分
布)が位置により変化する。同じ話題
の中では、その変化は少なく、異なる
話題・シーンへ移ると、その変化は極
大化 (類似性極小)
文脈的な言葉: トピックを繋ぐ
トピック:中心語彙群:…
兄と弟のシーン
w1
兄と弟は森を探しました。
兄
兄は弟の命を狙っていました。
兄は弟を襲いかかりました。
兄は弟の遺体を橋の下に埋めました。
中心的な役割を演じ
るもの、人、で、相互
に共起しあう語彙群
w2
弟
共起グラフにおけるクリー
ク(密結合な部分)
目立たない語もシーンを繋ぐことがある
場所,文脈等を表す言葉は,省略されることが多い
シーンの最初で述べておけばわかる....
OR 次のシーンに移動する前に一言述べておく ...
多くの中心語彙と結合される、
中心語彙ではない言葉
猪 -森 -兄・弟
兄・弟 -橋 -骨(笛)
猪が国を荒らしました。
猪
誰も猪のいる森には入りませんでした。
森
森 王様は猪を倒すように頼みました。
兄と弟は森を探しました。
森
兄・弟
兄・弟
兄は弟の命を狙っていました。
兄は弟を襲いかかりました。
話題連結語 (キーグラフ)
キーワード: 中心語彙群と話
題連結語の2種類
橋
兄は弟の遺体を橋の下に埋めました。
ひとりの羊飼いが歩いていました。
羊飼い
羊飼いが橋で骨を拾いました。
橋
羊飼いは骨で笛を作りました。
橋
マルコフ連鎖による、確率的重要度の付与: PageRank モデル
近
接
性
の
重
み
兄、弟、森
共起語を介して、文から文
へ渡り歩く: マルコフ過程
兄、弟、橋

 
q = (1 − α )Mq + αp
猪が国を荒らしました。
猪
誰も猪のいる森には入りませんでした。
森
森 王様は猪を倒すように頼みました。
兄と弟は森を探しました。
森
兄・弟
兄・弟
兄は弟の命を狙っていました。
羊飼い、橋、骨
話題連結語を含む文に一
定の重要度を与える
骨、王、歌う
兄は弟を襲いかかりました。
橋
兄は弟の遺体を橋の下に埋めました。
ひとりの羊飼いが歩いていました。
羊飼い
羊飼いが橋で骨を拾いました。
橋
羊飼いは骨で笛を作りました。
橋
新聞社説の要約: 文脈語の重要性
圧縮率 12/33 = 36 %
2.
8.
会談では,○○半島の恒久的平和体制の確立が,
主要議題になる.
これを平和の状態に変えるには
「平和協定」の締結が不可欠だ.
感情の身体表現
モーション
データベース
標準動作
重たい気分で歩いていた。
悲しさ、憂鬱さの身体表現
体がだるいとき、膝を痛めたと
きも、外形的にはそうなる。
変換
「歩く」
動作データ: real robot と同じ座標系
• 動作データ M はフレームF i の列 1
M = ( F ,, F ,, F )
i
F = { p ,θ ,,θ }
i
i
0
i
1
j
K
i
22
pelvis
j+1
• Pi0: 腰の基本座標系に関する位置
• Θij: 関節jの方向(体節の姿勢: 相対座標系)
• 間節(に筋肉駆動のモータがついていたとして、力やトルクの値を、座標系
列から計算できる : ロボット工学における動力学)
F1
F2
Fi
状態列とエネルギー,実コスト
d
W = P = Fv
dt
t2
W = ∫ Fvdt
t1
関節を動かしたときに生じる
力: Newton-Euler 法など
体節の動きは隣接した体節
に影響を及ぼし …
コスト: 仕事量: エネルギー使用量
コストは,状態系列(力,速度)を時間に関して足しこむ
(トルク,角速度)
人工知能を用いたモーションプランニング
標準的な動作
負荷のかかる(たくさんのエネルギーを要する)関節に対して、負荷分散すべく、
隣接した関節を少しづつ動かし、負荷分散に寄与する動作系列があればそれを挿入する
F1
例:
膝のコストが最大
g(F0 ,F1)
見積もりコスト: 体節の相互作用を無
視した近似的なコスト
h(FV,F1)
実コスト
Fv
腰を曲げる
F0
g(F0 ,FV)
If g(F ,F ) > g(F , F ) +h(F ,F )
0
1
0
V
V
1
FVを経由状態の候補とする
筋骨格系パラメータが異なる場合に適用
標準キャラクタ S
強度パラメータを
変えた場合の処理: 強い
人はそれなりに、弱い人
もそれなりに ….
膝への負荷をかけたくないとき,
背筋を伸ばして歩く人はない.
膝の弱い人
各部は繋がっている ….
目標キャラクタ T
悲しげに、重たげに
見えるだろうか ….
まとめ
• 感情の身体表現の可能性(認知的には重要だが、情報処理技術として
は未発達。要素技術・理論: ロボット工学。ヒューマノイド工学、3D表
現)
• シナリオ、要約の可能性(言語処理の中心課題。現在進行中。要素技
術・理論: 計算言語学、グラフ理論、データマイニング,機械学習)
• シナリオ、要約に基づき、アニメーション表現する可能性(開発途上。試
験的研究はあるが、これといった決定版は未だない
Fly UP