...

オントロジー

by user

on
Category: Documents
21

views

Report

Comments

Transcript

オントロジー
オントロジー
知識工学とセマンティックWebにおける
オントロジーの研究開発
知識工学
1991-現在
• 概念化の明示的仕様
(Tom Gruber オントロジーの定義)
•
•
•
•
•
•
•
オントロジー記述言語(Ontolingua)
知識交換言語(KIF)
PSM
Task Ontology
Generic Ontology
CYC, WordNet, EDR…
オントロジー構築方法論
セマンティックWeb
1997-現在
• 95-97: XML as arbitrary
structures
• 97-98: RDF
• 98-99: RDFS
• 00-01: DAML+OIL
• 2004.2.10: OWL
• 2009.10.27: OWL2
• 2010.6.22: RIF
オントロジーとは?
• 情報系のオントロジーは,哲学のオントロジーとは異なる
• 概念(化)の明示的仕様
–
–
–
–
concepts
properties and attributes of concepts
constraints on properties and attributes
Individuals (often, but not always)
• カタログ
– Amazon.com product catalog
• タキソノミィ(Taxonomies)
– Yahoo! categories
• ターミノロジィ
– Unified Medical Language System (UMLS)
– UNSPSC - terminology for products and services
オントロジーの形式度
• 非形式的
• 準非形式的
• 準形式的
• 形式的
:自然言語で自由に表現されるもの
:制限付き構造化された形式の
自然言語で表現されたもの
:人工の形式言語で表現されるもの
:健全性や完全性を持つ形式的意味
論によって定義されたもの
オントロジーの分類
汎用性
固有性
各レベルの
情報を利用して
切り分けを
明確にする
形式度
st
1
2nd Level
rd
3 Level
Level
• 3つの軸による分類
• General
最も一般的なレベル
General • Generic
対象領域があるが
Generic やはりかなり一般的
Specific • Specific
特定領域に固有
Light
WeightMiddle Heavy
Weight
Weight
情報量
オントロジー
歴史
上の
身分
神
建築
物
分け方
①言葉(概念)
分類階層木
農民
武士
②言葉(=固有表現、
具体物)ネットワーク
日本
の城
本蓮
寺
建立
濃姫
主君
織田
信長
墓所
生誕
創建年
宗派
妻
本能
寺
天文3年5月12日
2016/4/26
日本
の
寺院
岐阜
城
豊臣
秀吉
人・もの・
こと分析
日本
の神
宗派
創建年
1347年
法華
宗本
門流
1415年
6
日本語Wikipediaオントロジー
人間には,ウィキペディアの内容(意味)
が判るけど人工物(コンピュータ,スマ
フォ,ロボット...)には判らない
Wikipediaからオントロジー(言葉階層木,言葉のネ
ットワーク)に自動変換して,
人工物に言葉の意味(Sense)を理解させる
→日本語Wikipediaオントロジー
2016/4/26
7
日本語Wikipediaオントロジー(文学)
2016/4/26
8
クラス-インスタンス関係
さらにズームアップ(模式図)
プロパティ定義域
プロパティ値域
トリプル
日本の映
画作品
鼻
Is-a関係・プロパティ上位下位関係
日本
蜘蛛の糸
小説家
羅生門
日本
クラス
国籍
人物
文化
作家
文学
明治大学
の人物
配偶者
日本史
の人物
日本出身
の人物
存命人物
プロパティ
著作
文庫本
子供
インスタンス
塚本文
親族
東京都出
身の人物
時代小説・
歴史小説
作家
小説家
職業
家族
死没
俳人
津田青楓
芥川龍之介
門下生
文化活動
夏目漱石
最終学歴
日本の
小説家
芥川貴之志
こゝろ
誕生
職業
2016/4/26
小説
短編小説
坊っちゃん
日本の
小説
ジャンル
日本の
大学
作曲家
芥川也寸志
代表作
明治の
人物
オペラ
作曲家
9
東京帝国
大学英文科
日本のクラ
シック音楽
の作曲家
オントロジー
ソフトウェアがSenseを理解するための概念辞書
BIGLOBE情報誌 サーイ・イサラ2006年9月号 より
An Ontology Spectrum
General Ontology
• WordNet(プリンストン大学で開発.名詞が
約10万語.IS-A,HAS-Aが定義.フリー)
http://www.cogsci.princeton.edu/cgibin/webwn
• CYC(米国MCCで開発)
• EDR(日本電子化辞書)
WordNet
• 10万語以上の概念を体系化(General)
• is-a,has-a関係など
• 計算機で利用可能
WordNet
• http://wordnet.princeton.edu/
• 最新版:ver.3.0 for Unix-like system
– Windows版はver.2.1
• 約11万7千のsynset(同義語の集合)
• 約15万語(名詞,動詞,形容詞,副詞)
• synset間には,品詞ごとにいくつかの関係
が定義されている
WordNet:
synset(名詞)間の主な関係
• hypernym
– X hypernym Y → XはYの上位概念(synset)
• hyponym
– X hyponym Y → XはYの下位概念(synset)
• holonym
– X holonym Y → XはYを持つ(has-a)
• meronym
– X meronym Y → XはYの一部(part-of)
キーワードを入力
product:
名詞に関して6つのsynset(意味)が定義されている
WordNet (オントロジーサンプル)
Cyc
• 世界最大の知識ベース
– 2007年現在,約20万概念の定義,100万以上の主張を
記述
• マイクロ理論 (microtheories)
– 部分世界の内部だけで整合性を保持
• OpenCyc
– Cycのオープンソース版
– http://opencyc.org/
– 試用版:
• http://www.yamaguti.comp.ae.keio.ac.jp:3602/cgi-bin/cyccgi/cg?cbstart
OpenCycの特徴
•
•
•
•
•
固有の用語は「#$」ではじまる
「#$is-a」関係はinstance-ofを意味する
「#$genls」関係はis-a関係を意味する
「Mt」はマイクロ理論( microtheories )の省略
WordNetのsynsetとの対応関係を定義
– Mt : WordNetMappingMt の
synonymousExternalConcept
• OpenCyc KB Browser
– sourceforge.netからダウンロード可能
– Windows版とLinux版
EDR電子化辞書の概念
コンピュータという概念
0ffcb7
概念
・識別子
・日本語と英語の
見出しの集合
・意味(説明)
・読み
・品詞
電子計算機
コンピュータ
コンピューター
電算機
computer
brain box
computery
electronic brain
電子回路を用いて計算,判断,記憶
などを自動的に行う装置
an electronic device that speedily
and automatically performs
calculations, makes judgments and
memorizes large amounts of
information
概念A
概念B
概念C
概念D
EDR概念体系辞書:is-a関係
生命体
人間
役割で捉えた人間
職業で捉えた人間
学生
EDR概念記述辞書:その他の関係
• object: 動作・変化の影響を受ける対象
– 食べる—object→りんご
• agent: 有意志動作を引き起こす主体
– 食べる—agent→父
• goal: 事象の主体または対象の最後の位置
– 行く—goal→東京
• implement: 有意志動作における道具・手段
– 切る—implement→ナイフ
• a-object: 属性をもつ対象
– 赤い—a-object→トマト
• place: 事象の成立する場所
– 遊ぶ—place→部屋
• scene: 事象の成立する場面
– 演じる—scene→ドラマ
• cause: 事象の原因,理由
動詞的概念が名詞的概念を
支配する場合の格関係を中心に
8種類の概念関係を記述
– 死んだ—cause→インフルエンザ
医療分野のオントロジー:SNOMED-CT
すべての概念は「SNOMED CT Concept」
という最上位概念の下位概念になっている
SNOMED CT Concept
所見 Finding
疾患 Disease
処置 Procedure
・・・・・
19のカテゴリー
• 「所見」「疾患」「処置」などの最上位概念のすぐ下の
概念を、「カテゴリー」と呼び、全部で19種類ある。
すべての概念(34万)はいずれかのカテゴリーに属
する
25
ビジネスプロセスオントロジー
Process Handbook (MIT)
Modifyを体系化
店で販売する
どのように売るか(how)で具体化
店舗で販売する
ネットで販売する
販売する
何を売るか(What)で具体化
商品を販売する
26
サービスを販売する
オントロジー開発手順(1996)
対象と目的の明確化
オントロジーの構築
獲 得
コーディング
既存のオントロジーの統合
評 価
オントロジー開発手順 (現在)
determine
scope
consider
reuse
enumerate
terms
オントロジー検索エンジン
SWOOGLE
WATSON
define
classes
define
properties
define
constraints
create
instances
Linked Open Data (LOD)
オントロジー
Search Monkey
構築方法論
(Enhanced Results)
学習
照合
上位オントロジー
Wikipedia-Ontology
オントロジー開発手順 (現在)
determine
scope
consider
reuse
enumerate
terms
define
classes
define
properties
define
constraints
create
instances
1.Scope決定(利用目的,タスク:検索改善、KM、QA…)
2.再利用(ワードネット,オントロジー検索エンジン)
3.用語枚挙(自然言語処理)
4.クラス定義
5.プロパティ定義:テーマによって標準的語彙がある
6.制約定義
7.インスタンス定義
8.Scopeから考えて4-7は妥当か? Go to 4
Ontologies: Vocabulary (= Standard Property Set)
XML: Name Space Prefix, DB: Metadata
rdf http://www.w3.org/1999/02/22-rdf-syntax-ns#
rdfs http://www.w3.org/2000/01/rdf-schema#
owl http://www.w3.org/2002/07/owl#
SKOS http://www.w3.org/TR/skos-reference/
dc http://purl.org/dc/elements/1.1/ 書誌
OAI-ORE: http://www.openarchives.org/ore/ アーカイブ
vCard: http://www.w3.org/Submission/vcard-rdf/ カード
rev http://dannyayers.com/xmlns/rev/# 評価
foaf http://xmlns.com/foaf/0.1/ 人
SIOC: http://rdfs.org/sioc/spec/ オンラインコミュニティ
geo http://www.w3.org/2003/01/geo/wgs84_pos# 位置
gn http://www.geonames.org/ontology# 地理
gr http://purl.org/goodrelations/v1# 商品
Music http://musicontology.com/ 音楽
PO http://purl.org/ontology/po/ メディア
DOAP: http://trac.usefulinc.com/doap プロジェクト
wikiont_class http://www.yamaguti.comp.ae.keio.ac.jp/wikipedia_ontology/class/
wikiont_property http://www.yamaguti.comp.ae.keio.ac.jp/wikipedia_ontology/property/
ldc※ http://www.yamaguti.comp.ae.keio.ac.jp/ld/class/
ldp※ http://www.yamaguti.comp.ae.keio.ac.jp/ld/property/
DC(Dublin Core) プロパティ 書誌語彙
http://dublincore.org/documents/dcmi-terms/
title リソースに与えられた名前
description リソースに関する説明
date リソースのライフサイクル中の出来事に関連する日時もしくは期間
creator リソースの作成*に主たる責任を持つ実体
contributor リソースへの協力、貢献に責任を持つ実体
publisher リソースを利用可能にすることに責任を持つ実体
type リソースの性質もしくはジャンル
format ファイル形式、物理メディア、リソースのサイズなど
language リソースの言語
identifier ある文脈における、リソースへの曖昧さのない参照
rights リソースに適用される権利に関する情報
relation 関連するリソース
source リソースの派生元リソース
subject リソースのトピック
coverage リソースの空間的あるいは時間的トピック、or適用対象、リソースが有効となる地域など
geo(GeoVocabulary) 位置語彙
http://www.w3.org/2003/01/geo/wgs84_pos#
SpatialThing 空間を表現
TemporalThing 時間を表現
Event ある特定の日時に開催されるイベント
Point ある地点を表現
lat 緯度
time 日時
location ある特定の地点などとの関係を表現
long 経度
alt 標高
lat_long 緯度経度(カンマで分けて表現)
gn(GeoNames) 地理語彙
http://www.geonames.org/ontology#
geonameid GeoNamesID
name 地理名称
asciiname 地理名称(ASCIIコードで表現)
alternatenames 代替名称
latitude 緯度
longitude 経度
featureClass see http://www.geonames.org/export/codes.html
featureCode see http://www.geonames.org/export/codes.html
countryCode 国名ID
cc2 代替国名ID
population 人口
elevation 海抜
gtopo30 900m×900m毎の平均海抜
timezone タイムゾーン
modification date 修正日時
locatedIn どこに位置するか表現
nearby 近くに何があるか表現
geo(GeoVocabulary) 具体例
Fly UP