...

第8回 研究会 - 京都精華大学

by user

on
Category: Documents
3

views

Report

Comments

Transcript

第8回 研究会 - 京都精華大学
テレビ文化アーカイブズ研究プロジェクト
第8回 研究会
報告
高野明彦 国立情報学研究所連想情報学研究開発センター長・教授
阿辺川武 国立情報学研究所連想情報学研究開発センター
国立情報学研究所における
テレビ番組アーカイブシステムについて&
放送文化アーカイブ構想について
参加者
石田佐恵子
竹内幸絵
辻 大介
前田 茂
梁 仁實
大阪市立大学大学院文学研究科教授
大阪市立大学大学非常勤講師
大阪大学大学院人間科学研究科准教授
京都精華大学人文学部准教授
岩手大学人文社会科学部准教授
要真理子
桐山吉生
大阪大学コミュニケーションデザイン・センター准教授
事務局/京都精華大学全学研究センター
*50音順
(研究会メンバー)
/肩書きは2013年度現在
2013年11月1日 国立情報学研究所
118 テレビ文化研究
報告
国立情報学研究所における
テレビ番組アーカイブシステムについて&
放送文化アーカイブ構想について
高野明彦 Takano Akihiko
阿辺川武 Abekawa Takeshi
▼報告&ディスカッション▼
高野 今日は NHK 放送文化アーカイブについて、まず阿辺川さんに話してもらいます。
国立情報学研究所の私の研究室では連想情報学を掲げて取り組んでいます。私の造語です
が、人間の連想を刺激するような情報処理が、膨大な情報とつきあうときに役に立つのではな
いかというような観点でいろいろなシステムを構築して発信しています。震災後はメディア研
究者との出会いもあって、NHK の放送文化情報なども扱っています。今日は我々の仕事につ
いて時間の許す限りご紹介したいと思います。
阿辺川さんに自己紹介をお願いします。
阿辺川 専門は情報学で、自然言語処理というので、日本語をコンピュータで解析するという
ことをやってきました。高野のもとに来てからは情報検索をいろいろと手はじめにやって、い
まは NHK の放送文化アーカイブの構築などを行っています。
高野 阿辺川さんが 30 ∼ 40 分程度話をして、質疑のあと、私が引き継いでいくという順で
進めたいと思います。NII には、テレビ放送をずっとアーカイブしている映像の研究チームが
あります。昨年から、彼らが提供しているサービスをわれわれが使いながら外部のメディア研
究者を巻き込んで、震災後のメディアの状況について研究するという共同研究プロジェクトを
進めています。たぶん、石田さんがここに来てみたいというきっかけになったのは、その環境
にご興味があるからだと思いますので、それをご紹介しながら、時間があれば、我々の研究
シーンについても追加で紹介するというようなメニューです。
阿辺川 NHK の放送文化研究所と 2012 年の夏ぐらいから共同で始めたもので、最初に放送
文化研究所─ NHK の放送番組以外の資料を全部集めているところで、
『NHK 年鑑』だと
か、NHK が毎月出している月報(
『放送研究と調査』
)だとか、あとは番組をつくるときの一
次資料となった美術のデザインだとか、撮影時の写真とか、映像・音声以外のものはすべて
引き受けて管理しているところ─側が、蓄積されている膨大な資料をうまく利活用する手
段がないということで、われわれのところに相談にみえて、資料を検索して閲覧するためのシ
ステムを一緒につくっていこうということでやっています。
現在、ある程度できていて、本日、そのシステムを紹介しますが、基本的には、いま言っ
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 119
たように資料を探して、そしてその資料にたどり着く手段をいろいろと提供するということを
コンセプトにつくっています[fig.1]
。
fig.1
fig.2
順番に説明していきますと、
「まとめて探す」というのがありまして[fig.2]
、ここでは
NHK 放送文化研究所のもっている資料ごとに、資料をまとめて一括して検索するんですが
120 テレビ文化研究
……どういう資料があるかと言いますと、放送文化研究所がまとめた『20 世紀放送史』
(2001
年)のような、千何百ページあるような放送史の資料や月刊『放送研究と調査』
、年刊『NHK
放送文化研究所年報』
、
「NHK 世論調査」はこれらとはちょっと毛色が違うもので、これはそ
んなに数は多くなくて 400 本くらいなんですが、NHK が今までに、たぶん電話で世論調査
した結果が掲載されているものです。あと、
『NHK 年鑑』は毎年刊行していて、NHK で放
送されたものとか、NHK だけではなくて民放などを含めた放送界の動きなどをまとめたもの
です。
『放送メディア研究』
(2003 年 5 月より定期刊行)も、調査結果を論文として掲載して
いる媒体です。
「NHK 経営関係資料」は、ここにあるように 5 年ごととかに中期計画とかを
出すんですが、その拠り所となる文章をまとめたものが経営関係の資料です。
「放送人の証言」
というのは、NHK が今まで放送界で活躍した著名人にインタビューをして録音したものが残
されていて、録音された音声を文章(文字化)にしたものを入手したので、それを加工してう
まく見せようとしたもので、これはあとで説明します。最初の『20 世紀放送史』と同じもの
なんですが、
『放送 50 年史』
(1977 年)とか、25 年史、35 年史……放送が始まってから区
切りごとに出してきた歷史資料ですね。ここまでが NHK 放送文化研究所がもっている資料で、
あとは、まとめて検索できる利点をいかして Wikipedia の日本語版とか、われわれが提供して
いる「新書マップ」という新書を紹介しているサイトがあって、そこで使っているデータベー
スで、これらを一括して検索できるページとなっています。
ここでは「連想検索」というわれわれが開発した技術を使って─通常の検索はふつうに
キーワードを入れて、そのキーワードを含んでいる文章を検索するんですが─、例にあるよ
うに「東京オリンピックが開催される」のような文章を入れて、そこから検索できるようにな
っています。で、
〈Search〉キーを押すと、いま説明した資料ごとに入力した文章と近い内容
が含まれている資料が検索結果として出てきます。画面が狭いのでひじょうに見づらいのです
が、横にそれぞれの資料ごとにヒットした文献が出てきます。例えば、
『放送研究と調査』の
欄をクリックすると、時期が最近のものになってしまいますが、
「東京オリンピック」につい
て書かれた論文がヒットしますので、さっき言った「世論調査」で検索すると、長野五輪あた
りの世論調査が出てきて、世論調査をそのままテキストの形で見ることができます。
『放送 50
年史』には「東京オリンピック」の章がそのまま出ています。こうやって「技術革新の東京オ
リンピック」という、
50 年史のなかの「オリンピック」を扱った節を表示することができます。
あとは、外部の資料である Wikipedia だったら、Wikipedia の「東京ファンファーレ」という
ページにたどり着いたりであるとか、
「新書マップ」であれば、オリンピックについて書かれ
た新書が検索されて出てくるというシステムとなっています。
この「まとめて探す」ページの特徴としては、いま、文章を入れて検索したんですけれども、
文章の他にも自分の求める、例えば、
「長野オリンピックと冬のスポーツ」という世論調査を
例にとると、世論調査自体を検索の種として、これと関連する文章を探すというようなことが
できます。
「長野オリンピックと冬のスポーツ」を選択して検索すると、
「長野オリンピックと
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 121
冬のスポーツ」
という世論調査と近い内容の文献資料を検索することができます。さっきは
「長
野オリンピック」は上に出てなかったんですが、いま長野オリンピックの内容の世論調査で検
索したので、
例えば『放送研究と調査』では、
いちばん上に「長野オリンピックと冬のスポーツ」
という世論調査の分析結果が出てきて、閲覧することができます。
いま、ここで 1 つだけ選択したんですけれども、いくつでも選択できて、例えば、ワール
ドカップ・サッカー系で検索すると、
「ワールドカップの熱狂テレビ」というように、ワール
ドカップを扱った文章が検索結果として出てきます。というように、通常、キーワードを入れ
て検索するだけなんですが、ここでは自分の検索してるものに近い文献があれば、それを検
索のもとにして他の資料を探すことができるシステムになっています。
これが 1 つめの「まとめて探す」です。
2 つめが「年表から探す」というか、年表自体を検索するんですけれども、先ほどの『NHK
年鑑』の中では、その年の NHK の出来事の他に民放の出来事とか、社会の出来事というも
のを年表形式で抜き出してきたものを、ここでは「年表」と呼んでいます。どういうものかと
言いますと、最近を例にとると、2012 年の『NHK 年鑑』なんですが、内外の動き、NHK
の記事、民間放送・国内メディア事情、海外メディア事情……放送界に関する出来事がずら
っと並んでいて、日付とその内容について書かれています。年表は NHK ができた 1923 年か
ら今までのデータが揃っています[fig.3]
。
fig.3
これ自体を検索することができまして、先ほどの「オリンピック」で検索すると、年表のな
かから「オリンピック」に関して書かれた項目が検索できます[fig.4]
。点で散布図(ドット
マップ)のような形で出してみますと、1924 年からオリンピックに関して書かれた項目があ
122 テレビ文化研究
fig.4
って、この 1 点 1 点がそれぞれの項目に対応していて、2012 年までにどれだけの項目がある
かということが一目でわかります。例えば 1960 年代はここで、やはり 1964 年に東京オリン
ピックがあったので、1964 年近辺にけっこう多く書かれていて、1964 年 10 月 10 日にオリ
ンピックが開催されたことが年表として書かれています。
ハイビジョンは NHK が開発し、今はふつうに使われている技術なんですが、この年表で
見ると、いちばん最初に「ハイビジョン」という言葉が登場するのは 1985 年で、NHK がそ
れまでは高品位テレビという名前で開発していたものを、この日に「ハイビジョン」と改称し、
それ以降「ハイビジョン」という言葉が使われ始めた、ということが年表からわかります。
「テレビ」自体を検索すると……「テレビ」を含む項目は 5,000 件もあるんですが、いちば
ん最初に出てくるのは、1925 年あたりに「海外でテレビジョンの実験に成功」と書かれてい
ますので、テレビが開発されたときが何年なのかということがわかります。NHK がテレビと
関連したのは何年からかというと、
「NHK 関連項目」で絞り込むと、
「東京局がテレビ装置を
試作したのは 1929 年」というように、その歴史がわかるようになっています。
高野 急に(ドットが)濃くなっているあたりは、何があったのかなー?
阿辺川 放送開始じゃないですか⁉ ここから実験局開設で、実験放送が始まったのはだいた
い 1950 年ですね。
高野 クリックすると、10 年ごとにズームインできて、カテゴリーで絞り込むこともできます。
石田 これは、
「月別」でも見られるんですか?
阿辺川 「月別」は今はやっていないです、
「年」までです。
石田 でも、
「年」のなかで位置がずれているのは?
阿辺川 10 年単位までしか絞り込んでいないのですが、その中では「月」と「日」まで見て、
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 123
配置の順番を決めています。縦の位置はあまり関係ないです。
阿辺川 ここは眺めてくださいって感じですね。
で、さっきは「NHK 関連項目」で絞り込んだんですが、今度は「海外の記事」だけに絞り
込んで閲覧することもできるようになっています。
だいたいこういう形で、いま「年表」には全部で 2 万件ぐらいの項目が入っていて、自由
に検索ができるようになっています。
竹内 2 万件の項目自体は何に基づいてつくられたのですか?
阿辺川 『NHK 年鑑』のなかに掲載されている、その年の出来事を抜き出しています。
高野 当初は「国外」
「国内」
「NHK」の3軸だったのが、だんだん細分化されていった。
阿辺川 50 年ぐらいを境に、それ以前は 3 つしかカテゴリーはなかったんですが、それ以降
は「内外の動き」
「国内メディア事情」
「海外メディア事情」
「民間放送」
「NHK」の 5 つのカ
テゴリーになっているということです。
石田 NHK 的分類ですね。
高野 年表をどう解するかということで、まあ、NHK の世界観が表れているともいえますね。
阿辺川 これが「年表から探す」で、つぎが「番組から探す」なんですが、これ自身は全部
の番組が入っているわけじゃなくて、NHK アーカイブスの「テレビ 60 年 特選コレクショ
ン」という、2013 年の 2 月か 3 月に公開されたものなんですが、NHK のテレビ放送 60 周
年を記念してつくられたサイトで、だいたい 1,800 本の過去の番組の冒頭 3 分ぐらいがここ
で見られるようになっています。ここの 1,800 本の番組を検索するものとして
「番組から探す」
というものがありまして、検索すれば 1,800 本の中から「大河ドラマ」を検索すると─大
河ドラマは 2008 年まで入ってますね─大河ドラマを見ることができます。これは全部、
NHK のサイトからそのまま持ってきているんですけれども、出演者とか番組の紹介の文章と
かを同様に掲載しています[fig.5]
。
ここでも、いままでと同様に文献資料アーカイブを検索することができて、いま「篤姫」と
いう文字列で検索していますが、篤姫に言及している年報や年鑑など、番組に基づいて、そ
の番組で扱っている文献を見ることができます。どうしても PDF と実際の文字列との位置が
ずれてしまうんですけれども、そういう形で検索した番組が扱っている文献があれば、その
文献を表示することができます。
1,800 本のデータベースはいろいろと検索することができて、例えば、「主な出演者」の中
から「高橋英樹」で検索すれば、
高橋英樹が出演している番組が表示されるようになっていて、
これはデータさえ充実されれば、もっといろんなことができると思います。
これが「番組から探す」で、つぎに「証言から探す」にいきます。これだけはちょっと毛
色が違うもので……ひとつ見てみましょうか。放送人の証言ということで、話し手がこれだっ
たら「金子鮎子さん、NHK 女性テレビカメラマン第 1 号」ということで、放送界で活躍され
た著名人に NHK の方がインタビュー形式で聞いて、それに応えたものを─最初は録音し
124 テレビ文化研究
fig.5
fig.6
たものがあって、それを書き起こしたテキストで、われわれはそのテキストを入手して、入手
した Word ファイルをどうせならもっと読み物として見やすいものとしようということで─
本の形にして、読みやすいものにしました[fig.6]
。
石田 聞き手が「男 1」
「男 2」になっているのは、どっちがどっちかわからなかったためです
かね?
阿辺川 そうですね、はい。書き起こした人によって、
「男 1」
「男 2」という場合と、ちゃん
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 125
と名前がある場合もあるし……、これは、たまたまそういうことですね。他の人のを見ると、
これはちゃんと名前が入っていますね。
もともとはインタビュー形式のものだったんですけれど、画面で見る形(インタフェース)
としては、こういうものがいいかなと思って、文章を成形して見せています。
石田 これ、141 人分あるんですか?
阿辺川 そうですね、今は。現在もインタビューを継続して増やしているようで、ファイルと
してはもう少しあるんですが、ここに載せているのは 141 人です。インタビューで使ってい
る言葉から検索することができます。こういう形で中身について検索することもできますので、
何について喋ったかということも検索可能です。
最後、
「資料庫から探す」で、さっき紹介したいくつかの資料ごとに探してみると……ここ
に『NHK 年鑑』があるので、
これで検索してみると……先ほどの年表の拠り所となったものが、
こういう年表という形で、ページとして独立してあるので、ここから抜き出したものです。そ
の年の出来事があるはずで……『20 世紀放送史』で 2001 年くらいに発行されたときに、そ
れまでの年鑑から 20 世紀分の年表は抜き出していて、
プラス、
最近までの 10 年を新たに
『NHK
年鑑』から抜き出したものをまとめて年表として扱っています。目次から項目を拾ってクリッ
クすれば、該当箇所を検索することができます。
fig.7
あと、
「中学生日記」
(∼ 2012 年放送)のデータがけっこうまとまってあるので、それを検
索できるようなものをつくっています[fig.7]
。これは、
ほとんどメタデータしかありませんが、
1969 年は 1 月から毎週毎週放送されていて、そこをクリックするとスタッフ、脚本家とか出
演者、演出、制作などが表示されます。なかに台本の表紙画像があるものがあって、いまの
126 テレビ文化研究
ところ中身はありませんが、表紙だけを見ることができます。
石田 あるって、証拠があるってことですよね。写真が撮られているってことは……
阿辺川 そうですね。
だいたい以上のようなもので、基本的に放送文化研究所が持っている資料を見るためのシ
ステムで、それをいかに探すかということをこのシステムでいろいろと追求していこうかなと
いうことでつくっています。
石田 ありがとうございました。
私はこの話を NHK の方からおうかがいして、表紙の印刷されている紙をいただいて、
「ど
こにあるんですか?」って聞いたら、
「どこにもありません。公開されてません」って話だっ
たので、将来的にどうなるんですかってことを、これから先まで聞いていきたいんですけれど
も……。今日も文研の方にも来ていただこうかと思ったんですけれども、まず、こちらから聞
いてみようということでお伺いしました。
この研究は、NHK との共同研究ということですが、関係は委託になっているんですか?
高野 我々がもともと持っていた技術の組み合わせて、システムを作るのをお手伝いするとい
う感じで、データを預けていただければプロトタイプを作りますということでお引き受けしま
した。我々もデータに触っているうちに面白さが分かってきたので、いままでの技術開発の総
決算みたいにして、できるだけ多様なデータを使ったサイトを構築してみようということにな
りました。NHK 文研の米倉律さんたちから質の高いフィードバックがもらえることも我々に
とっては貴重です。実際にシステムを作り始めたのは 2012 年の秋ぐらいからですから、かれ
これ 1 年ですね。
石田 これ、文研ではもう使っておられるんですか?
高野 文研内公開が 2013 年 6 月ぐらいからですね。
石田 文研の人だけが使えるんですか?
高野 まずは文研内の 70 人くらいの方々向けのサービスです。
石田 文研内の公開で、NHK の人も見られない !?
高野 将来的には NHK 内のどこでも利用できるサービスを目指していますが、まずは文研内
から始めるということです。
それで、このシステムが「実際に仕事にも使えるかな」という観点で文研の研究者に見て
もらい、フィードバックをもらうというのがこの秋の目標です。来年の頭ぐらいにそれを分析
してシステムに反映し、得られた知見をレポートにまとめて発表していこうという計画です。
中期計画は、これはまだ決定ではないんですけど、NHK 文研の意向としては、1 ∼ 2 年の
うちに NHK 局内で公開していこうという話にはなっています。今年の 3 月に放送文化研究
所が主催した「テレビ 60 年 未来へつなぐ」シンポジウムの会場で、実際にシステムを利用
できるようにしたところ、NHK の幹部から「これはいいね、こういうことをやりなさい」と
いうお褒めの言葉をいただいたそうです。NHK 局内での公開の次は、一般公開まで実現した
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 127
いと我々は密かに願っています。
石田 どうして、その話を私がおうかがいしたかというと、私たちもずっと小規模なんですが、
萬年社コレクションという広告代理店の資料をもっていて、紙資料とかポスターとか CM そ
のものとかインタビュー証言など、ほとんどこれに匹敵するデータがあって、同じようなもの
を科研費を取って、一般の業者さんに発注してつくろうとしているわけなんです。もちろん限
られたお金なので、できることも限られているんだけれど、こういうフォーマットが、できれ
ば同じようなものが使えれば、将来的に統合していくとか、さらに検索をかけるというような
ことが便利にできるので、やっぱり各自がまちまちにつくってしまうと、変えにくいしという
ことで……。NHK では、NHK だけでつくっている資料は放送文化アーカイブではないので、
民法とか CM とか将来的には入れたいねっていう話もあるから、お聞きしたんです。
高野 文研担当者の個人的な意見としては、公開版というのを NHK が主催して維持するとい
うのはいかにも大変だと。むしろ外に、NHK と違うところが広い意味での放送アーカイブを
立ててくれて、そこに NHK から差し障りのないコンテンツを出していく形のほうが実現性が
高いとおっしゃっていました。NHK 以外でも、たとえば吉田秀雄記念事業財団のアドミュー
ジアムが新しくアーカイブをつくりなおすという話を聞いているので、そういう活動が外で一
緒に合流して、ほんとうの意味で「NHK」のとれた放送文化アーカイブみたいなものができ
ればハッピーだねという話をしています。
石田 それは、ここにできるんですか?
高野 私たちはそれをやりたいとは思ってますけど、いくつかの条件が揃わないとなかなか実
現しないでしょう。
石田 どんな感じでしょう、みなさん?
辻 最終的には研究用だけじゃなくて、番組制作に生かせるようなデータベースにしていくと
いう考え方もありますし……というのは、私、連想検索の仕組みがよくわかっていないんです
が、例えば研究者にとって役に立ちそうな連想検索の仕組みと番組制作者にとって役に立ち
そうな仕組みと、そもそも「連想」の回路が違うように思うんです。連想検索の仕組み的なと
ころはちょっと理解できないですけど、簡単な仕組みを含めて教えていただけるとありがたい
のですが。
高野 あとで詳しく説明しますけれども、言葉の重なりが多ければ多いほど「近い」と判断す
るような計算エンジンがあって、それが一千万件でも何千万件でも、その場で比較を超高速
に行う仕組みです。その計算に使う言葉を、どういう言葉に限定しておくとか、しないとか
ということによって結果はドラスティックに変わってくるので、もし専門家が統制語の世界で
何かきちっとしたことをやりたいと、それで引っ掛からないような関連性は必要ないと言うの
ならば、そういう専門的で雑音のないインデックスを使ったらいい。あるいは、一般人はそん
な専門的なことを考えずに、番組で喋った言葉と似てるから「これ、温泉の観光番組かなー」
って探す、
「観光」なんてどこにも言ってなくても、
「いい湯だね」とか「暖かい」とか「今度
128 テレビ文化研究
はあそこにも行ってみましょう」と喋ってるから、きっと温泉散歩なんじゃないですかという
感じで探したければそういう言葉を残しておかなきゃならない。私たち自身は、できるだけ言
葉を残す方向に振っているので、専門家からはときどき「なんで、こんな変なものが出てくる
んだ」といわれますけど、そういう批判はあまり気にしない。私たち自身がドメインに対して
は素人なので、素人なりに「これは面白いね」というような部分だけで評価できるアプローチ
を試してみようと考えています。
前田 「証言から探す」という場合、
「証言」のベースとなるインタビュー集では、たぶん
NHK だと「朝の連続テレビ小説」は「朝ドラ」とかいうふうに省略して言ったり、業界風の
言い回しが頻出しますよね、一方で NHK 年鑑のなかではそういった用語は正式名称で記載
されていると思うんですが、その重なり合いなどは、うまく両方ともヒットするようにできる
んですか?
高野 そういう同義語の取り扱いも、あえてやっていません。いくつかの同義語を扱うのは難
しくはないのですが、やり始めるときりがないというのがあって、やっていません。入れなく
ても、どこかでつながるんじゃないの、とどこかで思っています。
前田 その言葉ではつながらないんだけれど、それに関連した言葉で、おそらく結果は同じも
のが出てくる、という考え方ですか?
高野 はい。我々のシステムを使って、例えば「連ドラ」で引いて、
「連ドラ」という言葉が
使われている文書が見つかる。その中に例えば、
「朝の連続ドラマ…なんちゃらかんちゃら、
いわゆる連ドラ…」というように、どこかで言い換えが書いてある文章が選ばれれば、そこで
同義語表記のようなものは吸収できます。おそらく人間もそうやって獲得してるんだから、一
発で当てようというのはそもそも無理だと。そういう幻想を抱かせないことからも、ちゃんと
このリソースを入れたらちゃんと広がった、これも入れたら広がった、辞典を用意できる人が
いるならば、その辞典を使って広げてくれとやればさっと広げられます。はじめから同義語や
言い方の違いをつぶした世界しか見せないというのは、おせっかいで、機械の仕組みに対し
て無用な幻想を抱かせる、と思っています。切れるナイフは切れ味だけはすごくよくって、あ
とは使い方次第でいろいろできるというのが好みです。
辻 収蔵されているテキストデータをコーパスにして、共起頻度みたいなもので解析される?
高野 共起分析をして、言葉を絞り込むことはもちろん可能ですが、我々の連想計算にはすべ
ての言葉が基本的に使われます。例えば、このドキュメントに興味がある/ない、という二者
択一なので、興味がある文書に出ている言葉すべてがクエリとして使われます。これは当たり
だという文書を人間が選んで徹底的にフィードバックしていき、そこから自分の想定している
検索意図にピッタリ合ったもの=正解例をピックアップしてってくださいと。一発でたどり着
くのは無理なんだけど、チェックをして「正解」
、これもいい、これもいい、これもいいねと
やっていくと、選んだものの共通項が反映されて、システムには私の興味ある言葉が伝わって、
だんだんフォーカス(収束)していく。件数は増えるかもしれないけれど、ちゃんとランキン
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 129
グがつきますから、上位の部分はわりと収斂していくと思います。
石田 Webcat
Plus ですでに印刷されている本だけがそういうので、誰でも使えるようになっ
ていますよね。それと同じようなものをもっと NHK が内部的にもっている資料でできるよう
になるというイメージですよね。雑誌みたいなものは一般公開もされているし、PDF にもな
って、ネットでもヒットするので、もしもこの仕組みを一般公開をしていくときの問題点とし
て、一般公開で見られるものも多いのだけれども、例えば、この「証言」とかインタビューは、
当事者の承諾があるのかだとか、すでに印刷物として出ているのかみたいなことがポイントな
のかなと思うんですがね。
高野 これは、証言をまとめている放送人の会がアーカイブを作りますと言って、話者からど
ういう許諾をとっているかですね。喋ったことをテキストに起こしているのですが、テキスト
の形で承認を得ているのか、どういうふうな利用範囲で許諾を受けているかということを私は
知りません。とりあえず NHK の中では使っていいということになっているようです。
石田 「番組から探す」ほうは少しの数しかないから、その辺は難しいのかなとは思うんです
けどね。
それは、また後ほどお話しいただくことにして、この放送文化アーカイブについて何かご質
問はありますか?
元データは、かなりの部分を文研の方がつくっておられますよね。ですから、その提供があ
ってはじめて可能になるっていうか、その作業を誰がするのかというのがね……
高野 これは、NHK はさすがだなあと思いましたが、ほとんどの資料を PDF などに電子化
してある。人間がある程度見てテキストデータ化している。その努力はたいしたものだなあと
思います。
石田 さっき辻さんから、制作者の関心と研究者の関心が違うんじゃないかという話があった
けれど、制作者の人も明らかにそういう仕組みを使って、過去の番組を探してそれを基に制
作しているな、と思うことがありますよね、最近。だからほんとうに使っている人がいるんじ
ゃないかというのを、番組とか見ながら思ったりするんですけど。
いまのところ、一般人である私たちがこの仕組みに触ろうと思ったら、文研の人と共同研究
を申し込んで、採択されないとできないということですね。
高野 採択されても、利用できるかどうかはわかりません。われわれが利用ポリシーを決めて
いるわけではありませんから。文研の人になれば、大丈夫だと思いますが。
石田 その辺はファジーだと思うんですけど。
高野 私たちもできるだけ広く公開されたらいいのになあと思いながら、機会があるごとにデ
モはしてるんですけど。
石田 ここの院生は使えたりはしないんですか?
高野 うちの研究室は、システムをチューンするためという理由があれば利用できます。でも、
残念ながらこういう情報に興味をもっている院生が今はいないので、うちの院生は触っていま
130 テレビ文化研究
せん。
石田 こういう検索の仕組みそのものを公開するということはできるんですか?
高野 できます。ただ、誰もがパッと使えるようにするには手間がかかります。このシステム
はわれわれが自分たちで作り込んでいるので、動かないところがあってもすぐに直せばよいと
いう形で運用できますが、ソフトウェアそのものの公開となると、どんなデータを入れてもど
んな使い方をしても壊れないで動かなければならない。それを保証するには、もう少し機能を
単純化して、読書のシステムだけとか、年表を見るだけとか、どうしてもコンポーネント単位
での提供になってしまいます。ソリューションというのは複数のコンポーネントをうまく組み
合わせて、誰かが組み上げなければならない。そうすると、システムやデータの保守をどうす
るかという話が出てきて、研究者が片手間ではできないことになります。
〈休憩〉
高野 これは誤解のないように申し上げるのですが、いまからご紹介するシステムは、私の研
究室のプロダクトではありません。佐藤真一さん・片山紀生さん・孟洋さんたちの研究室が開
発したものです。佐藤真一さんがリーダーですが、彼は画像や映像を扱う情報技術の専門家
です。画像映像検索─写真を1枚と取ってきて、それと同じものが写っている写真を見つ
けてきたり、動画を見つけてきたりとかする技術について、世界でコンテストをやるといつも
片手に入る実力の持ち主です。実験の対象として放送映像がいちばん分かりやすいので、研
究用データとして長年蓄積しています。たとえば、テレビニュースで顔写真が出てきた人を他
のニュース映像から探すとか、同じ人についてのニュースを多少顔の向きが変わっても、
「こ
の人誰?」といって言い当てるとか、いろいろな例題に使えるからです。
最近ではだんだん収集が本格化して、2009 年 8 月 17 日からは関東で受信できる地上波 7
チャンネルの長期蓄積を始めています。クローズドキャプションの字幕用データ(クローズド
キャプションを ON にすると出てくるテキスト)も同時に記録しています。タイミングがちょ
っとずれたりしますが、画面で喋っている言葉に近いものが字幕としても録れていて、かなり
面白い。私の研究室はテキスト分析が得意なので、テキストがついているならば映像もけっこ
う面白く扱えるよと言って、ときどきコラボレーションしながら連想検索の対象にしたりして
きました。
そうこうするうちに、2011 年 3 月に東日本大震災が起こり、直後のメディアの状況がひじ
ょうに偏ったものに感じられました。そういうことをある程度証拠立てて分析できる環境があ
ったらいいなということで、その後、いろいろなテキストや本も出ましたし、雑誌も特集を組
んだ。あるいは Web 上でしか証されていないけれど、事実と思われる情報もあったりして、
それらが関連づいてはじめてメディアを客観的に評価できるかなと感じました。そういうこと
もあって、やはり「テレビは重要だね」という話になりました。その当時の所長(坂内正夫)
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 131
が「こういう時期でもあるし、
われわれが地味にやっているこういう研究が、
ほんとうの意味で、
客観的な分析や社会的な意味の分析につながるなら面白い。ぜひ、そういう研究をしている
人たちにこのデータを提供して使ってもらったらいいじゃないか」と言われたんですね。とは
いえ、元データを配布するわけにもいかないので、NII との共同研究に参加した人は、その共
同研究期間中だけ、佐藤チームが自分たちの実験用に維持しているこのシステムを使うことが
できる。研究所に実際に足を運ばないと使えないので、本研究所に来るための旅費や資料費
程度のお金も準備して、募集しました。そこに応募したのが、吉見俊哉先生(東京大学情報
学環)たちのグループで、東京大学の丹羽美之先生、早稲田大学の伊藤学先生、学習院大学
の遠藤薫先生、東北大学の坂田邦子先生がたにご参加いただきました。
このシステムは、このまま一般公開ができるはずがないので、一般ユーザーを想定してい
ないような使い勝手のシステムです。オラクルにデータを全部入れて、オラクルを直接叩きな
がら検索するので、検索速度はゆっくりですし、検索結果の見栄えもそんなによくありません。
しかし、データの価値は圧倒的です。キーワードを指定して、EPG の情報やクローズドキャ
プションを検索できるのです。
─ニュース番組再生
高野 クローズドキャプション検索では、実際に話された言葉で番組を検索できますから、名
ゼリフを探し出して何回でも聞ける。
(笑)
石田 ある特定の言葉が流行ったら、誰が最初に言ったのかとか、誰が引用したのかがわかり
ますね。
高野 そうですね。誰がいちばん多く言っているかぐらいはわりとうまく見つけられる。ほん
とうは、いちばん最初は別の人が言っていたりするものですが。
これを使って「メルトダウン」は誰が最初に言ったとか、メルトダウンという言葉の使われ
方はどうだったと分析できるわけです。3月には使われていた「メルトダウン」が、その後、
ほとんど使われなくなった。しかし、5月に入ってから急に解禁になって皆が使い始めたとい
うようなことを確認できます。
梁 それ、引用された場合も出るんですか?
高野 そうです。
「海外でそういうふうに報じられました」というようないいわけをうまく使
いながら、こういうことを言った場合が多かったですけど。
「言葉狩り」に近いことが行われ
ていたということがけっこうわかって、4 月になるとかなり抑えられて、10 日に 1 回、13 日
に 2 回という感じで、内容を見ていくと、2 チャンネル(教育番組)で、
「現実自体がメルト
ダウンしているというか……」など、原発のメルトダウンと全然関係ないところで評論家が嫌
みったらしく使ったのが、4 月 10 日ぐらいです。
とはいえ、このシステムで完璧に全部インデックスされているわけではありません。もとも
132 テレビ文化研究
とクローズドキャプションが放送番組についていない場合がけっこうあります。とくに緊急番
組などは生放送でやらなければならないので、非常事態の時はけっこう付いてません。それ
から、こちら側の録画機器のトラブルで録れなかった時期もあったと聞いています。共同研究
に参加したメディア研究者たちは、そういうデータの完全性が気になるので、クローズドキャ
プションの取得状況についていろいろ調べてくれました。
石田 ここの研究所で受信してる番組なんですか?
高野 そうですね、ここで。
石田 このデータは、いまもずっとあるんですか? ずーっと録り続けてる?
高野 いまのところは錄り続けているはずです。
辻 映像のバックアップはどのようにしていらっしゃるんですか?
高野 詳しいことは知りませんが、それなりにやっていると思います。これだけ貴重なものだ
から1個消えたら全部ダメになるようなことはしてないはずです。HDD も多重化されたシス
テムを組んでいますので、1台の HDD にトラブルがあっても、そこだけ差し替えれば、ほ
かに分散して記録していたものから、そこの記録が復元されるみたいな感じです。HDD が同
時に 3 ∼ 4 個壊れない限り、損失がないように作っていると思います。
辻 研究利用だとフェアユースの範囲内でしたよね。
高野 アメリカではそうです。でも、日本にはフェアユースはないですから。
辻 テレビ番組でもですか?
高野 あるんですか?
辻 著作権法上は、フェアユース、教育・研究目的のための場合というのは許容されると思い
ますが。
高野 教室で紙を配るとか、その程度じゃないと、絶対ダメだと思います。
辻 教室で上映するのも OK ですよね。
高野 ま、教室で授業のためだったら OK です、ただ、そこだけ。
辻 教育利用でもダメなのかなー……
高野 授業のためにコピーした資料を他の人に渡したらアウトです。
石田 結局、
「配布」ということがどういうことかってことがね……
梁 お金をもらって売っているので……
辻 いえ、そうじゃなくて、これ別に配布はしていないので、ここの研究所で見る分に関して
は「配布」には該当しないわけですよね。
高野 公開というのは、限定公開でも「配布」です。この PC にコピーされてるから上映でき
ているんですから、それがセーフだったら、誰も全然困ってない。
辻 その PC に、データがダウンロードされてるんですか?
高野 だって、この PC にデータが来ない限りは上映できませんから。この CPU 上でこのメ
モリ上にコピーされないと絶対上映できない。
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 133
石田 じゃあ、伊藤さんの使った PC には、彼が見たものがダウンロードされているんですか?
高野 もちろん残りませんよ。ダウンロードはできない。そういう形ではないですが、ストリ
ーミングみたいな形。ストリーミング上映は非常にデリケートで、最近少しずつ著作権法を変
えていますけれどね。
辻 現状では、グレーゾーンですよね。
高野 今もグレーゾーンだと思います。グレーをグレーのまま置いておいて、どんどん白くし
ていくということしかないと思います。ここまではいいんじゃないですか、ここまでは、とい
って。5 年ぐらい前までは Google のイメージ検索のサーバを日本に置いたらアウトでした。
サムネールを出すからです。だから画像検索サービスをやる人は全部サーバをアメリカなど海
外に置いていました。
辻 アメリカに置く⁉
高野 それはひとつの方法としてあります。そうすれば、フェアユースが適応される。
石田 辻さん、これ CM がどうなっているか見てみたくはないですか?
辻 CM 検索できるんですか?
高野 できます。
石田 あの「ポポポポーン」が何件あったかみたいなことができるんですかね?
あれって、クローズドキャプションが付いてるのかなー? CM によっては付いてますよね?
辻 CM でクローズドキャプションが付いてるのってあります?
石田 見た覚えがありますけど。少なくとも AC のコマーシャルには付いてなさそうですね。
辻 AC こそ付けていてもよさそうな気がしますけどね。
石田 あれは、テレビの「見える化」のためにあるわけだからね。
高野 佐藤真一チームの本業は、イメージ検索です。映像として写っているものを当てるとか、
飛行機だけ探してこいとか。例えば、オスプレイの写真を 3 枚ぐらい機械に見せると、アン
グルが全然違うものでも似たものを探してくる。逆に山から見下ろしていて、こんな感じにな
っている映像と、同じ場所を隣のほうから映した─カメラの位置は微妙にズレているんです
けれども構図が似ている─映像を見つけてくる。
要 その場合、言語によるタグ付けはしないんですか?
高野 言語はいっさい関係なく、彼らの研究室は「映像」を対象に徹底して映像情報だけで検
索している。私たちは徹底して「文字」
。だから、コラボするのが面白い。
彼らは映像の exact な比較エンジンもすごく得意としていて、完全に同じフレームを持って
いる映像を探します。たとえば「カルザイ首相代行は……」というニュースをやるとき、ニュ
ースのテクニックとして、このニュースはカルザイ首相代行が主役を張っているということを
示すために、
資料映像を入れる。カルザイ首相が半年前に歩いてカメラの前を横切った映像が、
「資料映像」というテロップを入れていつも使われる。それは、ニュースにとってキャストの
紹介なわけです。で、
「それがどうした」というのが次に出てくる。映像になりにくいニュー
134 テレビ文化研究
スの場合には、資料映像が使われるんですけど、それを exact に探せれば役にたちます。
「カ
ルザイ首相代行」って喋られるのはいっぱいありますが、首相代行が主役を張ったニュースと
いうと、とたんに限定されるのです。それだけを集めて見ることには、非常に意味がある。彼
らは映像ボキャブラリーと言っています。同じ資料映像と一緒に使われている言葉を集めると、
それが何に関する資料映像であるのかも見えて来る。exact な比較を使うことにより、別に資
料映像じゃなくても同じ映像がよく使われるみたいなものを見つけて、そのときに周りで話さ
れている言葉を全部集めてくる。例えば、
いろんなところで 50 回同じフレームが使われていて、
その辺りではいつも「世界遺産……」とか「富士山頑張れ」みたいな言葉が使われていたとする。
この映像は資料映像じゃないんだけれど、資料映像的に使われているといえる。そのとき、き
っとこのフレームは一緒に出てくる言葉と関係するはずだとして、映像に言葉を付けるのです。
言葉になったら私たちは得意だから、関連づけるとか、それって一体これなんじゃないのとか、
それで画像データベースを検索してみると、ああ、やっぱり似た映像が出てきたと。富士山も
なんとかもよく出てくるよ、湖が手前にある映像がよく出てくるよとか、そんな感じで広げて
いくのに使える。
前田 学生が言ってたんですが、最近では違法でアップロードされたアニメを YouTube かな
んかで見ようとすると、左右を反転させてアップしていることが多いんだ、と。それは、そう
いうのに引っかかって著作権者に通報されないように、アップする人が反転してる?
高野 そうかも知れませんね。
前田 とはいえ、検索して通報する方にもそういうノウハウがあって、やはり探し出せるよう
になっているとか……
高野 たぶん、そんなのは一瞬だから、逆転も含めて探せる。だから、見つけにくくするには、
関係ない画像をちょっと挿入するとかね、そういうことはよくしますね。
石田 YouTube は違う検索ワードが付いていることが多いですね。
これ、5 分ごとに機械的に全部切っているので、番組と番組の間に CM が入っていれば、
それも全部入っていて、ただ、番組だけの検索とか、そういう単位としては切れてないんです
よね?
高野 EPG が手がかりになりますが、それは難しいです。EPG のとおり始まっていなくても、
それを確認する術がありません。野球中継が延びて、次の番組の開始が遅れても、EPG の最
新版を追いかけながらダウンロードしていなければ予定はそのままです。
石田 緊急特番とかは、全部ズレちゃうわけですね。
高野 そうですね、EPG に載らない番組です。
石田 でも、ある特定の番組とか、ある特定の時間帯にやっていた CM をずっと見るという
ようなことはできるんですか?
高野 exact に比較が可能なので、CM なんかはものすごく得意で、この CM は他にどういう
ところで流れたかというと、ちょっと時間は掛かりますが、1 日分を探して、5 回流れました
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 135
とかが分かります。
石田 うちの卒論学生とかは、1 日中テレビを録画して、1 日に何回「エコ」という CM が流
れたかを手作業でやってるんですね。それをやってくれるということですね。
高野 exact なフレームの比較で見つかるものはできます。あるいは言葉で拾えるクローズド
キャプションが入っていて、言葉で拾えるものは拾えます。けれども、そうじゃないのは、や
っぱり「エコ関連の……」というようなのは、ちょっと無理ですね。集めていくしかない。
前田 日大の「江古田(エコダ)校舎」とか……
高野 音を拾って音声認識をかけることも、NHK では試していましたが、まだまだダメで使
いものにならない。ニュースにクローズドキャプションを付けるタスクでも、同録されたニュ
ース素材を音声認識にかけてテキストを抽出する。ラジオの原稿はテキスト化が済んでいるの
で、
音声から抽出されたテキストをクエリとして、
ラジオ原稿を探す。そこに連想検索を使うと、
かなりの確率で元の原稿を見つけ出すことができます。上位 3 個までに必ず入るくらいです。
石田 ある関心をもってやれば、その人は絞り込んでいくことができる。
高野 音声認識をそのまま信じて使う気はまったくしないけど─人間が見たら噴飯もので意
味も全然とれないような文章になっちゃうんですけど─、連想検索のための前処理として
はけっこう使えるということが、NHK の実験からわかりました。
石田 ラジオ CM をこれに全部入れてしまったらどうかな……どうでしょう? 全部デジタル
化されているので。
高野 ラジオのテキストが?
石田 いえ、音声データが。
高野 だから、音声が認識できない。
石田 認識できない。
辻 CM は音声認識がひじょうに難しい。
石田 難しいかな、節があったりとか。
辻 NHK のアナウンサーの読み上げでも、たぶん確率的には 7 割ぐらい……
高野 一時期 NHK では、リアルタイムのクローズドキャプションを付す場合(生番組でクロ
ーズドキャプションを付けなければいけない場合)には、ほんとに演じている人が喋り、それ
を聞いて NHK のアナウンサーが同じことを標準的な読み方で復唱して、それを音声認識の
処理に掛けて、出てきたテキストを人間がテキスト編集で直す、ということを行っていたそう
です。それだとかなりの精度が出るようです。たぶんオリンピックとか、同時通訳を入れるよ
うな世界の、お金をいくらかけても構わない番組のクローズドキャプションはそうやってつく
っている。
前田 BBC 放送の場合、画面の下にキャプションがあるでしょ……
高野 あれは、たぶん人間が打ち込んでいるんです。速記タイプのようなやつだと思いますけ
ど。単語をピアノタッチで入力するように、ひとつの単語が簡単なキー操作で入っちゃう。日
136 テレビ文化研究
本の速記もそうですけど、そういうのを使っていると聞きました。ただ、間違えてときどき戻
ったりします。
石田 そうですね、人がやってるって感じがしますよね。
画像から画像を検索するということは可能なんですか?
高野 さっきの映像フレームがピッタリ重なっているものは、けっこう見つけられます。最近、
ぼかして逆にある程度構造を見て、構造が保たれているようなシミラルな画像に何が映って
いるのか考える場合、
「遠くに っぽいのがあるよ」とか、
「水平線が見える、地平線が見える」
というふうにやります。ちょっとずらした構図が似てるというのは、今度はシミラリティの判
定を少しぼやかしておいて、画像としてはズレてるけど、パンしたりすると構造が逆によく見
えたりするわけです。1枚の写真で探すよりも映像で探すほうが簡単だと言われていて─
何種類も写真を撮っているようなものなので、共通しているものが拾える。
前田 例えば、レオナルドのモナリザがクイズ番組で使われたとすると、言葉と映像をかなり
クロスさせながら探すことが必要ですよね。そういった場合でも可能なんですか?
高野 メカニズムとしては、exact なフレームで、映像キーワードを探して、映像の特定のフ
レームあるいは連続するいくつかのフレームと単語を強く対応付けます。次に今度は、私たち
のチームが「連想検索」などを使って、どれだけ鈍らせて使うかみたいな感じでしょうか。合
わせ技ですね。ひとつのシステムとしてあるわけじゃない。
辻 われわれの CM データベースだと、CM のバージョン違いが膨大にあるんです。その判
別を手作業でやっているので、自動的な対応付けができると助かります。
高野 そういう似たものの違いを見つけるというタスクは、映像の研究者たちはけっこう得
意かも知れないです。ただ、彼らが面白いと思うかどうかは別ですが……「長さ(CM の尺)
がまず違う、それでいいんじゃないの」みたいな。CD のトラックの情報の違いなんていうの
は、ほとんど長さだけから拾ってますよね、それと同じように。
石田 顔の認識もそうだし、さっきの YouTube の著作権法違反のやつを取り締まるという話
もそうなんですけど、使われ方がちょっと嫌ですよね。
高野 いちばんお金を持っている人が、買いに来るじゃないですか。そうすると、たいてい取
り締まる側ですよね。
石田 そうするとお値段も高くなるから、私たちのような下々のものには永遠に来ない技術と
いうような感じですね。
さっきのエコ CM のやつだと、CM の片隅にエコマークというのがついているんですが、
その部分をキャプチャーして、それによって検索するみたいなことはできるんですか?
高野 たぶん、まだあまりうまくいってないと思いますね。静止画でやってますからね。
石田 静止画だけども……
高野 いやいや、対象がみんな静止画でないと。静止画の技術で動画をやろうとすると 1 秒
間に 20 枚ぐらいをやらなくちゃいけない。間引いたとしても、
ほんの数秒の画像を相手にして、
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 137
そういうことをやればできなくはないと思います。
竹内 要するに、静止画だとわりとうまくいくんですか?
高野 静止画はけっこういろいろと研究されていて、やっていますので、それをがまん強く使
えばできると思います。ただ、それを動的にできるので、アップルの iTunes や Google イメー
ジサーチなどいろいろありますが、写真撮って「これ、何?」というと、たいていの有名な絵
は全部入っているんで、
「これは、ピカソが描いた○○ですよ」ってサッと出てきて、他にこ
ういった写真がありますというように、似たもの探しの技術はけっこうある。ただ、対象が増
えてくるとどんどん精度が下がるんで、数が少ないうちはよかったんですけれど、最近は正解
率が下がってるんじゃないかなと思います。そういうのは対象となる探される側が増えれば増
えるほどこんがらがってきます。
石田 素人が描いた似たような絵も入っちゃう。
高野 昔、キーワード検索で面白いねって言ってた AltaVista というのがありましたが、それ
が検索対象ページが数十万件ぐらいまではうまくいってたのが、何百万件になったらゴミだら
けになっちゃって、何を引いてもゴミしか出なくなった。それを救ったのが Google のページ
ランクとか他のランキングで、そういうときが次の技術のチャンスかも知れないですね。まだ、
あまり聞いてないですね、動画でというのは。
石田 このチームは 3.11 に関する共同研究以降、共同研究者は募集してないんですか?
高野 1 年単位で、去年までの 2 年間募集していましたが、今年はやってないですね。
石田 じゃあ、番組を録り溜めてはいるけれども、次なる研究テーマというのは特にないとか⁉
高野 彼らの本業はメディア研究者と共同研究することではありませんから。さっきいったよ
うに、テレビ映像は研究素材として面白いから、いろんな研究室で取り組んでいるということ
です。ニュースで扱われた人を全部探してくるとか、政界データもさっき言った資料映像で鈴
木宗男の褒められたときからどん底になって、収監されたときから、そのあとまた復活してと
いったような栄枯盛衰のような映像をずっと追いかけるとか、スレッドで追いかけるとかね。
それぞれの資料映像は変わるんだけど、鈴木宗男ってついてるからつなぎ合わせることがで
きる、ニュースのスレッドを通すことができる。全部がテキストになったらキーワードでもで
きるような話ですけど、そういうものを映像ベースでできるから面白い。
石田 他に何か質問はありませんか?
高野 以上が映像のお話です。
今度は自分の研究で、連想のネタでちょっとお話しします。私はここには 2001 年 1 月から
来ているんですけど、その前は日立製作所で 20 年ぐらい働いていて、その最後の 5 年ぐらい、
1996 年頃から連想というのを研究対象にしました。そのときはすでに AltaVista が出て、天
下取ったと思っていたら廃れて、次に Google が出てくるぐらいのときでした。キーワード検
索って、プログラマーの立場からいうと、ふつうのエディターの検索ですから基本中の基本だ
し、それが自分の PC のデータだけじゃなくて世界中の Web ページでできるところはすごい
138 テレビ文化研究
けど、でもサーチだけで何か仕事ができるかというと、仕事ができるはずがない。じゃあ何か
もっと違うものが必要なんじゃないのということで考えた。で、とりあえず当時、これからど
うするのかと考えたのが、情報空間がどんどん広がっていって、どんなものでも電子情報とい
う形態で手が届くようになるだろうと。それまでは百科辞典はあそことか、○○全書はこっち
とか、博物館情報は博物館図録の中に、というふうに分かれていて、そこまで足を運んだり、
図書館まで行かない限り、なかなか手が出なかったんですが、電子的に触れるようにはなるで
しょうと。そうなると、逆に私たちが日常的に接することができる情報がべらぼうに大きくな
って、収拾がつかなくなるだろうから、それを何とかしたいというのがあった。でも、情報が
多いということからいうと、人間の頭の中にも、なかなか思い出せないんだけれど、生まれて
この方、あるいは生まれる前の情報からずっと残っているらしいということがある。でも、人
間はあまり困らずに生活をしている。記憶からそのとき必要かも知れないという情報が何とな
く浮かび上がってくる仕組みは、連想的探索とか無意識的想起とか言われていて、人間は誰
でもそれを無意識に使って知的活動をしている。じゃあ、それに似た仕組みを電子情報に対
しても使えて、同じようにうまく思い出せるようになれば、電子情報と人間の脳みその情報の
出会いの場所になって、お互いにいいことが起きるのではないか。そういう考え方で、マシン
と人間の界面がたぶんいちばん細いので、そこを生産的な場所にするためには、お互いの記
憶のメカニズムをうまく関連づけることが重要でしょう、と考えたんです。でも、仕掛けとし
ては同じ必要はないだろうと。人間が思い出すように機械も同じように思い出さなければいけ
ないということはないけど、人間が求めるものをすべてキーワード検索の形で表現しろという
のはちょっと切なすぎるので、何かもっと柔らかい感じがないかなあと。だから、情報が集ま
ってきたら、人間のこういう連想的探索とか無意識的想起を刺激するような形で表現されて、
人間に与えられるほうがいいだろう、ということで、それで相互作用というのを言っているん
です。そんな感じでいくつかシステムをつくってみました。最初のは日立の時代につくったも
ので、DualNAVI というんですが、こんな画面(インターフェイス)です。左側がドキュメン
トの空間で、
89,000 項目の世界大百科があります。「連想」─「無意識」─「想起」─「直感」
という言葉を入れて引くと、1 番目がエリザベートなんとかさんで、2 番目が精神分析、3 番
目が自由連想法です、というような感じで、このキーワードとクエリと近い順で出してくれま
す。これが連想検索です。近い順というのはこの言葉をできるだけ多く含んでいて、かつ頻
度も高いという順に出てくる。ただし、各項目は長さ(文章量・語彙数)も違うので、長い項
目に 1 回と短い項目に 1 回だったら、短い項目に 1 回のほうがきっと意味があるよねという
ように、密度のようなものを評価して、順番を付けます。右側がちょっと面白くて、ここの検
索結果、これはトップ 200 を出すようにしているんですが、トップ 200 の項目を機械が分析
して、その中でどの言葉とどの言葉が共起関係が強かったか、一緒に現れやすかったかとい
うのを分析しています。これは、左側の結果が変わるとグラフががらがら変わるように、動的
に毎回計算するようになっています。ユングで「夢」とか、フロイトが「自我・抑制・心理」
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 139
みたいな感じで繋がるので、ああ何となくあの話ねとか、こっちはこの話ねみたいな感じで、
サブトピックをここから読み取ることができる。左側を見ていてもなかなかわからないような、
この中に埋もれている話題の塊のようなものが、とりあえずこの言葉を使って広げていったら
いいよ的キーワード付きで表現されている。
このグラフはどう書いているかというと、200 件の中でいちばん多くのドキュメントに含ま
れていた言葉を上から下に配置しています。この 200 件の中では、
「連想」という言葉が実は
いちばん多く含まれていたということが表現されているわけです。次に「無意識」が多くて、
次に「生死」が多くて、次に「微笑」でした、みたいな感じなんですが、頻度順に上から下
に並べて、かつ共起関係が強いものを線で引く。ただし、ものすごく頻度が高いからといって
ここに必ず選ばれるわけではないんです。なぜかと言うと、89,000 分の 200 という確率です
よね。890 分の 2、445 分の 1 なので、ものすごくしょっちゅう使われる言葉は、440 何回
出てきてもあたりまえなんです。89,000 項目のすべてに出ている言葉は、200 項目選んだら
200 回出ていてあたりまえなんで、そんなものは選んでも意味がないから選ばない。すなわち
これは期待値の計算です。ですから、ユングというのは百科事典全体で 20 回使われていると、
だけど今 200 件、445 分の 1 に絞っているんだから、ほんとうなら 445 分の 20 回、だから
1 回も表れなくて普通なんだけど、でもここには 5 回も 6 回も表れている。これはきっと、ユ
ングに関係した言葉をあなたは考えていますねというふうに、期待値との差を評価して統計的
に有為に頻度の高いものだけを選ぶというのをまずやります。そうやって選んだあとで、今度
はドキュメント頻度順に上から下に順に並べる。これは上の方ほど一般的、このドキュメント
しかない世界に住んでいる人にとって、最も一般的な言葉の順に上から下に。その間で関連
づけをして線を引くと、一種シソーラスのような感じになって、どこに帰属するかというと無
意識や連想に帰属しますね、みたいな感じになっているので、フロイトよりユングのほうがち
ょっと下に来てるとか─これは頻度順にここに来ているわけですが─、シソーラスっぽい
と。だから動的に起こしたシソーラスだと思っていただいたらいいんですけど、裏で予め定め
られたシソーラスはいっさい使っていません。だから、
形態素解析をかけて、
自立語(形容動詞、
動詞、名詞、形容詞など)を全部拾って、分析するとこうなります。だから、
「見る」とかい
うのも動詞ですけど、ちゃんと選ばれている。これがどれだけ意味があるかというのはわかり
ません。もちろん、動詞を外すとか形容動詞を外すとか自由にできますし、感嘆語を入れると
か、接続語を入れるとかね……。百科事典は文体の違いが面白いから接続語を入れています。
「いわゆる」とか、
「いわんや」なんとかとか。
「いわんや」は出てきませんが、
「いわゆる」と
いうのはけっこう使われていて、
「なぜなら」
「ゆえに」なんとかかんとかとやっていくと、接
続語だけで連想検索を絞り込んでいくとすごく面白くって、哲学や数学関連の項目ばかりにな
りました。そういう文章スタイルみたいなものが、染み出てくる。
辻 代名詞も拾うんですね。
「彼」と「精神」が結びついているというのはどういうことなん
ですか?
140 テレビ文化研究
石田 「カルト精神」……(笑)
高野 不思議な感じですね。このシステムを 1996 年につくり始めて、3 回ぐらいつくり直し
ましたが、今でもこれは結構完成形だと思っています。今もこれを超える検索システムは、な
いんじゃないかと思っています。日立基礎研というところでつくったのですが、会社ですから
特許をたくさん書いてがんじがらめにしました。
ただし、これを実現するためのメカニズムの部分は、特許で囲っても意味がないから、自
由にしようと幹部を説得しました。ユーザーと接する DualNAVI といういちばんのキラーア
プリは押さえたから、後は連想計算エンジンがどれだけ進化しても、われわれは負けませんよ
と、いろいろと屁理屈をこねました。連想計算エンジンの開発を国家プロジェクトに応募して
─実はもうできていたわけですけれど─、いちばんのエッセンスの部分を IPA というと
ころからお金をもらって、1 億円ぐらいでつくり直しました。実はファンドの制約として、
「成
果物はオープンソース(ソフトウエア)として発信しなければならない」と書いてあったので
応募したのです。だから一種のロンダリングです。このままだと、我々がつくったソフトウェ
アすべてが日立の中でがんじがらめになって、どこにも出ないで終わってしまうという恐怖感
があったのです。
前田 フェイスブックのプラグインとして出回っているソーシャルグラフが、まさに似たよう
なシステムですね。
高野 そうかも知れないですね。共起関係で云々というのは、私たちの前からも当然あったん
ですが、内容の濃い大量の文章を使ってやるというところがけっこう面白いのです。データベ
ースも新聞何十年分とか出てきて、あるいは論文のデータベースとか自由に切り替えられるん
ですけど、そうすると同じクエリでもグラフは全然違ったものになる。要するに、どういう知
識が頭に入っているかによって、グラフは当然大きく変わってくるので、専門性のある事典を
引くと、専門用語で埋め尽くされるというようなことが起きます。
これをつくりながら、何がいちばん本質かというのを考えてここに反映したり、それをやり
ながら、またもとに戻って考えたりということを繰り返しやったわけですが、96 年春ぐらいに、
このマニフェスト的な絵を描いて、
「これだね」ってことでみんなで納得したんです。だから
それを忘れないように、このスライドは 96 年以来ほとんど変えていないのです。左側に全文
章をとり、右側に全単語をとります─こういう空間を考えています。私たちは文章だけ見て
いても、単語だけ見ていてもなかなかうまく捕らえられないので、記憶も単語繋がりで出てき
たり、文章のフレーズの中に出てきたり、いろいろするわけですから、これをまずは対置して
考えましょうと。で、単語をひとつ入れるとその単語を含む文章がもちろん見つかりますけど、
これはキーワード検索で使っている対応付けですよね。ひとつの単語に対して、これは重み付
き、この文章には 3 回、こっちには 5 回、というふうにして、重みがついた文章の集まりがくる。
こういう重み付きのセット(集合)のことを、数学ではマルチセットといいます。1 個のエレ
メントに対してマルチセットが対応する。逆に文章を選ぶと、文章の中に含まれている単語を、
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 141
順番とか全部無視して、活用しているものとかを全部原形に戻したとして─、どの単語が
何回出てきたというのがとれます。これを文章ベクトルとも言いますけど、これもマルチセッ
トなんですね。単語のマルチセットが新しく対応する。この関係というのはコインの裏表みた
いなもので、数学ではデュアルな関係にあるといいます。この 2 つの集合間にはデュアリテ
ィがあるんじゃないかと。この下の矢印がキーワード検索です。左側(文章)が集まりすぎて
しまうから、人に見せる順番を考えましょうと。百万ページヒットしたときに、どの順に見せ
ますかというので競っていたわけです。Google はそれで世界を制覇したわけですけれど、私
たちは同じ土俵じゃとても敵わないというか、─当時はまだ Google もやり出してはいなか
ったけれど─ AltaVista とは違う方向を考えたいというので、上の矢印を使って文章と文章
の関連性というのをこのモデルで考え直してみようと考えました。A と B の文章の関連性を、
左側(文章)ばかり眺めていても、
なかなかみんなの納得するものが得られないので、
右側(単
語)の世界でも努力しましょうと。つまり、文章をマルチセット of word としてその距離をき
ちんと定義します。確率的メジャーとか統計的メジャーと言われていますが、各単語がどれく
らいよく使われている言葉なのか、ということで正規化するとか、一つ一つの文章の長さが違
うのだから、当然期待値も変わってくるよねーとか、そういうことをちゃんと入れて、確率の
ようなもので評価して、これとこれの間に出てくるこの重なりというのは、どうなの? 意味
のある重なりなの? めずらしさはどのくらいですか? というのを評価する。で、めずらし
いことが起きていれば距離が近い、意味があるというふうに思おう、ということです。当時す
でにこういうメジャーを考えている研究者はいましたが、こういう検索システムにそれをうま
く使って、スケールする形でやろうという人はあまりいなかった。何かでちょっと分類してみ
ましょうとか、クラスタリングしましょう、ぐらいの人はいましたが、ここを徹底的に高速化
するというのが、私たちの価値観になりました。これはなかなかいけてると直感しました。文
章と文章の間に、いま言った関係で、距離のようなものが入りますよね、これとこれはどれく
らい、これとこれはどれくらい、と……。で、デュアルに逆向きの矢印があったから、この逆
向きの矢印を使えば、やっぱり同じ文章で使われている単語どうしの距離のようなものが計算
=定義できるわけで、左側(文章)のところで確率的メジャーで定義して、今度は右側(単語)
のところに距離が入る─この単語とこの単語は近いとか遠いとか、というようなことが入る。
でも、これは意味的に近いというようなわけではなくて、使われるコンテクストが近い、とい
うような意味での「近さ」
、ですね。
そうすると、この「距離(メトリクス)
」と言いたいところなんですが、数学的に厳密な距
離空間を張るわけじゃないので─距離空間を張るには三角不等式を満たさなければならな
いんですが、そうはなっていないので─、
「距離のようなもの」というしかないんですけれ
ども、それが定義できる。文章間の距離と単語間の距離が、さっき言ったコインの裏表の対応
付けを完全に反映しているので、ある意味でコンシステントなわけです。どういう意味でコン
システントかというと、近い単語は近い文章に含まれやすい、というような関係があり、その
142 テレビ文化研究
逆もまた真なりです。
これらを使って、何かサービスにつなげたいというのが私たちの発想で、指定文書、例え
ば今日の新聞とか Web をサーフィンしてたら、4 つぐらい面白いなと思うものを見つけたと
すると、
「これって同じ話題だよね」
「僕はひとつの興味でこの 4 つを選んだよ」って言ったら、
これを右側にもっていくと、それぞれがマルチセット 4 つを重ねたようなものになるので、当
然、集合として和集合をとればマルチセットになりますよね。かつ、ここに青い濃い矢印─
もともとのとちょっと違えていますけれど─これは選ばれた 4 つの中で共起が強い場合は、
ベースラインの共起よりも確率的に高い共起が表れていれば、これを拾うというようにするこ
とによって、すごくピンポイントな、あるいは感度の良い─百科事典を全部読むと日本と歴
史がよく使われますとか、富士山と言えば何とかですみたいなのが出てくるんですけれど、い
ま、たまたま選んでいるのは富士山の麓で何か建物を建てて、何何している人がいるらしい
みたいな……「富士山」
「建物」
、それってひょっとしてオーム真理教⁉ とかいうような感じ
の共起ですね。
そうすると、どういう関係性が、いま、私が注目しているかということをちゃんと表現でき
るというので、何か文章群を特徴づけるような単語およびそれの間の意味のある共起のような
ものが見つかるでしょう、と。それをグラフで表すと、ここが単語でこれが線ですから(特徴
語グラフ)─さっきのデュアル・ナビの右側に出てきた─これを「要約」と呼んでもい
いんじゃないかと。自然言語処理の研究者は「要約」というとなにか文章を生成しなければ
いけないとか、
「最初の文章と最後の文章を選ぶとすごくいい」とか言いますけれど、要約と
いうのは人間がこれがどういう話題なのかを理解できればいいわけですから、文章である必要
はなくて、グラフだっていいわけです。私たちは、これを文章にしたかったら、これを見なが
ら文章を生成すればいいじゃない、という立場なので、これを「要約メカニズム」と呼びまし
ょうと(=サマライゼーション)
。こっちからこっちが言えるということは、逆の矢印もあり
ますから、引き戻すことも当然できて、そうするとこの単語群を引き戻すことによって、この
一個一個に対応しているマルチセットの和集合をとるということをやれば、同じことが言えて、
もちろんここにまた線を引いてもいいんですが、対応が見つかる。すると、青の世界にピッタ
リと戻るのではなくて、ちょっと広い世界に戻りますよね。なぜなら、単語が増えてるから。
しかし、完全に全部採用してしまうと広がりすぎてしまうので、たいていの場合には、足きり
をしながら引き戻しますが、そうはいえ何となく広がった世界に戻ってくる。そうすると、行
って返ってくる─矢印を合成するのは機械は朝飯前なので、どういうふうになっているかと
いうと─、青の文章群を入れて赤の文章群が返ってくるような検索ができるということにな
ります。結局、文章例を入れて関連した文書群を得るということなので、シミラルな文章─
気に入った文章をチェックして検索をかけると返ってくるのはまさにこれなんです。文書 in
文書 out の─文書連想検索という場合もありますが─、この 2 つはけっこう面白いしユ
ニークだし、キーワード検索の先を行っているのではないかと、私たちは信じたわけです。そ
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 143
れは、
まだ諦めていなくて、
96 年以来ですから、かれこれ 20 年近くやっていることになります。
で、その計算を徹底的に高速化するエンジンをつくろうじゃないかと─何しろ自然言語
処理の研究者たちは、一般的にプログラミングが得意ではなくて、Perl などのスクリプト言語
で書いたものをプログラムと呼んだりしているんですが─、私はシリアスなプログラミン
グの分野出身なので、100 倍速いやつをちゃんとつくってみんなに示して、
「あなたたちはプ
ログラムしないでいいから、この下駄を履きなさい」という意味を込めて、
“GETA:Generic
Engine for Transposable Associatoin”(汎用連想計算エンジン)という名前にしました。「下駄
を履かせるシステムをつくりましたので、みなさんこれで、計量とか、いちばん自分たちが研
究しなければいけない部分を研究してください」と。
「その代わり、100 件、200 件の新聞記
事で分析・計量したところこうなりましたというようなものではなく、最低でも新聞1年分を
使って研究をして下さい。これだったらノート PC でも軽々と動かせるんだから、新聞1年分
でどうだったこうだったと、ちゃんと意味のある(有為な)データ量でやって下さい」という
ようなことを言って、GETA を公開したんです。
これは1億件規模─1億件やるにはそこそこ高性能のサーバーが1台や2台は必要で
すが、ノート PC でも数百万件なら楽に動きます。オープンソースで配っていて、その後、
“GETAssoc”という使いやすいバージョンも公開しています。
“GETAssoc”のリリースサイト
は阿辺川さんがつくったので、ドキュメントもきちんとついていて、使いやすいと思います。
では、これで何をやるかというと、例えば「ダイオキシンの毒性」と入力して検索すると
─これがクエリにあたるわけですが─、
機械はクエリを形態素解析にかけます。さっきは、
“想起、直感”何々って、人間が区切っていましたけれど、ふつうの文章でもかまわない検索
なので、これを形態素解析して、自立語を抜きます。そうすると「ダイオキシン」と「毒性」
という2つの言葉が引っかかります。そうしたら、左側のマトリックスを引くんですが、これ
はどうなっているかというと、縦軸が文章、横軸が単語の頻度マトリックスのようなものをも
っている。どの文章にどの単語が何回というように、さっき言ったモデルのマルチセットが横
方向で表現されているわけです。なので、これを引くわけなんですが、マルチセットの表現が
あれば、
「ダイオキシン」と「毒性」という軸で縦に引きます。そうすると、
「ダイオキシン」
が1回だったら何点とか、
「ダイオキシン」が5回だから何点、
「毒性」が2回だから何点とい
うように、点数を足し込んでいくわけですね。そのときに、
「ダイオキシン」1回だから同じ
点数が積まれるかというと、そうではありません。なぜなら、横方向の長さが違うから。文章
が長いところに1回と、短いところに1回とでは重みが違うから、長さでノーマライズして1
のポイントというのを足し込みます。同じく、ここでは「ダイオキシン」が 1 回、
「毒性」が
1 回、「1」「1」と表れているから、「大気汚染防止法」は同じ長さのドキュメントなので、「1」
「1」だから同じ点数が足し込まれるかというと、
そうでもない。それは、
縦軸=「ダイオキシン」
がどれくらい一般的に使われているか?」
「毒性が何回出てくるか?」これを計算して、百科
事典分の何回だから何点というようにして、点数を決めて足し込んでいきます。ですから、め
144 テレビ文化研究
ずらしい単語ほど大きいポイントが積まれることになります。そうやってポイントの大きい順
に並べ直すと、ダイオキシンが 100 点とかになって、スコア付きで文章の列が表示されるの
で、この順に並べると、あなたの質問に近い順、ダイオキシンの毒性だったら、
「ダイオキシン」
の項目を読んだらいいんじゃないですか、つぎは「農薬の毒性」
「環境ホルモン」といった順
番で出てくる。これがひとつの使い方ですね。
デュアリティがありましたから、当然逆向き(単語の距離)も計算したくなります。特徴語
を抽出するときはどうしているかというと、こんどは「ダイオキシン」と「大気汚染防止法」
という項目を選んだら、その文章全部を眺めて、その中に出てくる単語すべてに対して点数を
足し込みます。すべての単語でやったらたいへんだろうという感じがしますが、例えば、新
聞 1 年分、日経新聞 20 万件で 20 万異なり語ぐらいなんですね。横軸は、種類が数十万件あ
るわけです。そのうち、百科事典の項目がどんなに長いといっても、何万単語に及ぶことは
ないので(1 千単語から 2 千単語で書かれているから)
、そうするとすべて違う単語で書かれ
ていたとしても、2 千個ぐらいしか「非0(ゼロ)
」にならない、ほとんどが 0 になるわけで
す。ということを考えると、この行列というのはほとんど 0 です。なので、ここで出てくるも
のすべてに内積計算をやってもたいしたことはないわけです。このマトリックス全体から見た
らほんの一部しか触れない、というふうにして計算して、またここでスコア順に単語を並べて、
今度はグラフを書くためには、これとこれはどれくらい一緒に表れていますかといって、上
位 20 個ぐらいを選んだ後で線を引くというようなことをして、グラフを書く。ということで、
この 2 つ、同じマトリックスですよね。縦→文章、横→単語というマトリックスを縦に引いた
り横に引いたりする。いちばん最初は単語から文章へ、2 番目は文章から単語へ引きましたよ
ね。ですから、これだけできればすべてのアーカイブから計算できるというので、じゃあ、こ
れを構築すればいいじゃないかとなります。しかし、ふつうにやると、例えば、新聞には「日」
という字がおそらくいちばん多く使われていて、10 何万回出てきます。そういうものも「10
何万回出てきました」とちゃんと覚えておきたいので─「すごく多かった」みたいなこと
ではなく、exact に 3 回とか 8 回とか 183 回とか、そういうふうに覚えておきたいので─、
4byte くらいいるわけですね。1 つの箱に 4byte で、縦 20 万×横 20 万とすると 160GB ぐら
いになる。最近はメモリが増えてきたのでそれでもいいかなって感じはしますが、ちょっと大
きすぎる。これをそのまま持っているのはばかばかしい。ただ、幸いさっき言ったようにほと
んど 0 なので、わざわざ 0 のところに 4byte を要する箱をとっておく必要はないだろうと。ど
れくらいの密度で「非 0」かというと 3.5/10,000、だから 9996.5 回は 0 ということになりま
すね。ほとんど 0 なので、じゃあこの 0.035%だけを座標と一緒に覚えようということになっ
て、そうすると「非 0」
、何番目は 3、何番目は 8 とかいうように覚えておけばいいでしょう
というので、横に圧縮したら 5 番目は 3 でした、3 番目は 8 でした……で、圧縮して覚えて
おくのは、これ。そうすると、0.52kb くらい、いちばん長いもので 520 種類の単語で書かれ
た記事がありました。これはたいてい人事発表みたいなやつです。聞いたことのない言葉とい
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 145
うふうに分類されて、
「新語」
「新語」
「新語」……と人の数ほど種類が出ますけれど。で、縦
に圧縮したのは、今度はよく出てくる「日」
、これは 12 万 8 千回出てきますが、あとはこん
な様子です。但し、これ両方覚えておかないと、縦に引くとき(上から引くとき)はこっちが
必要だし、横から引くときはこっちが必要なんですね。そうでなければ、展開してからもう一
度眺めるようなことになるので、圧縮したままうまく扱えるようにしたい=必要なところだけ
展開してやりたいので、両方向に圧縮する。そうやると、これは当然二重に持ってるわけです
けれど、こっちは一重に持って 162GB、一方こっちは二重に持っても合わせて 1/1,000 以下
になるんですね。この 1/1,000 を持っておいて頑張ればいいや、というふうになりました。そ
の代わり展開したらもう一度見にくるかも知れないから、メモリに置いておこうよということ
をプログラマーとして頑張るんですが、─それは UNIX という OS では、M マップといっ
て、メモリにできるだけ保存しておくようにリクエストできる。そうすると、162GB ですから、
ふつうこれは置けるとしても HDD ですが、HDD はメモリと比較すると、場合によっては千
倍以上遅いわけですよね。そういうものを何度も引くよりは、こちらのものがほぼメモリにフ
ィットしますから、いきなりメモリにロードしてからやってもいいんですが、そうすると時間
がかかるので、使ったところからメモリに置いていくと、いつの間にかほとんどのものがメモ
リに載って、簡単に早く動くというようなことが起こります。これは、相当うまくいったんで
すが、では、距離の計算(確率的メジャー)ってどうやるのっていうと、どんな感じかというと、
「D」は document で、
「Q」は query でどちらも単語のベクトルですね。単語のベクトルの距
離を similarity はどのように定義されますかという式(式を入れる)なんですが、ドキュメン
トの長さが、データベースのもっとも標準的なドキュメントからどれくらいズレているかに応
じて、スロープ関数を引いて、ピッタリ標準だったら OK なんだけど、そうじゃなかったら少
しずつ比率を減らしていくというような関数がここにかかって(ウエイトがかかって)
、クエ
リの中に出てくるすべての単語について、まず、その単語についてのウエイトをノーマライズ
します。これは何かというと、
「単語がデータベースで何ドキュメントにあらわれるか」分の「デ
ータベースの全ドキュメント数」
。だから逆数をとると、
「データベースにどれくらいの比率で
あらわれますか?」比率の逆数の log。log というのがなかなかくせ者ですが─よく、おま
じないとして log をかける
(笑)
。これはドキュメントのウエイト、
これは単語のウエイトですが、
ここが本質で、これは「D というドキュメントの中に word が何回あらわれていますか?」的
な値、
これは「Q の中に word は何回あらわれていますか?」的なウエイト、
それを掛け算する。
ですから、ふつうに頻度だけを生(データ)に返すように、ウエイトをデザインしておくと内
積、エレメントごとにある単語について、こっちは 3 回、こっちは 2 回だから、掛け算して 6
というのが足される。どちらかが 0 であれば、
スコアが 0 なので何も足し算しない。ですから、
0 はタッチしないでいいということですね。というので、さっきの計算が成り立つわけですが、
だからウエイトは 0 だったら 0 を返すようなものとしてデザインします、頻度が 0 だと。
どうしてこれがうまくいくかは、ほぼ誰も説明できなくて─これは実験式のようなもの
146 テレビ文化研究
なので─、サルトンという検索システムの父のような人がいて、70 ∼ 80 年代からずっと
検索システムを研究していました。サルトンがつくっている検索システムが‘SMART’とい
う名称で、その計量はどんどんバージョンアップされていて、96 年頃はシングハル(Arvind
Singhal)というひじょうに優秀な学生がこれをデザインして論文を書きました。これが採用
され、
‘SMART Measure’と呼ばれています。われわれが 10 種類くらいの計量について、新
聞何年か分を使って実験したところ─いちばん人間が近いと思う、予め正解がわかってい
るものについてやったところ─、
‘SMART Measure’がいちばんいい成績だったので、それ
以来これを使ってやっています。それ以降、さらにいい計量が出ているかどうかはわからない
のですが、たぶんこれを凌ぐものは出ていないかなと。一般的には‘tf-idf’
(Term Frequency
Inverse Document Frequency)とかを使うんですが、‘SMART Measure’はそれより明らかに
優れています。いまだに NLP(自然言語処理)の人たちの研究では「tf-idf で何々をしたとこ
ろ、何々だった……」と、金科玉条のように使われているんですが……。とくに短いドキュメ
ントのところで、tf-idf ではどんどんおかしなことが起きます。そこが‘SMART Measure’で
はうまくノーマライズされています。ちなみにシングハルは、その後、Google に入って(100
番以内の社員となって)
、Google のページランクや検索結果の表示順序は、シングハルがずっ
∼と決めていたそうです。その後、Google のフェローになっていたころ、NII が主催してい
る NTCIR という会議にゲストとして招聘して講演してもらいましたが、
「Google のデータセ
ンターは、スゴイ安いハードディスクとマシンをずら∼っと並べてやっているんだ」という話
やみんなが知っているようなことばかりを言って、デリケートな質問に関しては「ちょっと、
それについてはお答えできません」と回答して皆をがっかりさせました。
国立情報学研究所に来てからは、GETA を使って情報サービスを実際に作って発信するの
がいちばん面白いだろうということになりで、
それに専念しています。いちばん最初に
“Webcat
Plus”というのをやって本の検索をやりました。その後、2010 年にリニューアルして、現在、
本のメタデータとしては、このシステムがいま日本最強だと思います。さらに「文化遺産オン
ライン」─ Webcat Plus を見て、文化財でそういったものをやってくれないかと文化庁の
文化財部長・木曽氏から依頼され、やりましょうということになって、それをやりました。あと、
他人がつくったデータばかりをやっていても面白くないので、自分たちで検索対象のデータを
独自につくったら何かおもしろいものができないかなというので、連想のためにいちばん理想
的なコンテンツを目指して「新書マップ」というのをつくりました。これは、テーマ別に書棚
を作っています。これも後で紹介します。
そうこうやっていたら、
「なんか楽しそうだね、神保町も何かやってくれませんか?」と神
保町の組合から連絡がきました。
「神保町のポータルサイトをこちらの仕切りでやらせてもら
えるのでしたら、喜んで引き受けます」と。当時、研究費もあったので「お金は要りません」
って言って、それ以来ずっとやっています。
いろんな連想の仕組みを入れて、例題で引ける。
「これ気に入ったよ、ほかにないの?」と
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 147
言ったらシミラルなものがくる─‘more like this とかなんかありましたね─と、そんな
感じの機能なんですけど、徹底的にフレキシブルにやるわけですね。
で、文化遺産オンライン─後でちょっとお見せするかもしれませんが─、これは全国
の博物館・美術館を横断的に引けるようなもので、─文化庁主宰なので逆に警戒してデー
タを出してこないところもいっぱいあるのですが─いま、900 館、収録点数が 10 万点くら
いで、そのうちの 3 万点ほどに写真がついています。これをオープンするときに、
「10 万点を
目指して」と文化庁の方が言ったので、みんな驚いて顔を見合わせたものですが、10 年かか
って何とかそこに届いたという感じです。
どんなものかというと、何か文化財を検索して、気に入ったものに─例えば、安土桃山
時代で引いたらこんなものが表示されて、
「茶碗とか釜がいいね」と、3 つぐらい引いて検索
すると、連想検索で関連した文化財がずらっと出てくる。
「なんでわかるの? 花入れみたい
なものが出てきたけど」って、それをクリックすると、
「利休好み」で繋がっていたとか、そ
ういう世界(仕組み)です。
すべて説明文やタイトルを使って(時代も一部使っていますが)の連想なので、いっさい
画像のシミラリティは使っていません。ジャンルもほとんど使っていないですけど、何となく
面白い。ただ、キューレーターの方とかは、例えば、
「縄文/火炎土器」とかで引いて検索す
ると、
「弥生」とか出てくるわけね、すると「けしからん。なんで縄文で弥生⁉」と。
「いや∼、
関連性があるんじゃないですか? 説明文が近いですよ!」とか言ってるんですが、プロには
好まれないサービスのようです。
(笑)
こういうのをさんざんやりました。したがって、個々の情報サービスをいろいろ立ち上げた
わけです。それぞれ独立したサービスですが、同じ仕組み「連想」が入っています。個々の
サービスの中で連想ができるのは当たり前ですけど、サービスが異なっていても、データを相
互に関連づけることができるでしょう。なぜなら、あの 2 つのドーナツの絵でシミラリティを
どうやって計算していたかというと、いったん言葉のグラフ(特徴語グラフ)を計算して、そ
れを引き戻すという恰好で探しにいっていました。一度要約を求めてから探しにいくので、こ
の 2 ステップを使えば簡単にできる。文化財で本を探すとか、その逆とかができる。この要
約はある種のレシピみたいな感じで、
「私はこんな情報に興味をもっているので、よろしく」
と言うと、人間が見ても意図を読み取れないような言葉がざーっと書いてあるだけですけど、
機械はちゃんとそれなりのものを見つけてくれる。この仕組みを使えば、もっと多くの情報源
を動的につなぐことができるなあということになりました。
これは、一気に視野が広がったような感じで、データベースは本なら本だけというように、
深掘りする感じになってしまいがちなんですけど、それを横断的に横へ繋いでいくことができ
る。こうして「想─ IMAGINE Book Search」ができました。
「想」と書いてイマジン(imagine)
と読みます。これはるるぶの観光情報や書評など異なるジャンルの情報源を横に繋いでいます。
こういう情報技術にどういう意味があるのかを説明するときに、例に引くようにしているの
148 テレビ文化研究
が、
ハモンドの
‘The Hidden Traps in Decision Making’
という論文です。
“ハーバード・ビジネス・
レビュー”に 98 年頃に載ったものですが、一般的な意志決定─ Web を使わない意志決定な
んですが─で、人間はこんな罠に陥りやすいと論じたものです。最初の Anchoring というの
は、最初に見たものに興味がグッと引き寄せられて、過度の影響を受ける─一目惚れとかは
これがあるから世の中うまくいってるんだとも思いますが。いつも客観的に比較していたらな
かなか決められない。次は、Confirmation、これはいったんそういう仮説が頭に浮かぶと、無
意識にそれを証拠立てる情報ばかりを探してしまう。意識的に探すのではなく、それしか目に
入らなくなる。一目惚れで「あばたもえくぼ」みたいな感じですね。3番目の Memorability は
何か劇的なことが起きるとそれに過度の影響を受ける。何か事件が起きると、そっちにわーっ
と行っちゃって、いままで考えていたことは忘れちゃうみたいなことが起きる。あるいは、複
数の情報源から繰り返し同じ情報を受け取るとそれを真実だと信じてしまう。これは紙のメデ
ィアの時代、取材がメディアごとに独立に行われていたときはよかったのですが、今の調査は、
Google で引いて、Wiki ページを見てるだけだったりするんですね。そうすると、ソースが基
本的には一緒、それも元をただすとブログの誰かの書き込みだったりする。
「友人の A さんも
言ってた」
「新聞にも書いてあった」
「テレビでキャスターが喋っていた」
「みのさんもそんなこ
と言ってたね」というような感じで情報が入ってくるので、非常に危険。いままで独立性が保
証されていた情報のチャネルみたいなものの、
独立性が危うくなっている。いまでもテレビ見て、
ラジオ聞いて……なんか違うチャネルから入ってきているような気分になりますけど、実はそ
の裏で電子的な情報の流通で繋がっていたりする。いわゆるデマのようなものを信じやすい状
況も生まれつつあります。次に人間というのは、現状維持に役立つことを受け入れやすい。
最後は、Sunk cost ─これは自分が長年取り組んできたことがもうダメなんじゃないかと
ある程度わかっていても、人間というのは今までやってきたことを水泡に帰すような決断はし
にくいということです。もちろんこれには良い面もあって、これがあるから、全然見込みがな
いと思われるところで頑張って、思わぬ発見をしてノーベル賞をもらう人もいるわけです。
このような罠に陥らないですむように、具体的な情報を見る前に何か一段階置くとか、情報
のもとがちゃんと辿れるようにするだとか、いくつか情報があるんだったら、ひとつの情報ば
かりを見ているんじゃなくて、ある程度要約して周囲を見せてあげるというようなことをやる。
ある程度走ってても、これを潔く捨てて、別のところにサッとジャンプできるようなフットワ
ークの軽さを与える。それを切り替えるタイミングとして、周りにこんなのがあるんだけどこ
れってけっこう関係しているんじゃないですか? と。キーワード検索とかだとぜったい視野
の中に入ってこないようなもの(周りの景色)を少し見せてあげるとか。もしくは、完全にこ
の話は終わりにして次に行くみたいなことをやりやすくするとか、そんな機能がきっといると
思います。これらを全部私たちができているとは言わないけれど、そういう観点で先ほど紹介
した想・IMAGINE というサービスをつくりました。
こういう個別に立っているサービスを、これとこれ、これとこれ、これとこれ……というよ
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 149
うに 2 個ずつ繋ぐというのは簡単なんですが、そうではなくて、交換所(インターチェンジ)
みたいなのをつくって、そこに何を呼び寄せるかもユーザが自分で自由にコントロールできる。
並び方も変えたりしながら、
そこを知的インタラクションの場にする。私は
「手のひら賢人会議」
と言ってるんですけど、それぞれのデータベースはそれなりに詳しい知識をもっている賢人の
ようなものなので、それを呼び寄せて、会議参加者から自分が決められる。そこに何かお題
を出すとそれぞれの賢人が何かをしゃべり出す。勘違いしている人や発言が自分に響かない
人には退場してもらって、新しいメンバーを呼び入れたりしながら、
「君のこの発言とこの発
言はすごく面白いね!」ってピンとやると、
「それだったら私も知ってます」というような感
じで、賢人のインタラクションが自分も交えて始まる。自分が全然知らないキーワードも裏で
は使われる。
「何々さんの発言」にチェックを入れると、その人の言葉が全部使われるわけで、
そこには自分が全然知らない固有名詞とかがあっても、
「それだったら知ってますよ! 私だ
って詳しいんですよ!」なんて言って、隣の人が話し始める。最初は何が起きているのかよく
わからないんだけど、ちょっと眺めてみたら「あっ、この人がキーなのか!」というのがわか
る。というようなことを、インスタントラーニングというか、学びながらそういうことができ
るような環境というのが、できたかなという感じです。一般に公開できるのは、新書マップな
どフリーのコンテンツに限られますが、研究室では岩波の辞典などの研究利用許諾を得て使
えるようにしています。
千代田図書館がリニューアルされたときには、丸い書棚をつくって、そこに IC タグを貼っ
た新書を約 7,000 冊配架して、その中から気に入った本を選んで、PC 近くの木の棚に選んだ
新書を3冊置くと、この 3 冊が共通して指し示すテーマのようなものが想・IMAGINE でさ
っと表示されるというコーナーを作りました。表示された画面から「あっ、面白い! これと
これ」って、気に入った項目をマウスで選んで追加すると、さらに検索が進む。7,000 冊の新
書がパレットの上に並んでいる感じで、それを組み合わせて自分が求めている情報の色を表
現できるのです。
辻 新書のタイトルをクエリに使っている?
高野 タイトルだけではなくて、新書の目次や概要を使っています。新書マップを作成すると
きにけっこう集めたので、その蓄積を使っています。千代田図書館は立ち上げ当初はけっこう
話題になって、テレビの生中継だけでも何回も入ってたんですが、2 ∼ 3 カ月も経つとだんだ
ん興味も薄れ、ユーザーはパソコンでネットサーフィンしているという状態になって、1年後
には引き上げてしまいました。小布施図書館の館長さんがなかなかやる気のある人で面白い
から、そちらでも千代田と同じシステム動かしています。
神奈川県立近代美術館のキューレーターに稲庭彩和子さんという面白い人がいて─いま
東京都美術館に移っちゃいましたけど─、その人の組んだやつで常設展の展示なんですが、
この辺に吹き出しのように出ているのが、近隣の横浜国立大学の付属小学校の美術の先生と
タイアップして、授業で子どもたちが自分のお気に入りの 1 枚を見つけて、それについてコメ
150 テレビ文化研究
ントすると、そのコメントが展覧会に届く、みたいなことをやってます。稲庭さんがつくった
んですけど、自分たちが所蔵しているもの 50 枚を紹介する─
1 枚 1 枚カードになってい
て─「ぼくらの宝箱」という 50 枚入りのカードセットがあって、それを教室に持っていく
と1人1枚ずつダブらずにとることができるんですね。で、
「これは私のお気に入り」ってや
って、それについてコメントしたり、みんなに紹介したりと、いろいろやった後にはそのカー
ドとコミットする結果、たまたまそのカードにあたった場合でも、
「その絵については、オレ
だ!」というふうになる。それが、美術館に来ると本物が納まっているので、ここの空間が何
か特別な意味をもつようになってくる。そうして、これが「美術館はぼくらの宝箱」というふ
うにつながっていくわけです。
「宝箱」カードから、
「ぼくらの宝箱」
、宝物が納まっているか
ら「美術館はぼくらの宝箱」というコンセプトで、これは素晴らしいということで、そこから
さらに知識を広げる部分は私たちにやらせてとお願いして、廊下に検索端末を入れたり、ちょ
っと関連した本が置いてあって、ここに本を置くと、アンテナが仕組まれていて、本の情報が
サッと出る。こういうのをつくって展覧会を開催したりしています、3 年前ぐらいですね。
各種の情報源をいろいろ自分たちでもつくってきましたが、いろいろな組織が持っているデ
ータベースはなかなか提供されないので、仕組みをつくって届けて、向こうの名前で発信させ
ることもしています。同じ仕組みなので、美術館は美術館の狭い窓で「想─ IMAGINE」が
動くんですが、そこにちょっと「新書マップ」や Wikipedia も追加したりとかして、それらの
つながりで、
「想─ IMAGINE」どうしがつながっていくという感じを狙っています。どうし
ても、こういう memory institute と呼ばれる組織は、社会の記憶や文化の記憶を担っていて、
歴史もあるしこだわりも深いので、
どうしても深いもの=「知のサイロ」のようになっています。
それをブリッジ(架橋)していく技術を提供するのが、私たちの役割かなあと考えています。
とはいえ、上っ面をなでているだけでは、だんだんフラストレーションがたまってきて、大
学図書館だけではなくて国会図書館もつないじゃえとかね、ちょっと冒険を始めたわけです。
大学図書館と国会図書館とでは、最近ちょっと状況が変化しつつありますが、1 年に 1 回だけ
交流会というのがあって、会社の経営陣と労働組合の団体交渉のように 3 ∼ 4 人ずつ並んで
「何々のデータを出していただきたい」
「なるほど、承りました。それでは、検討させていただ
きます。また、
来年お目にかかりましょう」……といった案配で、
まったく前に進む様子がない。
どちらが悪いかじゃなくて、大学図書館と国会図書館とでは、本のタイトルや全集に関してど
のようにカードをとるかひとつとってもお作法が違う。大学図書館と国会図書館との乖離を埋
めるには第三者が立つしかない、ということで私たちが両者をとりもとうと立ち上がりました。
そのかわりいろいろと彼らが考えないような新しいこと─古本屋の在庫をつなぐとか、青空
文庫でこれが読めますよとか、著者についてデータベースをつくって、その人が Wikipedia に
収録されていれば、Wiki から情報を出すとか─をやっています。さらに本の本文まで読め
るような世界をつくっていけたらいいなと思っています。
石田 Webcat Plus はとってもよく使っていて、学生にも奨めています。
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 151
高野 そうですか、めずらしいですね。
石田 めずらしいですか? 本棚に置いていく仕組みというのがわりと好きなので……。
高野 どうもありがとうございます。このサービスは最初の企画から私が担当しました。企業
から転勤してきて、連想エンジンがオープンソースなのに、どこにも使われていない状況とい
うのは面白くないから、ずーと見渡して一番いけてないサービスを探したら Webcat だったん
です。Webcat って図書館のプロは引くんですけど、検索結果は先頭の 200 件までしか表示さ
れない。
「200 件以上あります。後は知りません。クエリを絞ってお試しください」みたいな
検索だったから、今どきなんで 200 件で切るのって感じました。
ものによっては、データベース順に出てくるので、英語が出てきて「はい、お終い」と。漱
石を引いたら、英語の漱石だけ出てきて、はいお終い、みたいなことになっていました。じゃあ、
連想でやろうよということになったんですが、そのためには、中身の情報がないと中身が近い
という検索はできないので、タイトルが近いという検索をやっても全然面白くないから、じゃ
あ目次を買いましょうということになって、当時の責任者だった川瀬課長を説得して、書籍の
目次のデータを全部買ってもらいました。
そのお蔭で、この辺からリンクを張るじゃないですか、戦国武将から……で、この辺をクリ
ックすると、文章がクエリになって、サッと検索するわけです。表示された中から好きな書籍
を選んでクリックすると目次が読めて、著者が出てきて、著者名をクリックするとその人がど
んな人かというのが表示される。これを使ってくれている人は滅多にいないんだけれど、
(こ
ういうふうに)ドラッグすると本を集めるんですね、
『図説戦国武将おもしろ事典』とか……
がここに積まれるんですね。で、今度は本つながり、
「
『戦国武将百選』と『戦国武将⃝⃝雑学』
と『図説戦国武将おもしろ事典』と 3 冊に興味があります」と言ったんで、
「それらに近い本
を探してね」と言ったら、探し出してくれる。
‘おもしろつながり’だとか、
‘やっぱり知って
おきたい’だとか微妙に違うようなものがけっこう出てきて、こんなに類書があるんだという
ことがわかる。
石田 千代田図書館は、これを実物の本でやっているってことですよね?
高野 そうです。ここの部分(情報)だけね。関連した本が実際に集まってくるわけじゃない
ですよ。
(笑)
でまあ、こうやってさんざん積んだ後で、もうちょっとやると、これいま 31 万冊で(右側
に出てますけど)
、
「下克上」という言葉を含むとやると、31 万冊のなかで「下克上」という
言葉がタイトルや目次に出てくるのは 102 冊に絞り込まれます。そこに「長篠合戦」も含ん
でほしいとやると、1 冊だけになる。
石田 これがあると、学生に「本を紹介してください、と言うな!」と言えますね。
高野 「徳川家康」だと 108 冊ぐらいから、これいいねって思ったら、
「下克上」という条件
と「徳川家康」という条件がいいからと積んでおくとやると、この 3 冊と関連していて、
「下
克上」と「徳川家康」という言葉を必ず含む本というのが 8 冊になって、もう 1 回ポチンと
152 テレビ文化研究
やると再現できるわけ。ときどきクリックしてやっていると 9 冊になったり、
「なんで、これ?」
というふうにアラートサービスなんかにも使えるので、将来的には、
「書棚お預かりサービス」
というのを、研究所じゃないところでちゃんとやって、何千冊もお預かりできます。なぜなら、
ここには日本中の本が入っているので、好きな‘Best of 書棚’みたいなものがつくれるんで
すよ。そうやっておいて、そのボックスが自分の興味をちゃんと反映していれば、そこに「新
刊あり」
「新刊あり」
「新刊あり」……みたいな情報がくるので、興味のファセットが自分の書
棚にスポッと入っていく。そうすると松岡正剛のお世話にならないでも、もう少し軽いフット
ワークでこれができる、というのをやりたいなと思っています。右側の要約は、検索結果が定
まる度に動的に計算しています。この言葉「秀吉……云々」は、動的にこの目次・概要から機
械が分析して、抜いて集めてきたものです。だから、特徴語グラフの単語と同じですね。共
起関係とかは無視していますが。それをまとめて「日本の神」
「戦国大名由来の日本の神」と
いう項目がついているんですが、これはどういう言葉を拾っているかというと、ちゃんとフル
ネームできてるでしょ、昔は、徳川、秀吉とばらばらになっていて単語のかけらみたいなもの
だったんですけれど、それだと訴求力がないので、
「桶狭間の合戦」というのが「桶狭間」
「合
戦」みたいになっちゃうんですね。それだとおもしろくないんで、これ、こういうふうにとれ
るようにしたんですけど、これは Wikipedia の項目名を辞書にして使っています。いま 86 万
項目ぐらいあります。86 万語の辞書を予め用意してあって、
これをパシッとここで決まったら、
上位要約語で Wikipedia の項目に expandable なものをこの中で探してこれを出すことを一瞬
でやってくれます。検索結果を出すたびに計算するので一瞬でやるんですけど、このラベルは
さらに一歩進んでいて、それぞれが Wikipedia の項目だから─項目にはカテゴリーだとか何
だとかついているので─、それをたどっていってこれを決めます。これ、
「今川……は、今
川氏だ」というカテゴリーを決めています。例えば、
「今川氏……なんで?」とやるとグラフ
が出てくるんですけど、
「今川」→「今川何とかで、桶狭間の戦いは今川氏に関係しているの
で……今川氏に関係するんじゃないですか」っていう、この分析を動的にやって、これを出し
ています。これは裏で分析した結果です。
石田 歴史学の人が見てどう考えるか⁉
高野 元が Wikipedia の情報なので学術には物足りないと思いますけど……。いまだと流行の
iPS(細胞)とか、バイオテクノロジーとか入れてパチンとやると、ちゃんとしたグラフが出
てくる。それらの内、クローンを含むものとやると……。
辻 自然科学系のほうがカテゴリーがちゃんとしている感じですね。
高野 コンテンツというか、自分が不案内(な分野)だと良く見えるみたいなのがありますね。
中身がよくわかっていると、
「何じゃ、これ⁉」って感じ。
竹内 最初の頃の Webcat Plus はこんなんじゃなかったですよね?
高野 違いました。3 年くらい前に大幅リニューアルしたのですが、使い物にならないという
ので劇的に評価が下がってしまいました。
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 153
竹内 あまりにも違うかなと思って使うのをやめていたんですけれど、こんなすごいことにな
ってたんですね。
高野 けっこうおもしろいですよ。例えば、
「山中さん」……こうやると「iPS」で「山中さ
ん、畠中さん」と書いてると、
「山中さん」をクリックすると、山中さんってどんな人で……
Wikipedia に載っていればこういうのが出てくる。人名も Wikipedia と NACSIS-CAT の著者
典拠というのと国会図書館の典拠というのがありますので、それらを全部入れて、名寄せもし
て、国会図書館のこの番号のこの人は、きっと Wikipedia で言うこの人なんじゃないの⁉ と
resolve して返してくる。山中伸弥のホームページみたいなつもりでこうやる。そこには当然、
その人が著者として関わった本のリストと作品のリストというのもあります。で、本に関して
は、当然、これ以上書いている可能性がありますので、ポチンとやると、山中伸弥を著者フィ
ールドにもつような本が出てきます。それに対して、作品というのがあって、これは「ワーク」
と書誌の世界では言われますけど、一部分、チャプターとかに入っているやつ、アンソロジー
の一章だけを書いたというのも拾うようにしています。実は、有名人がぽろっと書いているよ
うなものがけっこうおもしろかったりします。夏目漱石が別の作家の小説の前文とかを書いて
いたりするんですが、そういのがおもしろいから、これちゃんと拾おうよと……。例えば、
『夢
を実現する発想法』
(川口淳一郎・山中伸弥共著)という本の中に、
「未来の扉を開く鍵」とい
うチャプターを山中伸弥が書いている。この本をポチンとやると、この本はどんなチャプター
になっているというのが下に書いてあって、1 章、2 章、3 章……毎に著者が別れている、と
いうことがわかります。これはけっこう私は好きなんですけど……。
「イサム・ノグチを論じ
る何十人が寄せた言葉」とかいうのがあって、それはすごくおもしろかった。一致検索で、イ
サム・ノグチの本を引くこともできるし、作品を引くこともできるし、人物を引くこともでき
ます。イサム・ノグチはこれこれこれで、父は誰で、と……ああ、これ著書が紐付いていない
から、こういうときは、別の名前で、たぶんイサム・ノグチさんはどっか別のところに行っち
ゃってて、こっちはこっちで著者がついていて、Wikipedia のイサム・ノグチさんとこの人が
同じ人だと、同定できていないということになります。でも、これを名寄せしていけば、いい
かなと。
石田 CiNii だと同姓同名を報告するというのがありますよね。そうすると、検索した人が学
習に貢献できる。
高野 そうそうそう。でも、新しい論文出すたびに別人扱いされる(笑)
。いっさい寄せてい
ないんです。逆に言われたものだけ寄せるようにしてるんで、まあ、それが正しいポリシーの
ような気がするけど。
石田 著者が自分の著書リストをつくるのに便利に使えるということがありますね。
高野 けっこう、褒めてもらえてます。最近 Google のランクも少し上がってきたので、学者
がエゴサーチしたときに、検索結果の 1 頁目とかに Webcat Plus のページが出てくるんですよ。
そうすると、
「これは間違ってる、間違ってる」とか、
「この本とこれは同じ」だとか、
「これ
154 テレビ文化研究
は著者に無断で翻訳したものだから、外せ!」とか、
「外せたって蔵書で入ってるんだからし
ょうがないじゃないですか。図書館に文句言ってください」って苦情受付窓口のようになって
います。
で、書棚のところをポチットやると‘書棚ビュー’が出てきて。キーワードなんかもこうい
う感じで入ってるので、いいのは真ん中に何か割れ目のようなものが出てきて、ポチットや
ると、書棚が割れて、向こうから本がシュッと出てくる。
‘開け書棚’という‘モーゼの書棚’
と呼んでいます。最近の学生に言っても「???」って感じですけどね。ここでも、気に入っ
た本があれば、ドラッグして追加できる。
これはけっこう面白くて、こういう本を種に検索して、何種類か出てくるやつを、これはこ
っちだねとか、これはでもこっちだねとか、といったように区分けしていくとか、急に思いつ
いたファセットで分類しなおすなどということが可能です。
石田 それ、ユーザー登録すると、自分の本棚に保管して……
竹内 検索できるってことは、ログインしてるってことですよね?
高野 いや、これはブラウザのクッキー(cookie)に覚えるだけで、ログインはしてないです。
だから、ブラウザを変えると別の書棚になってしまって全然引き継がれない。あと、ログイン
の機能もつけてマイ書棚を提供しようとも考えているんですが、そうすると真剣に預からなく
てはいけない。消えたら責任問題になる。覚悟がいりますね。
石田 日々進化してるんですね、この仕組みがね。
高野 けっこう、こだわりをもってつくっています。
石田 最初の話に関連づけて質問をすると、要するに今日の話は連想検索の仕組みについて集
中的に学習するということで、NHK の放送文化研究所の話も基本的には同じというか、類似
した仕組みで動いていて、渋沢敬三著作集も同じような仕組みで動いていて、私たちがいま
つくっているデータベースを将来的にどうしていくかということに関しても、同じ仕組みを共
有して、例えば萬年社は大阪新美術館の所蔵のものなので、そこで同じようなデータベースの
仕組みをつくってくれるんだったらすごくいいかなあと思ったりしているんですけれども、ヘ
タなものをつくるよりも同じ仕組みの中で載せていくことが可能だったらそういうふうにした
いなってすごく思うんですけど……。
高野 ただ、手離れいいようにはなかなかできていないので、どうしても阿辺川さんが関わる
とかというふうになってしまうので、ほとんど何もしないでサッと動くレベルだったら可能だ
と思いますけれど。
石田 かなり基礎的なものの整理は終わっている段階なので、それをどういう手順でこういう
仕組みの一部として載せていったらいいのか、それがいいのかどうかということについてもき
ちんと議論しなくちゃいけないんですが。
高野 IMAGINE だけを動かすことはそれほど大変じゃないですね。串刺しで動いて、さっき
の新書の書棚みたいなところに出てきて、ここの本が拾われていて、本つながりでテレビの見
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 155
方だったり、テレビの何かだったり、いろいろいくとか、この周りを見せろってやると、クル
クルと回って、周りの書棚が出てくるとか、ま、そんなイメージですかね。
石田 これが、だから映像のレベルでできるとすごく……
高野 これはまあ、人間がまとめているので、このまとめ方を見るのがおもしろいというよう
なシステムなので、かなりの人海戦術を要しますね。
石田 ここからどういう研究のアイデアをいただくかということもあると思うんですけどね。
データベースはそれ自体ではどうしてもいろいろなことにはつながらないので……
高野 だから、どういう対象に対して、どういうものを見せていけるのか、どの範囲で公開可
能か。私たちはできるだけ多くの人たちに触ってもらうのがねらいですから。お手元にお配り
したのは「渋沢敬三アーカイブ」のリーフレットなんですけど、渋沢敬三の著作を全面公開す
るといってくれたので、じゃあそのリーダー(読書)環境を提案しましょうということで、今
回……「渋沢」と引くと、200 ∼ 300 冊抽出したのが入っているんですけど、渋沢敬三著作
集のなかの第何章に何回ぐらい出てくるのかというのがここに出てきて、ポチンとやると、そ
のページに飛んでいって、ここに渋沢栄一って書いてあります、と出てくる。これを注釈つき
で見たらおもしろいねっていうんで、これは実際 Wikipedia を裏で引いて、さっきの 86 万語
をリゾルブして、本文中で渋沢栄一って書いてありますとか、全部引くんです……そんな感じ。
石田 もし、こういう形で協力しようとすると、私たちが文化庁の何とかプロジェクトに応募
して……というような手順でやっていけばいいんでしょうか?
高野 まあ、そうですね、何か開発費があれば。あるいは NII の共同研究とかね。いま、け
っこう案件がいっぱい来てるから、むしろそれらの案件の中に、こんなデータを持っていると
いうのを具体例としてご紹介いただいて、だったらこの仕組みでちょっとデザインを変えるだ
けで十分対応できるね、って話だったら簡単だと思います。そうじゃないものが追加になって
いたり、ぜひここは映像でってなってくると、それはちょっと私たちの手に余るという感じで、
そこだけ別の人がやるとかってことになるのかなと思います。文章系のものを関連づけるのは
けっこう得意なので。こうやって本を読んでいる環境で自動的に注釈をつけることに加えて、
ページ上部をクリックすると IMAGINE にとんでいくので、いま開いているページのコンテ
ンツを使って、他のデータベースを引くというような感じで動きます。こんな感じでバラバラ
に発信しているコンテンツをうまく関連づけて、フィードバックのサイクルに入れていければ
と思います。
お配りしているはがきは別のビジネスの案内なんですけど、
「お茶ナビ」といって、新御茶
ノ水駅(地下鉄千代田線)から出ると駅前広場があるんですけど、その一角に、私たちが委
託(採択)を受けて 150㎡ぐらいの広さの案内所を設けて運営をしています。うちのスタッフ
や NPO で雇用したスタッフがそこに常駐して、週 6 日間やっています。この 2 つの絵がい
い例なんですけど、地図上を指でなぞるとそこに近いポイントが出てきて、ポイントをクリッ
クすると情報が表示されて、最終的にそこまでのアクセス地図が印刷されるというものです。
156 テレビ文化研究
あなたの散歩道、
‘
「あなたの行きたいところにご案内する散歩道つくります」サービス’みた
いな感じです。
右側は歴史地図を 8 枚ぐらい重ねてあって、江戸時代からつい 20 年前ぐらいまでかな、そ
れを切り替えながら見るというものです。ここに歴史地図が出ていて、明治─関東大震災直後
……これが 65 インチぐらいのタッチパネルになっていて、この上に写真が貼ってあって、ク
リックすると説明が出る。津田町交差点─井上眼科っていう目医者が出てきて、明治後期
どうなのってやると、その井上眼科の別の時代の様相を見ることができる。地図も切り替わる
し、スポットがバーティカルに立っていて、歴史地図があって、それぞれの地図に写真が貼ら
れていて、ポイント・オブ・インタレストが立っているので、例えば、神田明神っていうのは
すべての地図にポイントがあって、江戸時代は浮世絵が出ていて、大正期に関東大震災で消
失したよ……その後、再建されたよ……と、縦に(時系列で)それぞれのポイント・オブ・イ
ンタレストの年表のようなものを見ることができる。これをユーザー参加型で増やしていくと
いうのをちょっとやりたい。震災アーカイブなんかでも素材をいっぱい集めているのに、何も
現地に還らないという状況を何とかしたいので、こういう仕組みをつくって、そういうのをや
りたいなと考えています。これも阿辺川さんが、ほんの 1 ∼ 2 週間でつくったものです。タ
ッチ&フィールはよく使いますが、これは HTML ファイルでドキュメントになっているだけ、
なんです。
全員 へぇ∼∼∼
高野 Windows
8 で、ですから、Internet Explorer を使っています。Internet Explorer だとス
ムースに動くんですが、別のブラウザにすると動きがギクシャクします。現地ではすごく評判
がよくて、子どもたちが喜んで触ってくれています。
こっちが歴史散歩で、左側がリアルな現在の散歩で、お茶の水を中心に、東大から上野か
ら皇居から神保町、秋葉原……と全部入っていて、そこをずーっと散歩できるようなもので、
古い老舗とかそういった情報が約 400 件入っています。あまり商売にはならないですけど、
こういうシステムづくりを NPO で受けて、仕事としてつくって納める。運営を引き受ける人
がいないというので、ではうちの NPO で引き受けましょうということになりました。その代
わり、
「ほかにプラスα、おもしろいものをつくりましょうよ」って言ったら、65 インチのデ
ィスプレイを 27 台並べて─この前を 1 日 1 万人ぐらいが通るんですが─、ふと見ると、
何だかふつうのものという感じなんですけど、よく見ると動いていて、動画になっていてかつ
連続している。こっちから走ってきた人が、ディスプレイに次々に映し出されていく……え∼
っ、どうなってんの⁉ というようにつくっています。実は、5 台分の動画が同時撮影されて
いて、5 台→ 5 台→ 5 台……でつくっていって、後は編集でうまくつないでいます。ときどき
波が打ち寄せていたり、富士山の夜明けが出ていたり、というような……まあ、いまディスプ
レイというとたいていはコマーシャルしか出てこないんですが、そういうんじゃないものをや
りたいというんで、ちょっとやせ我慢して、お金もとらずにやっています。
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 157
3 番目がギャラリーで、これは 100 年前の蔵を移設してつくったギャラリーをギャラリーと
して運営する。この 3 つの施設です。
石田 こういうアイデアというのは誰が発想するんですか?
高野 これは、私とか、この周りにはそういうのを考えるが好きな人がいて……
石田 展示の場所を運営している人たちとも一緒に?
高野 展示の場所とかは……蔵をつくるというのは、もともと向こうがアイデアをもっていて、
蔵をぶっ壊すと言ったら反対運動が起きて、仕方ないから移設して、ギャラリーで運営すると
いうことになったんですけど……。それはただ淡々とやればよくて、中の展示は私たちが、2
回ぐらいやっていて、いまは岩波の写真文庫─
1956 年ぐらいのもので 138 冊出たんです
が─の展示やそこの中からおもしろい写真を大きく引き伸ばして展示するというのを、岩波
100 周年記念なので岩波と組んでやっています。その前は、奈良国立博物館の曼荼羅展とい
うのをちょっと手伝ったので、その曼荼羅展の電子展示を‘ミニ曼荼羅展’のようにして行い
ました。奈良の当麻寺にある国宝の当麻曼荼羅(鎌倉本)─
4 メートル四方の織物なんで
すが─、この 4 メートル四方のものを読み解くのに、15 インチぐらいのディスプレイに電
子ガイドを出して、説明文をつけて、左側に「ここにはこういうことが描いてあるんですよ、
こっち側にはこういうことが描いてあるんですよ」ということをライトと連動しながら、ディ
スプレイ上の動画が動いて(連動して)説明するみたいな仕組みになっています。
(ふつうの
人は)どこ見ていいかわからないから、けっこう評判がよかったですね。で、ある程度理解で
きたら、復習じゃないですけど、休憩室の隣ぐらいに、ゴールをつくってもらって、実はこの
曼荼羅はもともとの織物は退色して読めないので室町時代頃に模写したもの、さらに江戸時
代に模写したのがあって、いま三代目になっていて、その 3 バージョンを比較して見ないと、
文様が消えているので、わからない。模写といえども、実に性格な模写なので、写真を撮っ
て重ねてみたら、ピッタリ重なるので、これはおもしろいから切り替えられるようにしようと
いうことになって、ズームインしながら、いつでもどのバージョンにでも切り替えられる。だ
から、
「この辺、もともとはどうなっていたの?」というと、肉眼で見ると黒っぽい織物にし
か見えないんだけれど、いちおう残像が残ったまま見ると、
「あ、見えた!」という感じにな
るというんで、これはすごく評判がよかったです。奈良国立博物館の館長さんもたいへんお気
に入りで、最初 2 台で始めたんですが、内覧会のときに「4 台にしろ!」って号令がかかって、
4 台にしました。
石田 ミュージアム・ライブラリー。
高野 これは、丸川雄三さん(10 月から民博に異動)の仕切りで、さっきのディスプレイ 27
台も基本的に丸川さんの仕切りにしないと、クオリティがもたないので……‘チーム連想’は
そんな感じですね。
石田 ‘チーム連想’なんですね。
要 実は、
11 月 18 日に授業で丸川さんに来てただいて、お話をしていただくことになっています。
158 テレビ文化研究
高野 この話が出るかも知れないですね。彼は文化遺産オンラインをいちばん最初につくると
ころからここにいて、ずっといまでも担当していますので。
それぞれ得意分野が違っていて、阿辺川さんは文章処理とかマジカルなことをやるのが好
きで、読書環境もけっこうおもしろいと思うんですけど、こういった類いは阿辺川さんの範疇
です。私はどちらかというとプロデューサー的で、スポンサーをある程度うまく見つけてくる
のとコンセプトづくりのところはうるさいことを言わせてもらう。
石田 テレビ CM アーカイブの方は何かありますか?
辻 連想検索なんですが、ドキュメント・アーカイブの選択を変えると当然結果は変わると思
うのですが、連想のクセみたいなのは相当変わるんですか?
高野 変わります。一旦、右側にもってきて単語のベクトルをつくりますよね。そこが、もと
もとのテレビの性格を敏感に反映していて、そこでめずらしい単語が選ばれるので……。ダメ
な例は、たとえば「じんぼう」というので神保町 170 店のレビューをつくりました、たった
170 店のレビューしかありません。しかし、私たちはきちっとインタビューをしたので、かな
りの長い文章で書いてあるので、これは使えるんじゃないかなと思ったんですが、右側にもっ
てくると、他のところでは滅多に使わない言葉が立つわけですね。それで検索をかけると古本
屋検索のようになって、要するにその紹介文は古本屋であるというのがいちばんの共通の性
質で、それ以外は消えてしまう。
「親爺」とか、
「代々」とか、
「あととり」だとか、
「古書がど
うの」だとか、そういう vocabulary しかないので、それでぶち当てると、なんのことはない古
本がらみの蘊蓄が出てくるだけで、それって「古本」で検索した場合と同じだよねというよう
な結果になっちゃった。だから分解能がいいといっても、ある程度のカバレッジがあるような
レビューで初めて出てくる意味合いなんですね。従って、百科事典なんかはひじょうに理想的
なコンテンツです。オール・ジャンルでそれなりに意味のある記述があって、
かつ偏っていない。
○○関連の情報ばっかりというのが辛い。それは、けっこう初期からの大問題で、ひとつの解
決策は、標準的な vocabulary 空間を用意して、すべての情報をそこに配置するということが
考えられます。古書店問題なんかはそうやってうまく解消できるのですが─、そうするとな
んか Google みたいな感じになって、世界の言葉はすべてオレが知っている……、オレの辞書
では……みたいに、どんどんどんどん……。それはちょっと哲学に反するんじゃないの、とい
う気もちょっとしていて、難しいところです。そういう専門用語をわりと強調するものと、そ
うでもない一般語を重視するものと、それをスライドかなんかで切り替えられるようにしよう
かというのが、良いのかもしれません。パラメータをいじることになって、一般語を増やして
専門語を減らすとか、その逆とかをやることによって、専門分野が全然違うデータベースとも
それなりに会話ができるようになっていく。これは、たぶん人間は会話の中でふつうに調整し
ながらやっていることだと思うんですよね。
「あ、こんなこと聞いてくる人だから、ここまで
大丈夫」みたいなことを調整しますよね、それに相当することをシステムがもたないと、ちょ
っと無理かもしれません。
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 159
辻 個々のドキュメントデータはだいたいどれくらいあれば……?
高野 1,000 とか 10,000 とかですね……は、欲しいです。
辻 1,000 ドキュメント?
高野 そうです。1,000 だったら 1 つ1つの文章ができるだけ長いほうが望ましいですね。1
件のデータが 3 行ぐらいだったら、件数は 10,000 ぐらいは欲しいところです。やっぱり、使
われている単語がたまたま入っているだけみたいなのが─
3 回しか使われていないけど
─、世の中的に見たらふつうによく使われるねみたいなのが、効きすぎてしまうんですね。
そうすると、そのデータベースを引くと必ずその言葉が入ってくるみたいなことになって、
「?」
というようなことが起きます。だから、相場としては 10,000 とかいっています。新聞 1 年分
が─毎日新聞とかがいちばん小さいんですけど、70,000 記事とかですね─それくらいあ
れば問題ないですね。
辻 CM の場合だと、最近になるほど 15 秒とか 30 秒ぐらいで、ひじょうに言葉数も限られ
てくるので、いまのところ 10,000 件ぐらいはあるんですが……
高野 なら、大丈夫だと思いますけれども。まあ、とにかく眺めてみるというか、グッとくる
かどうかはまた別の話。例えば、コマーシャルだとどういう製品についてのものだとか、そう
いうプラスするカテゴリー的な情報があれば、それを入れることによって、けっこう救いには
なると思います。
石田 さっきのオープンソースに手持ちのデータを入れてやってみるということはできるんで
すかね?
高野 できますけど、けっこう敷居が高いです。
石田 ああ、そうですか。誰か技術者を雇ったほうがいいということですか?
高野 UNIX をふつうに使える人間じゃないと、ちょっと厳しいかな。
辻 ちょっと、院生を雇って……
高野 院生なら十分に……
石田 理工系の院生雇って……
高野 理工系の院生なら全然問題ないです。
石田 ちょっとやってみたらどうですか、CM 言語データをね。で、使えるか使えないかは、
使ってみて考える。
ひじょうに参考になりました。細部については理解しているとは言い難いですけど……
高野 ま、やれそうなことと、やれそうもないことがおよそ想像がつけば、たぶんこういう会
は意味があると思います。極端に「できない!」とか言い過ぎのところがあったかもしれない
ですが、すぐにはできないというぐらいのつもりで聞いていただければ、と思います。
石田 身近な仕組みが、こんなふうに動いていたということがよくわかりました。
竹内 これだけたくさんのお仕事をなさっているということに、本当に驚いてしまいました。
高野 そんなことないですよ。ふつうは、そろそろ別のことを……とか言われるんですけど。
160 テレビ文化研究
連想学情報センターも 8 年目に入り、もうそろそろセンターは閉めるんですけど。ただ、その
ままだとアクティビティが維持できないので、なにか受け皿というか、つぎのキャッチフレー
ズを考えて、やろうかなとは思っています。
竹内 連想で検索をしていこうという仕組みは日本だけなんですよね?
高野 そうですね、連想検索で実際にこういう意味のあるデータで動いているのはあまり見た
ことがないですね。
‘Solr(ソラ / ル・シーン Lucene)
’と、もともと呼んでいた検索原理(全
文検索ソフトウエア)があるんですが、それはシミラリティ・サーチが一応ついていて、ほぼ
同じ仕組みを使っていますが、ただ、彼らは要約してという 2 ステップではなくて、いきなり
左側で近いものを探すという、1 ドキュメントの回りというのに限られます。じゃあ、3 つ指
定したらというと、それぞれの周りを集めてくるみたいな……で、何票入ったからこれがいち
ばん近い、みたいな話なので、私たちのやっているのは、
「選んだものに共通するものが私の
意図です。それ以外は無視してもかまいません」というようなのが、いちおう機械との対話だ
と思っているので─人間との対話はたいていそうだから─、そういう観念はあまり入っ
ていない、というふうに私は思っています。で、速度もこちらの方が圧倒的に速いですね。
辻 言語が、例えば英語などに変わった場合は……?
高野 全然問題ないです。
辻 問題ないんですか?
高野 まったく同じように動きます。ただ、単語に切れないといけないんですね。中国語がな
かなかうまくいかなくて、シュテマーでいいものがあまりないんですね。文字でやると意味の
素をうまくとらえられない。文字といっても 1 文字じゃないんですけど、3 グラムとかね、5
グラムとかね、そういうフリークエントな N-gram で index して、同じようなことができるか
なあって、ちょっとやったことがありますが、あんまりうまくいきませんでした。
辻 一回、形態相解析みたいなことをやったほうがいいんですか?
高野 やったほうがいいですね。stemming して……
辻 英語と日本語を同時に扱うというのは……?
高野 ちょっとやったんですけど、Wikipedia を連想の翻訳辞典にして、トランス・リンガル・
サーチと呼んだんですけど─クロス・リンガルじゃない─、同じ項目について英語ではこ
う書いて、日本語ではこう書き、それは文化的な背景を背負って書くわけですね。最近は、単
なる訳というのもありますけど、日本人に説明するならここまで書けるし通じるけど、文化的
背景がわからないアメリカ人にはこれは伝わらないからって、英語でわかる記述になっていま
すよね。そうすると、それは直訳ではない。だけど、
「私は英語のこれに興味があります、こ
れに興味があります」と言って、それにぶち当たったら、まず Wiki を引かせるんですね─
Wiki を翻訳辞典のように引くんです。そうすると、Wiki の項目として選ばれてきた上位が、
たぶんあなたの意図をあらわしているはずですと。そうしたらそれに対応する日本語版をとる
わけです。それが、日本人に話すときのこの人の意図です、じゃ連想してみましょう、とやる
報告:高野明彦・阿辺川武/国立情報学研究所におけるテレビ番組アーカイブシステムについて&放送文化アーカイブ構想について 161
と─これがいつでも自動的に 1 回入るんですけど─、そうするとそれなりにうまくいくと
ころもあるし、全然ダメなところもありました。
これ、機械的にやるからには上位から数件をとるしかないんですが、ここを人間に選ばせ
るとかなりいいです。だから、Wiki で連想させて、これだよ、これじゃないよ、というふう
に選んでもらうと、けっこうスムースにいく。
そんな感じで、なかなかおもしろい世界ではあるんですけれど、あまり進んでいません。こ
れは、著作権フリーの 100 年前の鳥の図鑑で、インターネット・アーカイブがやっているオ
ープン・ライブラリーというところで公開済みのものです。PDF できれいに整理されていて、
見開きで読める(1 軸目)んですけど、100 年前の図鑑なのでカラー写真ではなく、絵が出て
いるんですね。原文が英語なので当然英語の Wiki を引くので、ふつうは英語で表示されてい
ますが、英語版と日本語版を重ねていて、それに対応する項目が日本語の Wiki にあると日本
語に自動的に切り替えて出すようにしていて、日本語の注釈付で、いちおう 100 年前の英語
の本が読める、英語版しかないときは英語版で出すという仕組み(2 軸目)です。
石田 Wikipedia をレポートに引用するなと教科書に書いてあって……どうしたらいいんでし
ょうね。それは言えなくなりますね。
高野 これが前提になって、その先は人間がやるというふうにならないと、私はダメかなって
思います。
(鳥の図鑑の)3 軸目は、この本文からの連想なんですけれど、これ見たらわかる
ように連想がたぶんいちばん品質はいいんですよね。だから、
‘連想’にして‘連想の日本語’
というのがいちばんいいと思っています。これはいろんなものに切り替えられるので、本文が
日本語の場合には『世界大百科』を引くとか、ライセンスを持っているものだったら何でも
……で、こうやって電子辞典みたいなものを大学のキャンパス内でサイト・ライセンスして、
どこでも引けるようにするのが望ましいと思います。きっと出版社としてもいいビジネスにな
るんじゃないかなと思います。
これは 100 年前の知識を、Wikipedia といういまの知識、いまの写真の上に浮かべて、い
まの知識が寄ってくるということですが、当然逆もできるはずです。いまの知識をポンとやる
と、昔の知識が出てくるみたいなこと……。
石田 CM とかテレビ番組も Wikipedia と関連づけるといろんなことが書いてあるんですね。
高野 ま、Wiki に限らないですけどね。
石田 外部のものと関連づけると、もっと使い勝手のいいものになるかもしれない。
高野 一旦、広いコンテクストに投げることによって……
石田 誰がユーザーかってことにもよりますけどね。研究者に評判がいいような仕様にしない
といけないですね。
一般公開するものとはちょっと違うふうに考えないといけないかもしれない。
ほんとうに長時間ありがとうございました。ほんとうに勉強になりました。
以 上
Fly UP