Comments
Description
Transcript
人間の感性に近い判定が可能な 画像識別システム
次世代ビジネスに 貢献するイノベーター 7 業界をリードして世界に通用する技術へ 研究者として経験豊富な中江も、今回の研究テーマに対する思いは格別だ。秘められた多くの可能性に、研究者としてさまざまな思い 次世代ビジネスに 貢献するイノベーター を巡らせている。 「ディープラーニングの興味深い点は、中身がブラックボックスになっているところです。なぜその答えが出てきたのかを説明するのは難 しいですね。ニューラルネットワーク内の複雑な計算によって導き出された結果ですから。その振る舞いは人間の脳と似ています。ディー プラーニングが人工知能と言われる所以ですね。そもそもディープラーニングは単一の技術を指すのではなく、先人たちが築いてきたさ まざまなネットワークモデルや最適化手法の集合体です。 20 年以上前の手法が現役で使われている一方、数多くの研究者がディープラーニングのメカニズム解明に向けて取り組み始めた古くて 新しい技術です。それだけ勉強し甲斐があり、ノウハウの蓄積が利く分野だと感じています。 第8回 人間の感性に近い判定が可能な 画像識別システム 業界の定番や標準がない分野は、自分たちで新しいモデルやルールを考えることができます。将来的に世界に通用する技術やサービス を生み出せるように取り組んでいきたいですね。」(中江) ディープラーニングによる 高度な画像識別技術への取り組み ■ディープラーニングの将来展望と可能性 コンピューター技術の発展に伴って画像識別技術は進歩しており、私たちの生活の中で広く利用されている。身近な例としては、画像中の文 字を認識して画像からテキストに変換するシステムや、画像中の顔を認識してカメラのピントを合わせるシステムがある。これらのシステム では画像中の特定の特徴を基に画像識別を行っていた。 一方で近年はより汎用的な利用を目的とした画像識別が注目を集めるようになった。そのきっかけとなったのは、「マシンラーニング」(機械 学習)や「ディープラーニング」(深層学習)による画像識別技術の飛躍的な進歩である。 人間は、その成長過程でさまざまな事象に触れながら学習することによって知識体系を築き、物事を認識できるようになる。マシンラーニン グは、これをコンピューターで再現しようという取り組みで、人工知能における研究課題の一つとなっている。そして、人間の脳内の神経ネッ トワークをモデル化したニューラルネットワークの実現方法がディープラーニングである。このディープラーニングを用いることで、これま でのような特定の特徴を基にした手法では難しかった、高度な画像識別が可能になった。 従来の画像識別手法では、例えば人間や動物の顔、ロゴマークなど、形状の特徴が決まっているものを識別することは可能であるが、同じ「猫」 * 記載されている会社名、製品名などは、各社の商標または登録商標です。 * 本コンテンツに掲載されている情報は、あくまでも掲載時点における情報です。掲載以降に変更する可能性があります。 の画像でも、光や影の調子が異なったり、一部が欠けていたりすると、とたんに「猫」の画像であることを認識するのは難しくなる。 中央:中江俊博(なかえとしひろ) NTT コムウェア 品質生産性技術本部 研究開発部 スペシャリスト 1999 年 NTT コムウェア株式会社入社。金融システム等の開発に従事し、2008 年より現職。これまで、MIT メディア ラボでのユーザインタフェースの研究や、「イメージベース AR」「近接通信技術」の研究開発を担当し、現在に至る。 右:長森藤江(ながもりふじえ) NTT コムウェア 品質生産性技術本部 研究開発部 スペシャリスト 1993 年日本電信電話株式会社入社。1997 年に NTT コムウェアに転籍し、新規事業のソリューション企画に従事。 2005 年より現職。研究成果のビジネス化業務や「近接通信技術」等の研究開発を担当し、現在に至る 左:長谷川将平(はせがわしょうへい) NTT コムウェア 品質生産性技術本部 研究開発部 2011 年 NTT コムウェア株式会社入社。2011 年 6 月より「モバイルアプリ開発効率化技術」「近接通信技術」などの 研究開発を担当。2013 年 12 月よりディープラーニングの研究開発を担当し、現在に至る。 〒108-8019 東京都港区港南 1-9-1 NTT 品川 TWINS アネックス URL:http://www.nttcom.co.jp/ 2015.03 しかしながらディープラーニングを用いた手法では、予め「猫」の画像を学習しておき知識体系を構築しておくことで、この知識体系に基づ いて「猫」に近い画像であるかを識別することができるようになる。 NTT コムウェアでは、新しい画像識別技術の研究テーマとしてディープラーニングにいち早く着目し、早期の商用サービスへの応用を見据え たプロジェクトを 2013 年 12 月に発足。ディープラーニング自体の高い識別精度に加えて、これまで培ってきた画像識別技術の研究成果や 技術的ノウハウを活用することで「人間の感性に近い判定が可能な画像識別システム」を開発した。 このシステムでは、従来は困難だったコンピューターによる不適切画像のフィルタリングを実現しており、不特定多数のユーザーがコンテン ツを投稿するネットサービスの監視業務に貢献できると期待されている。 画像識別システムの取り組みと、プロジェクトに携わるスペシャリストを紹介する。 次世代ビジネスに 貢献するイノベーター 次世代ビジネスに 貢献するイノベーター 1 2 “分類”から“レベル分け”への方針転換で大きく前進 INNOVATOR FILE#8-1 ディープラーニングから生まれた 不適切画像フィルタリングサービス プロダクトアウト志向で最先端研究から 世界を変えるサービスを生み出す取り組み ビジネスクリエーション部 スペシャリスト 兵藤 雄二 ビジネスクリエーション部 安野 岬 サービス化のために研究開発部とともに不適切画像識別フィルタリング技術の開発に乗り出した兵藤だが、実際に試した結果は期待通り とはいかなかった。理由の一つには学習をするためのサンプルデータと期間が不十分だったことがある。 ただし、サンプルデータの問題は、研究開発部のアイデアやパートナー企業の協力によって解決できた。精度が上がらないもう一つの理由は、 画像をカテゴリーで分類しようとしていたからだった。このやり方は、最初の試みとしてはあまりにもハードルが高すぎたのだ。 「ディープラーニングやマシンラーニングの話を聞いて、少し過剰に期待し過ぎたところはあります。画像の意味が分かるなら、カテゴリー 分けもできるのではないかと思ったわけです。ただ、これは同じ画像でも複数のカテゴリーにまたがるものもあり、人間が判断しても難し いことを要求してしまった。 そこで、カテゴリーではなくレベル分けにしてはどうかという研究開発部からのアドバイスを参考に、フィルタリングの仕方を変えたところ、 良い結果が得られました。 そもそも、一般的な不適切画像や有害コンテンツというのは、映画や漫画、ゲームなど、すでに業界で定められたガイドラインやレーティ ングが存在します。それを物差しにすることで、ディープラーニングによる学習時の YES/NO 判断も明確になります。結果として識別精 度は上がり、柔軟性の高い機能になりました。" カテゴリー判断 " ではなく " レベル分け " に方向転換したことで、実用化に向けて大きく 前進できたわけです。」(兵藤) 研究開発部のデモに大きな可能性を見出す ますます高まる画像の必需性から市場ニーズを予感 ディープラーニングは、世界中の研究者や企業が取り組んでいる最先端領域の研究である。2013 年 12 月に研究開発部が新たな研究テー 兵藤とともに、ディープラーニング研究のサービス化に取り組むのが、同じビジネスクリエーション部の安野岬だ。安野は、これまで音声 マとして定め、その可能性の一端を見せる機会が 2014 年 7 月にあった。NTT コムウェアの社内で行われた研究発表会で、画像を識別する デモが披露された。ビジネスクリエーション部の兵藤雄二は、このデモを見て大きな可能性を感じたという。 「ディープラーニングを応用した技術として、発表会では企業のロゴマークを識別するデモが行われました。その中でディープラーニングは見 たことがない画像でも判別できるという話を聞いて、うまく発展させれば、機械が人間の目にとって代わるようなことになるのではないか。そ うだとすると、応用の可能性は果てしなく広いのではないかと思いました。」(兵藤) 認識や機械翻訳、音声合成といった技術のサービス化に携わってきた経験を持つ。 「翻訳や通訳は、これまで人間でなければできないと思われていたことですが、ご存じのように最近ではスマートフォンでも当たり前のよう に使われています。人間がやることを機械にもやらせるというテーマに関わってきましたが、今回はそれが画像になりました。 インターネットや携帯電話が普及してからというもの、画像は重要なコミュニケーション手段の一つになりました。気軽に写真や画像を送 り合うことができる。文字では伝えにくい感情や空気感も、画像ならうまく伝えることができます。みんなが使うことによって、ネット上に は画像データが爆発的に増えていくと考えられます。ただ、それにつれて不適切な画像も増えることは避けられません。そういった背景を 考えると、今回の不適切画像フィルタリングに対するニーズも当然のように出てくるはずです。」(安野) ビジネス化を見据えた画像フィルタリングのアイデア デモから強烈なインパクトを受けた兵藤は、その後も研究開発部のメンバーからディープラーニングやマシンラーニング、人工知能についての 話を聞いた。そして、画期的で大きな可能性を秘めているものの、まだ研究段階であり、サービス化やその先のビジネスとなると未知数だとい うことは理解した。 しかし、最先端領域のテーマだからこそ、うまく成果につなげられれば市場にインパクトを与えることができる。この分野で、NTT コムウェア の存在感を高めることもできるかもしれない。現段階で実現できることだけでも、何かしらのビジネス可能性はないか。早速、ディープラーニ ングを売り込めそうな市場とサービス化に向けたリサーチを始めた。 「いくらすごいとはいえ、何でもかんでも当てるにはハードルが高いことは理解していました。しかし、ある傾向を持った画像だけを識別したり 抽出したりするくらいなら、現段階でも十分通用するのではないかと考えて、そのような技術やサービスのニーズがどこにあるかを考えました。 思いついたのは、投稿データの監視サービスです。SNS などのように一般ユーザーがコンテンツを投稿するサービスでは、投稿内容に不適切 なものや有害なものが含まれていないかを監視するサービスが存在することは知っていました。テキストはある程度自動化できるものの、やは り画像に関しては人間が目視で確認しているということでしたので、それが自動化できるならビジネスになるのではないかと考えました。」(兵藤) ■不適切画像フィルタリングサービスの概要 さまざまな分野で応用可能な画像識別技術 兵藤と安野が取り組んだ不適切画像フィルタリングは、ひとまずサービス化にまでこぎつけることができた。しかし、不適切画像だけが対 象となる市場は限られている。ディープラーニングの可能性をさらに広げていくためにも、第二、第三の技術応用とサービス化を進める必 要がある。 「画像識別という分野に限っただけでも、例えばクラウドストレー ジに保存した写真を自動整理するようなサービス、企業やブラン ドの価値を毀損するような画像の検出サービス、農作物の出来 具合を自動監視するシステム、医療画像でベテランの医師並みの ■ディープラーニングによる画像識別技術の応用サービス例 トンネルや道路のひび割れの監視 精度で病気を発見するシステム、防犯カメラでの不審者行動把握 システムなど、幅広い応用が考えられます。また、NTT コムウェ アでは社会インフラ監視の技術開発もしていますが、道路やトン ネルのひび割れ検出にも使えるのではないかと思っています。 もちろん、実用化までは簡単ではありませんが、少なくとも " で きるかもしれない " と思わせてくれるところがディープラーニング にあります。画像以外の音楽や動画、その他さまざまなデータ が対象になるわけですから、十分に可能性は高いと言えるでしょ う。 ディープラーニングは、人間のように教え込むことでチューンされ ていきます。識別や分類が可能なら、次のステップとしてユーザー の嗜好を学習させれば、それに合ったものを自律的に探してきて くれるエージェントのようなサービスも可能ではないかと思ってい ます。」(兵藤) 防犯カメラでの不審者の行動把握 次世代ビジネスに 貢献するイノベーター 次世代ビジネスに 貢献するイノベーター 3 4 画期的な技術を世の中へ出すための取り組み INNOVATOR FILE#8-2 技術のサービス化がミッションの二人は、研究で生まれたイノベーションを世の中のイノベーションへと変えることが役割だ。研究者と ディープラーニングを用いた 画像識別技術の開発 一般ユーザーとの橋渡し役とも言える二人は、今後の自らの役割をどう感じ、将来に向けてどのような展望を抱いているのだろうか。 「機 械やコンピューターが人間に近づいて、あっと驚くようなことまでできるようになる。私は技術者ではありませんが、画期的な技術 を世の中にどうやって出していくか、マスユーザー向けにどう発 信していくか、技術をどう具体的にサービス化するかということをいつも 人間並みの判断・認識精度を可能にした 人工知能研究のイノベーション 考えています。 画像以外にも、さまざまなことに応用できるという点も、大いに期待しています。」(安野) 品質生産性技術本部 研究開発部 スペシャリスト 技術主導で世の中を変えるサービスを生み出す 中江俊博 スペシャリスト 市場ニーズなどを前提とせず、研究者視点でのみ開発された技術は、サービス化に苦労すると言われている。以前は研究開発部に身を 長森藤江 置いていた立場の兵藤は、研究室と市場との間にある溝の深さについてよく理解している。しかし、だからこそ技術主導の取り組みを 長谷川将平 後押ししたいと強く思っている。 「ビジネスチャンスにはいくつかの種類があり、例えば五輪開催のように、社会の変化によって市場ニーズが生まれるようなものがあり ます。お客さまを見て、すでに存在するニーズに応えたり課題を解決したりするというマーケットイン志向のビジネスと言えます。 一方、今回のように先に技術ありきで、それをどのように応用できるか考えるというアプローチもあり、それはプロダクトアウト志向と 言えます。これは、お客さまの変化を起点とするものではないので、正直に言って成功させるには難しいです。 しかし、世の中をガラッと変えるようなインパクトのある製品やサービスは、プロダクトアウト志向によってもたらされます。特に、ICT 分野では、そういったチャンスが比較的大きいし、実際に世の中を変えた製品やサービスはたくさんあります。 NT T コムウェアとしても、これからは自らの存在感を示すためにも、こんな技術を持っていて、こんなサービスを生み出せる会社だとい うことをアピールしていく必要があります。お客さまに新しいことをどんどん提案していける会社になる。そのためにも、今回のような 先進的な挑戦は、積極的に推し進めていくべきだと思っています。自分がそれを手伝うことができて、世の中を変えるようなサービスに なってくれたらうれしいですね。」(兵藤) 注目を集めるディープラーニング NTT コムウェアが開発した「画像識別エンジン」では、画像を識別するための手法としてディープラーニング(深層学習)が 取り入れ られている。ディープラーニングは、コンピューターによる高度な分析や判断が実現できるとされている。 一般的にコンピューターを使った処理は、事前にプログラムされたアルゴリズムに従って入力データを処理していく。これは、事前に決 められたルールの範囲内では高速に処理できるが、そこから外れた事象に関しては対応できないとも言い換えることができる。しばしば 「コンピューターは融通が利かない」と言われる理由である。 人間のような思考や処理を目指した人工知能研究では、このような従来型のアプローチではなく、人間のように徐々に学習しながら知 識体系を構築することができないか試行錯誤されてきた。人間の脳の仕組みはいまだ完全には解明されていないが、神経回路が何層に もわたって複雑に絡み合い、多量の並列処理が行われることで、人間らしい高度な思考ができると言われている。それに近いと思われ ■ディープラーニングの将来展望と可能性 る学習・思考モデルをコンピューター上で再現することによって、人間並みの分析と判断が可能になるのではないか。それがディープラー ニングであり、近年目覚ましい成果を上げたことで注目されている。 ■ディープラーニングは人間の脳をモデルにした マシンラーニング技術 * 記載されている会社名、製品名などは、各社の商標または登録商標です。 * 本コンテンツに掲載されている情報は、あくまでも掲載時点における情報です。掲載以降に変更する可能性があります。 右:兵藤雄二(ひょうどうゆうじ) NTT コムウェア ビジネスクリエーション部 スペシャリスト 2001 年 NTT コムウェア株式会社入社、研究開発部配属。2003 年 7 月より、SmartPit 事業部事業企画担当にてコンビニ収 納代行サービス「SmartPit」のサービス企画に従事し、2008 年 12 月より現職。これまでイメージベース AR や近接通信技 術などのサービス開発を担当。 出展:http://www.nytimes.com/2012/06/26/technology/ in-a-big-network-of-computers-evidence-of-machine-learning.html?pagewanted=all 左:安野岬(やすのみさき) 論文: Le et al.,Building High-level Features Using Large Scale Unsupervised Learning,ICML2012 NTT コムウェア ビジネスクリエーション部 2009 年 NTT コムウェア株式会社入社。2009 年 6 月より、携帯網のオペレーションシステム開発を担当。その後 2011 年 12 月より「音声認識 / 機械翻訳 / 音声合成」等の技術を活用したサービス企画に従事し、2013 年 10 月より現職。 ■ディープラーニングによる画像認識の例 次世代ビジネスに 貢献するイノベーター 次世代ビジネスに 貢献するイノベーター 5 6 画像処理で突然起こったブレークスルー 現在進行形の研究成果をキャッチアップ これまでの技術でも画像の認識や識別は可能だったが、ディープラーニングを取り入れたことで、既存技術とは一線を画すものになっ ディープラーニングは、まだまだ未知の発見や思いがけない飛躍があり得る分野であり、誰もが 画期的な理論を立てられる可能性を秘 たという。NT T コムウェアでは、これまでも画像 処理技術の研究開発は行われてきたが、なぜ今ディープラーニングなのか。「画像識 めている。また、学術研究とビジネス応用が同時進行で行われているため、業界をリードするためにはスピードが重要になる。最新の 別エンジン」の開発を担当した品質生産性技術本部 研究開発部の中江俊博は、その理由について「ディープラーニングによってブレー 研究がどのようなもので、自分たちの考えたアイデアが斬新で有効なものなのかそうでないのか。それを見極めるのが、品質生産性技 クスルーが起きたから」と説明する。 術本部 研究開発部の長森藤江の役割だ。 「ディープラーニングは、人工知能の分野で用いられるマシンラーニングやニューラルネットワークとともに昔から研究されてきました。 「ディープラーニングの分野は NT T コムウェアとしても新しい取り組みですから、まずはこの分野での常識とされている理論や技術を把 理論自体は新しいものではなく、多くの研究者が唱えてきたものです。 握しておかないと、研究に独自性を持たせることもできません。とはいえ、知識だけではうまく行きません。研究と実用のギャップは思っ 2012 年に、この分野の第一人者である Hinton 教授の率いるチームが、画像の認識精度を競うコンテストで従来手法に圧倒的な差を た以上に大きいものです。 つけて優勝しました。これは画像認識研究のブレークスルーと言ってもいい、非常に衝撃的な出来事でした。当然のように世界中の研 特に今回は一般的な画像分類ではなく、ディープラーニングを用いて感 性を数値化するという新たな試みでしたので、理論上はできる 究者の間で話題になり、ディープラーニングの研究に一気に火がつきました。当時、私は別の研究をしていましたが、このニュースを知っ はずだと分かっていても、ネットワークモデルを設 計して実際のアルゴリズムにまで落とし込み動作させるまでは大変でした。苦労はしま てぜひ次の研究テーマにしたいと考えていました。そして 2013 年 12 月、ついにプロジェクトが立ち上がりました。」(中江) したが、研究者としては楽しい部分でもありましたし、自分たちの考えたアイデアが、学術的にも新しく有効性があるものだと確認でき た時は、とても大きな達成感がありましたね。 人間の感性のような判断が可能に ディープラーニング自体は、画像 処理に限らずに広く応用される可能性を持っている。しかし、注目のきっかけが 画像認識だったこと、 また NT T コムウェア内で積極的に研究していたテーマでもあったことから、画像 処理技術への応用として研究プロジェクトが始まった。 ディープラーニングを用いた画像 処理は、従来の技術とは何が異なるのだろうか。 「画像識別技術そのものは NT T コムウェアでも研究に取り組んできました。しかし従来手法によるアプローチでは、形状や色味の近さ 私たちのミッションは、最終的には製品やサービスの形で世に出すことですが、学術研究とビジネス化の取り組みが同時進行で行われ ているという、なかなか他にはない環境にいます。NT T コムウェアとしても、この分野でリードするために、新しいアイデアは積極的 に特許化していく考えです。その可能性があるかどうか、論文や特許を読み解きながら判断することも私の役割です。」(長森) 研究者として楽しめる研究テーマ 世界を見ても、一部の大手ネット企業や IT 企業が 取り組み始めたばかりのディープラーニングは、大きな可能性を秘めている研究テー に基づいた認識はできるものの、少しでも抽象的になると途端に識別が難しくなっていました。例えば犬の姿形や種類が異なったり、 マだ。いち早く取り組むことで、国内市場はもちろん、世界に対しても NT T コムウェアの存在感を示すことができる。 イラストのようにデフォルメされたりしても、人間なら『犬だろう』と判断できますが、それは、人間が犬という抽象化された概念を理 研究プロジェクトの成果の一つとして、ビジネスクリエーション部との連携による「不適切画像識別システム」のサービス化も進んでい 解しているからです。こういった人間の感性にも関わるような処理は、コンピューターには非常に苦手な分野でした。ところが、ディー る。画像だけでなく、音声や時系列データの分析など、ディープラーニングはさまざまな応用が期待されている。研究プロジェクトのメ プラーニングを取り入れることで、それが 可能になりつつあります。人間をモデルにしたことで、人間と同じような処理が 可能になるの ンバーへの期待も大きいが、本人たちもそれを楽しんでいる。 です。」(中江) 「NT T コムウェアならではのアイデアを考えることができて、さらにそれが研究者にとって不可欠なものになれば本望ですね。以前、私 研究と実用のギャップを埋める ディープラーニングは、その名称が示すように「学習」がポイントになる。人間の子どもは、知識がない状態から外界のさまざまな事象 を見聞きしながら知識体系や思考回路を作り上げていき、識別や判断を行う。ディープラーニングでも、人間の子どもと同じように学 習によって識別や判断力を鍛えていく。そのため、研究分野では数千枚∼数百万枚単位の規格化された大量の学習データセットを用い て学習を行っている。コンテストでは、予め用意された画像を与えられたカテゴリに合わせてどれだけ的確に分類できるかが評 価される。 そのため、認識精度を極限まで向上させることを目指して、学習にいくらでも時間をかけられるし、端末のスペックにも制約はない。一 方、実用化においては、画像のサイズ、フォーマットはばらばらで規格化されていない上、学習データも目的に合わせる必要があり、ど うしても少量データからのスタートとなる。さらに学習や認識にかかる時間はサービスレベルそのものに影響し、端末スペックはコスト に跳ね返る。実用化では精度向上だけではなく、サービスに適用できるバランスと新たな付加価値を生み出すことが求められる。 研究プロジェクトでプログラミングや検証環境の構築を担当した品質生産性技術本部 研究開発部の長谷川将平は、未知の状態から ディープラーニングに取り組んだ。苦労したのは、ディープラーニングのツールを使いこなすことだったという。 「私の役割は、画像 処理に関する理論やアイデアを実装して、検証することです。新しいアルゴリズムを試すためのプログラムを制作し たり、ディープラーニング用のツールを使えるよう環境を構築したり、限られたリソースで高速なデータ処理ができるようにハードウェア を整備したりと、とにかくいろいろやりました。 ディープラーニングのツールは、もともと用意されている画像データで処理するだけなら多くの情報が公開されています。しかし、自分 たちが用意したデータで独自の認識を行うとなると、複雑に絡み合った多くのパラメータをチューニングする必要があります。精度を高 めるためには膨大な量のサンプルデータが必要になりますが、目的に合ったものでないと意味がありません。そこで、実用化を見据え て中江さんや長森さんと考えたのが、少ない学習データでも短期間に精度の高いエンジンに仕立てることができる独自の手法です。早 期にサービスが提供できる上、その後、データが集まれば集まるほど精度が向上します。実装には苦労はしましたが、その甲斐あって プロジェクトに貢献できたと思います。」(長谷川) はサービス化を担当していた経験もありますが、やはり技術や仕組みづくりから関わると、貢献できたという実感が持てます。 ディープラーニングでも、NT T コムウェアの新サービスはもちろん、研究の発展にも貢献できることを目指しています。」(長森) 以前はモバイル系システムの開発に従事していた長谷川も、基礎技術でしかも時代の最先端を走る研究テーマへの関わりは特別なもの と感じている。 「ディープラーニングは新しい研究テーマでもあるので、さらに追究していきたいです。最先端分野の取り組みですから、NT T コムウェ アの事業領域拡大にもなる可能性がありますし、小さな技術でもかまわないので、独自性のあるものを生み出していければと思いながら、 日々の研究に取り組んでいます。」(長谷川)