Comments
Description
Transcript
Read Full Article
人工知能はいつ プロフェッショナル サービスチームに 加わるのか テクノロジー支援型レビューやその他高度 な分析手法を既存のプロセスに組み込む際 の優良事例と潜在的な落とし穴 ニューヨークタイムズに2011年3月4日に掲 載された「安価なソフトウェアが高給取りの 弁護士に取って代わる」 という記事は、人工 知能について弁護士が最も恐れていること を 笑するために書かれた記事であるかの ように見受けられました。 この見出しの下には、山積みになった書類収 納ボックスの横に弁護士が座っている写真 が掲載されており、写真には「人間は退屈し、 頭が痛くなるが、 コンピュータにはそのよう なことは起こらない。」 という注釈がつけられ ていました。 記事の内容は、そのセンセーショナルな見出 しとほぼ同じぐらい脅威を った内容でした 。 この記事では、 「コンピュータは、人間の論 理的思考の模倣が上手になり、高給取り の専門家の仕事を奪っていく。」 と警告して います。 しかし、近い将来、 コンピュータが弁護士や その他法律の専門家に取って代わることは なさそうです。最も優れたマシンであっても 、訓練を受けた専門家の判断を模倣するこ とも、人間による手引きなしに機能すること もできません。 その一方で、 コンピュータは、 ますます法務 チームの重要な「メンバー」になりつつあり ます。 コンピュータはチームの専門家の代 わりとなるのではなく、専門家をより有能で 効率的にしているのです。eディスカバリに おいて、テクノロジー支援型レビュー(TAR) なしには膨大でコストがかかりすぎる案件 を、法務チームが 取り扱うことができるようになっていること に鑑みれば明白と言えます。 しかしTARやその他の形式の人工知能(AI) をチームの一員とすることは、確立された タスクや作業の流れを再検討する必要が 出てきます。 AIがチームに入ることによって、 これまで最 もよく機能していたものがそうではなくな り、マシンにちょっとしたスペースを与える だけで、大きな見返りが期待できます。 合同会社 日本カタリスト ¦ 107-0052 東京都港区赤坂2-8-3 モドマルシェ赤坂3F 電話:03-6441-2270 www.catalystsecure.com/jp 筆者について:マーク・ノエル J.D. カタリスト・レポジトリシステムズ社プロフェッショナルサービス部門取締役。大 規模訴訟や複雑な法務案件に直面している顧客に対し、高度な分析やカスタム ワークを提供。 カタリスト勤務以前はeディスカバリ関連ソフトウェア会社をパー トナーと共に設立、 またLatham & Watkins LLP在籍時は 知的財産訴訟を中心に活躍。 TARの簡単な背景 TARは、関連する文書を、素早く、高い費用効率で探しだすよう人間のフィードバックによって訓練されたソフトウェアを用 いた人工知能です。 eディスカバリ市場に2009年に初めて導入されたTARは、問題提起に抗弁できないという不安から当初はなかなか採用が 進みませんでした。 その後、TARは進化を続け、裁判所からも一様に受入れられるようになり、現在ではeディスカバリの主流の一部となってい ます。 最初のTARのプロセス(第1世代TAR)は、特に膨大なデータの案件でeディスカバリの経済的側面を変革することにより、 レ ビューの時間およびコストを劇的に低減することを目指した設計になっていました。 当初のテクノロジーによって、 データ量は最小限に抑えられ、内容を効率的に解析できるようになり、人間によるレビューの 必要性が減り、 データの全体像をより正確につかめるようになりました。 ですが、第1世代TARシステムは静的プロセスにしか対応できませんでした。 システムの訓練とパフォーマンスの測定のた めのサンプル抽出はレビュー開始時の1度きりの為、順次行われるデータのアップロードに対応したり、 アルゴリズムの正 確性を高めるために継続的にレビュー担当者の判断を仰ぐ簡単な方法はありませんでした。 一方、次世代型のTAR(第2世代、TAR2.0)は、 コスト削減とレビューの効率化をさらに推進しました。第2世代TARは、 レビュ ーの間、継続的に学習することができます。文書の母集団についてシステムがより正確に把握し、性能が向上するよう、 レビ ューチームの判断がシステムに継続的にフィードバックされます。 また、文書の追加は随時行うことができます。 ランキング が継続的に更新されるので、関連文書の捕獲率が向上し、 レビューが必要な文書の数が減り、 レビュー担当者が少ない人 数でよくなり、 レビュー時間が短くなることで、 より多くのコストを削減できます。 TAR利用の優良事例 第2世代TARは、一部のタスクに抜きんでている一方で、他のタスクにはあまり向いていません。法律の専門家にとって難し いことは、全体のプロセスを掌握しつつ、 どのタスクをこの技術チームメンバーに渡すべきかを理解することです。 TAR以前の作業の流れでは、あらゆる段階で人間による意思決定が想定されているため、 これらの作業の流れにおいて、新 しい技術を最大限活用するための綿密な調整が必要になります。その糸口としては、人間が最も得意とするタスク (読解力 や判断力) と、機械が最も得意とするタスク (膨大なデータのパターンを認識すること) を分けるとよいでしょう。 TARは法務の専門家がデータに関して意思決定を行う際に役に立ちますが、最終決定はやはり法務の専門家が行わなけ ればなりません。優良事例を参考にすると、TARから最大限に成果を引き出し、人間の判断を最大限に利用することができ ます。優良事例の例としては、例えば以下のようなものがあります。 コストの高い人間の判断を賢く再利用 各データ欄に1つの測定結果だけを格納(例えば、文書が提出対象であるか否かではなく、開示対象か否か) グループ別ではなく、文書ごとに文書をコード化(機械は「開示対象」 という分類が「開示対象」を意味するの か「提出対象」を意味するのかを判断できない) タスク別のTARの用途 eディスカバリで取り扱うタスクの種類について見てみましょう。大別すると、文書レビューのタスクは、3つのカテゴリーに 分けることができます。 分類:最もよくある形式の文書レビューであり、文書が開示対象であるか、開示対象でないかなどに選り分け られます 保護:より高いレベルのレビューであり、特定のタイプの情報を開示から保護することを目的とします(最もよ くある例は秘匿特権レビューです) 知識生成:文書がどのような内容を含んでいるかを理解し、案件に対して有用な情報を発見します TARは上記3カテゴリーのすべてに役立ちますが、成功のためにはそれぞれに異なる指標があります。 これらの指標は作業の流れの設計とTARの組み込みにとって重要な意味をもちます。 捕獲率と精度は、TARプロセスの有効性と防御可能性を測定するために不可欠な2種類の指標です。捕獲率とは完全性を 測定したもので、抽出された関連文書の割合を指します。精度とは純度を測定したもので、抽出された文書中の関連文書 の割合を指します。 それぞれの割合が高いほど、 よい仕事をしたことになります。捕獲率100%を達成した場合、関連文書がすべて抽出された ことになります。抽出された文書がすべて関連文書である場合、精度100%が達成されたことになります。ただし捕獲率と精 度は相性が悪く、通常、一方が上がるともう一方が下がります。文書レビューの3つのカテゴリーのタスクでは捕獲率と精度 の目標が異なっているため、有効性を最大にし、それぞれの作業の流れを選択し・調整してコストとリスクを最小限に抑え る必要があります。 分類タスク:TARを文書提出に使用する際、部分母集団にそれぞれ異なる処理、例えばレビュー、廃棄、提出などを施せる ように文書を分類します。TARを使用するのは、完璧な結果を得るためではなく、 よりより結果を得るためです。案件のコス トと労力に見合ったレベルで、相応に高い割合の捕獲率と精度をあげることが目的です。捕獲率の目標値を80%に設定す ると (一般的なTARの目標値)、開示対象の文書のレビューでは妥当と言えます。 精度も妥当なものにしなければなりませんが、開示を要求する側の当事者は、 できるだけ多くの開示対象文書を入手する ことに関心があります。 したがって、通常は捕獲率が優先されます。 保護タスク:特定のタイプの秘密情報を保護することがタスクである場合、100%の捕獲率を達成する必要があり、1つの 漏れも許されません。 これは、実際問題として困難です。 完璧に近づけるためには、保護すべき文書を特定するため、TARだけでなく、キーワード検索や人間によるレビューなど、 ツールキットにおけるすべてのツールを用いて作業の流れを調整する必要があります。 その理由はシンプルなものです。 レビュー方法の違いによって、間違いも異なります。人間によるレビューは、無作為な間違 いを起こしがちです。 TARシステムは、 システマチックなエラーが生じることが典型的であり、分類全体が正しくなるか、間違ったものになります。 様々な方法を作業の流れに取り込むことによって、互いにチェックをしあうことができます。 TARはキーワード検索や人間によるレビューと同じ誤りを犯さないため、 テクノロジーによって普及率の低さを克服し、効 率的に展開できれば、秘匿特権やその他のデータ保護に対して有益です。 精度は、文書保護のタスクにはそれほど重要ではありません。 しかしながら、保護についての一連の作業の流れには、人間 によるレビューが多く含まれるため、不要なガラクタが入ってしまうと高くつきます。かなり高レベルの精度を達成したいと 思うでしょうが、関心をもつべき指標は、やはり捕獲率です。 知識生成タスク:最後のタスクは、 「ディスカバリ」 という名称の由来となっているものです。 これらの文書ではどのような 内容が述べられているのでしょうか? これらから何がわかるのでしょうか? 知識生成では、捕獲率は特に気にしません。 トピックに関する文書がすべて欲しいわけではなく、最も適切な文書、供述や 裁判で用いられる文書が欲しいのです。 そのため、精度や関連性が最も重要な指標になります。 ガラクタや重複分やあまり関係ない文書を調べて時間を無駄にし たくはないでしょう。 TARは、問題ごとに文書の母集団に優先順位をつけ、興味深い文書がリストの最上位に来るよう並べ替えるので、弁護士は 訴訟に何が必要なのかを迅速に理解することができます。 問題は、TARのアルゴリズムが、人間によるレビューで賛同を得られるか、得られないかの見込みに基づき、文書の順位を つけることです。内容が興味深いからと文書の順位をつけるわけではありません。一部の文書は、開示対象であるが興味深 くはないとすぐに予測できるもの、 また、一部の文書は、極めて興味深いのですが、他とは異なるために判断が難しくなりま す。 その場合、興味深い文書がランキング上位に表示されます。興味深い文書には語気の強い言葉遣いや考え方がより多く記 載されているので、上位に表示されるのです。 興味深い文書をランキング上位に集めるTARの能力は、知識作成の一連の作業の流れにとってきわめて有益です。 機械と人間の調和 この枠組みによって、人工知能がチームに加わる際の様々なディスカバリ作業の流れについて思考し、 これらを開発・評価 することができます。成功のカギを握る要素は、 自由に使えるすべてのツールやリソースを最も効果的に用いる作業の流れ を設定することです。TARは、チームのパワフルな一員となります。ぜひメンバーに加えてください。 当社のTAR2.0機能である 「Insight Predict」は、業界初の継続学習機能と圧倒的なスピードで、膨大なデータから関連する 文書を見つけ出すことができます。