Comments
Description
Transcript
高精度・超高速に検索するテキストを抽出 テキスト抽出ソフトウエア「デ変
電子産業分野 企業集 株式会社データ変換研究所 075-254-8780 http://www.dehenken.co.jp/ 高精度・超高速に検索するテキストを抽出 テキスト抽出ソフトウエア「デ変研TFライブラリ」 OFFICE系ソフトやPDFファイル、メール形式などの情報フォーマットには依存せずに検索 するテキストを抽出します。ファイルの拡張子を参照せず、ファイルの中身で判定するため高 精度なテキスト抽出が実行されます。 技 術 概 要 ソ フ ト ウ ェ ア 高速・高精度なテキスト抽出 企業や教育現場などさまざまなシーンにおいて、蓄積さ れた情報を検索したり、不適切な情報を管理するという仕 組みが不可欠となっております。ところが蓄積されている 情報のフォーマットは、OFFICE系ソフトであったり、PDF ファイルであったり、 メール形式であったり、圧縮形式で あったり、さまざまなものがあります。また、それらはそれ ぞれ独自のバイナリファイルで保存されています。 デ変研TFライブラリは、企業の情報系システムやセキュ リティシステムに組み込んで利用できるテキスト抽出のた めのライブラリソフトです。独自の技術により、高速・高精度 に、そのファイルに保存されているテキスト情報を抽出し、 中身まで検索することを可能にしました。その特長は、①ユ ニコードを中心とした文字体系、②MS-OFFICE97以上 「デ変研TFライブラリ」使用イメージ およびPDFファイルはプロパティ情報を出力可能、③半角 カタカナを全角カタカナに変換(全角・半角を区別なく検索 可能)、④拡張子を参照せずフォーマットを解析し、文書ファイルタイプを自動判別する。といった機能により、高精度な検索を実現してい ることに加え、抽出処理プロセスの高速化や、CPUのマルチスレッド対応によるテキスト抽出速度も向上させています。 主要なソフトウェアに対応することで、多数の導入実績 本技術をライブラリとして提供することで、 グループウェアやERP開発会社の製品への導入が進みました。また、 デ変研TFライブラリ とデ変研MFXライブラリを連動させることで、 メールのヘッダ、本文、添付ファイル(圧縮ファイルを含む)からテキストを抽出することが 可能となりました。この結果、電子メールのフィルタリングソフト開発会社やセキュリティソリューション会社製品への導入も進み、約50 社に採用されるという評価を得ています。 ココに注目 ●他社との比較 ●応用分野 日本国内のテキスト抽出ライブラリメーカ製品との比較にお いて、1/3の時間でテキスト抽出処理が完了しました(2007年 の当社調べ)。また、顧客の環境下においても、PDFなどの複雑 なフォーマットも含めて当社のライブラリが他社のものと比較 して、高精度であるという評価が得られており、採用に至った経 緯があります(2009年)。速度、精度ともに国内ナンバーワンを 自負しております。 当社のOEM客先の採用事例は、全文検索ソフトウェアの文 書フォーマット対応/メールの添付ファイルのテキスト閲覧機 能の装着/グループウェア内の検索機能の装着・テキスト閲覧 機能の装着/情報セキュリティのための個人情報の確認ため のテキスト化処理等があります。今後もIT化の進展の中でソフ トウェアのフォーマットは進化していくものと考えられますが、 それらにいち早く対応していく必要があると考えています。さ まざまなドキュメントファイルのフォーマットに対する調査活動 を継続し、 テキスト処理技術のナンバーワン企業としての立場 を盤石にしたいと考えております。 ■ 会社概要・基本情報 所 在 地 〒604-8155 京都市中京区錦小路通室町東入 占出山町308 ヤマチュウビル1F U R L http://www.dehenken.co.jp/ T E L 075-254-8780 F A X 075-254-8790 60 ■ 従業員数 13名 資 本 金 2,000万円 設 立 1999年9月 代表者名 代表取締役 畑中 豊司 業務概要 ・ソフトウェア開発業 ・テキスト抽出ライブラリの開発・販売 ・メール全文検索の開発・販売 ・個人情報を検出するライブラリの開発・販売