Comments
Description
Transcript
تا ا - Basis Technology
製品 Rosetteチャット翻訳モジュール-アラビア語 アルファベット表記のアラビア語 チャットを標準アラビア語に変換 mar7aban Abu Mas3uud. Wallahi mudda taweela lmma shuftak ya shiekh. Esma3 insha' allah netgabal 3end abu musle7 ghadan wa la tensa el mawaad al matluba lzar3 al shajara fee shaari3 karbala'. 7awali 5:30 nitqabal ma3 ahmad abdallah salih Arabic Chat Alphabet 標 準 ア ラ ビ ア 語 の テ キ ス ト を 分 析、 翻 訳 す る た め の 技 術 は 発 達 し て き ま し た が、 近 年 の イ ン ター ネッ ト の 普 及 は 新 た な 課 題 を も た ら し ま し た。 チャッ ト や 掲 示 板 な ど の ソー シャ ル メ ディ ア で は、 ア ラ ビ ア 語 を 発 音 の 近 い ア ル ファ ベッ ト の 文 字 列 に 置 き 換 え て 入 力 す る の が 一 般 的 で す が、 こ れ ら の 表 記 は 国 や 地 域、 コ ミュ ニ ティー に よっ て ば ら ば ら で す し、 大 文 字、 小 文 字、 数 字 が 入 り 乱 れ て い ま す。 例 え ば " 陰 謀 " を 意 味 す る اتاは エ ジ プ ト で は mo2amrat と 表 記 さ れ ま す が、 サ ウ ジ ア ラ ビ ア で は mo2amaraat 、 モ ロッ コ で は mou'amret と 表 記 さ れ ま す。 mo2amrat mo2amaraat mou'amret (Egyptian) (Saudi) (Moroccan) ⇒ اتا Rosette チャッ ト 翻 訳 モ ジュー ル - ア ラ ビ ア 語 (RCT-AR: Rosette Chat Translator for Arabic) は、 ア ル ファ ベッ ト 表 記 の ア ラ ビ ア 語 チャッ ト を 標 準 ア ラ ビ ア 語 に 変 換 す る ツー ル で す。 本 製 品 は 次 の 二 つ の 手 法 を 採 用 し て い ま す: • ア ル ゴ リ ズ ム: 語 句 を 形 態 素 や 音 素 に 分 解 し て ア ラ ビ ア 語 の 変 換 候 補 を み つ け ま す。 音 素 の 一 般 的 な マッ ピ ン グ、 実 際 の ア ラ ビ ア 語 テ キ ス ト で の 使 用頻度などさまざまな要素を考慮して変換候補 を ラ ン ク 付 け し ま す。 • 統 計 的 手 法: 億 単 位 の ア ラ ビ ア 語 チャッ ト か ら 抽 出 し た ア ル ファ ベッ ト 表 記 の ア ラ ビ ア 語 の デー タ ベー ス を 使 用 し て い ま す。 こ の ア ル ゴ リ ズ ム と 統 計 的 手 法 の 組 み 合 わ せ は、 テ キスト解析や機械翻訳に最も有効な技術として評 価 さ れ て い ま す。 本 製 品 は こ れ ら の 手 法 を ア ラ ビ ア 語 音 訳 に 適 用 し た 唯 一 の 商 用 ソ フ ト で す。 処 理 速 度 に も 優 れ、 1 秒 間 に 数 千 語 の 処 理 を 行 な い ま す の で、 膨 大 な デー タ を 瞬 時 に 変 換 す る こ と が で き ま す。 Java ク ラ ス ラ イ ブ ラ リ も し く は Web サー ビ ス と し て 利 用 で き、 概 ね ど ん な ソ フ ト ウェ ア 環 境 で も ご 使 用 い た だ け ま す。 Standard Arabic Entity Extraction person time person place person Entity Resolution 言語処理パイプライン チャッ ト 翻 訳 モ ジュー ル - ア ラ ビ ア 語 は、 Rosette 言 語 処 理 プ ラッ ト フォー ム の 他 の コ ン ポー ネ ン ト と 組 み 合 わ せ て 使 う こ と が で き ま す。 標 準 ア ラ ビ ア 語 に 変 換 さ れ た テ キ ス ト か ら、 Rosette 固 有 表 現 抽 出 モ ジュー ル で 人 名、 地 名、 組 織 名 な ど を 抽 出 し、 Rosette 人 名・地 名 照 合 モ ジュー ル で 正 し い 候 補 を 絞 り 込 む ― と いっ た こ と も で き ま す。 ウェブから収集した膨大な翻訳データ 一 般 的 な 辞 書 に 依 存 す る 機 械 翻 訳 シ ス テ ム と 違 い、 チャッ ト 翻 訳 モ ジュー ル - ア ラ ビ ア 語 は 数 千 の ウェ ブ サ イ ト か ら 収 集 し た 3 億 も の チャッ ト 語 彙 デー タ ベー ス を 持っ て い ま す。 こ れ に よ り、 オ ン ラ イ ン・コ ミュ ニ ティー で広く 使 われて いるチャット 表 記 を 翻 訳に 反映 さ せ る こ と が で き ま す。 デー タ ベー ス 更 新 サー ビ ス を ご 利 用 い た だ け ば、 常 に 流 行 語 や 人 名 の 最 新 動 向 に 対 応 す る こ と が で き ま す。 多言語のチャット翻訳 「方言」の判別 チャッ ト 翻 訳 モ ジュー ル - ア ラ ビ ア 語 は、 Rosette 言 語 判 別 モ ジュー ル (RLI)と 併 用 し て 多 言 語 の チャッ ト 翻 訳 を 実 現 で き ま す。 RLI は ア ラ ビ ア 語、 ク ル ド 語、 ペ ル シャ 語、 パ シュ ト 語、 ウ ル ドゥ 語、 ウ ズ ベ ク 語 の ア ル ファ ベッ ト 表 記 に 対 応 し て い ま す。 チャット翻訳モジュールでは語句の綴りから書き手の 地 域 を 特 定 で き ま す。 ま た 使 用 す る 単 語 や ト ピッ ク か ら も 多 く の 情 報 が 得 ら れ ま す。 世 界 中 か ら 集 め ら れ た 数 億 に も 及 ぶ チャッ ト 語 彙 を も と に 「方 言」 を 判 別 し、 書 き 手 が ど の 国 の ど の 地 域 か を 特 定 し ま す。 こ れ は 本 製 品 だ け の ユ ニー ク な 機 能 で、 次 の よ う な 用 途 に 利 用 で き ま す: 2shanbe be didane aghaye javadi raftam. Bebakhshid ke neveshtane in massage dir shod. Too in yeki 2 rooz saram kheili sholoogh bood. Amma dar morede oon jala3 bas badi zakrak ino into yali fata7to il ma3ebir ma3 suriya mich ni7na. we into yali kinto m7asarin mina we ma ken fikon tjibo sle7 2ila mn souriya. so hayda bi barhen min ken 3emil saf2a ma3 il souriyeh. bas iza 7ebib tinkira khaberna kif jibto sle7 talma il ba7er ken msakar 2idemkon. • 文書の書かれた地域や出典を特定 Mixed Language Chat Farsi 2shanbe be didane aghaye javadi raftam. Bebakhshid ke neveshtane in massage dir shod. Too in yeki 2 rooz saram kheili sholoogh bood. Amma dar morede oon jala3 • 膨 大 な テ キ ス ト の デー タ ベー ス か ら 専 門 の ア ナ リ ストが視るべきものを分類 対応プラットフォーム Arabic bas badi zakrak ino into yali fata7to il ma3ebir ma3 suriya mich ni7na. we into yali kinto m7asarin mina we ma ken fikon tjibo sle7 2ila mn souriya. so hayda bi barhen min ken 3emil saf2a ma3 il souriyeh. bas iza 7ebib tinkira khaberna kif jibto sle7 talma il ba7er ken msakar 2idemkon. Language Boundaries Located Farsi 以 下 の プ ラッ ト フォー ム 対 応 の SDK を 提 供 し ま す。 そ の 他 の プ ラッ ト フォー ム の サ ポー ト も、 ご 要 望 に 応 じ 対 応 し ま す。 Linux CentOS 5.x/6.x, IA32/AMD64 Linux Debian 6.x/7.x, IA32/AMD64 Linux Red Hat 5.x/6.x, IA32/AMD64 Linux Ubuntu 12.x/13.x, IA32/AMD64 MacOS Solaris 10/11, SPARC32/64, IA32/AMD64 Windows XP/Vista/7, IA32/AMD64 Windows Server 2003, 2008 お問合せ Arabic Language-sensitive Translation さらに詳しい製品情報ならびに評価版のご利用を ご 希 望 の 方 は 下 記 へ ご 連 絡 く だ さ い。 [email protected] www.basistech.jp 電 話 03-3511-2947 詳細 www.basistech.jp 〒102-0084 東京都千代⽥区⼆番町9-6 お問合せ [email protected] One Alewife Center Cambridge, MA 02140 電話 03-3511-2947 2553 Dulles View Drive Herndon, VA 20171 1 Furzeground Way Middlesex UB11 1BD, UK © 2014 Basis Technology Corporaon. “Basis Technology”, “Geoscope”, “Odyssey Digital Forensics”, “Rosee”, and “We put the World in the World Wide Web” are registered trademarks of Basis Technology Corporaon. All other trademarks, service marks, and logos used in this document are the property of their respecve owners. (2014-01-24)