...

تا ا - Basis Technology

by user

on
Category: Documents
19

views

Report

Comments

Transcript

تا ا - Basis Technology
製品
Rosetteチャット翻訳モジュール-アラビア語
アルファベット表記のアラビア語
チャットを標準アラビア語に変換
mar7aban Abu Mas3uud. Wallahi mudda taweela lmma
shuftak ya shiekh. Esma3 insha' allah netgabal
3end abu musle7 ghadan wa la tensa el mawaad al
matluba lzar3 al shajara fee shaari3 karbala'.
7awali 5:30 nitqabal ma3 ahmad abdallah salih
Arabic Chat Alphabet
標 準 ア ラ ビ ア 語 の テ キ ス ト を 分 析、 翻 訳 す る た め の
技 術 は 発 達 し て き ま し た が、 近 年 の イ ン ター ネッ ト の
普 及 は 新 た な 課 題 を も た ら し ま し た。 チャッ ト や 掲 示
板 な ど の ソー シャ ル メ ディ ア で は、 ア ラ ビ ア 語 を 発 音
の 近 い ア ル ファ ベッ ト の 文 字 列 に 置 き 換 え て 入 力 す
る の が 一 般 的 で す が、 こ れ ら の 表 記 は 国 や 地 域、 コ
ミュ ニ ティー に よっ て ば ら ば ら で す し、 大 文 字、 小 文
字、 数 字 が 入 り 乱 れ て い ま す。 例 え ば " 陰 謀 " を 意 味
す る ‫ات‬‫ا‬は エ ジ プ ト で は mo2amrat と 表 記 さ れ ま す
が、 サ ウ ジ ア ラ ビ ア で は mo2amaraat 、 モ ロッ コ で は
mou'amret と 表 記 さ れ ま す。
mo2amrat
mo2amaraat
mou'amret
(Egyptian)
(Saudi)
(Moroccan)
⇒ ‫ات‬‫ا‬
Rosette チャッ ト 翻 訳 モ ジュー ル - ア ラ ビ ア 語 (RCT-AR:
Rosette Chat Translator for Arabic) は、 ア ル ファ ベッ
ト 表 記 の ア ラ ビ ア 語 チャッ ト を 標 準 ア ラ ビ ア 語 に 変 換
す る ツー ル で す。 本 製 品 は 次 の 二 つ の 手 法 を 採 用
し て い ま す:
• ア ル ゴ リ ズ ム: 語 句 を 形 態 素 や 音 素 に 分 解 し て ア
ラ ビ ア 語 の 変 換 候 補 を み つ け ま す。 音 素 の 一 般
的 な マッ ピ ン グ、 実 際 の ア ラ ビ ア 語 テ キ ス ト で の 使
用頻度などさまざまな要素を考慮して変換候補
を ラ ン ク 付 け し ま す。
• 統 計 的 手 法: 億 単 位 の ア ラ ビ ア 語 チャッ ト か ら 抽
出 し た ア ル ファ ベッ ト 表 記 の ア ラ ビ ア 語 の デー タ
ベー ス を 使 用 し て い ま す。
こ の ア ル ゴ リ ズ ム と 統 計 的 手 法 の 組 み 合 わ せ は、 テ
キスト解析や機械翻訳に最も有効な技術として評
価 さ れ て い ま す。 本 製 品 は こ れ ら の 手 法 を ア ラ ビ ア
語 音 訳 に 適 用 し た 唯 一 の 商 用 ソ フ ト で す。 処 理 速
度 に も 優 れ、 1 秒 間 に 数 千 語 の 処 理 を 行 な い ま す の
で、 膨 大 な デー タ を 瞬 時 に 変 換 す る こ と が で き ま す。
Java ク ラ ス ラ イ ブ ラ リ も し く は Web サー ビ ス と し て 利 用
で き、 概 ね ど ん な ソ フ ト ウェ ア 環 境 で も ご 使 用 い た だ
け ま す。
Standard Arabic
Entity Extraction
person
time
person
place
person
Entity Resolution
言語処理パイプライン
チャッ ト 翻 訳 モ ジュー ル - ア ラ ビ ア 語 は、 Rosette 言 語
処 理 プ ラッ ト フォー ム の 他 の コ ン ポー ネ ン ト と 組 み 合
わ せ て 使 う こ と が で き ま す。 標 準 ア ラ ビ ア 語 に 変 換
さ れ た テ キ ス ト か ら、 Rosette 固 有 表 現 抽 出 モ ジュー
ル で 人 名、 地 名、 組 織 名 な ど を 抽 出 し、 Rosette 人
名・地 名 照 合 モ ジュー ル で 正 し い 候 補 を 絞 り 込 む ―
と いっ た こ と も で き ま す。
ウェブから収集した膨大な翻訳データ
一 般 的 な 辞 書 に 依 存 す る 機 械 翻 訳 シ ス テ ム と 違 い、
チャッ ト 翻 訳 モ ジュー ル - ア ラ ビ ア 語 は 数 千 の ウェ ブ
サ イ ト か ら 収 集 し た 3 億 も の チャッ ト 語 彙 デー タ ベー
ス を 持っ て い ま す。 こ れ に よ り、 オ ン ラ イ ン・コ ミュ ニ
ティー で広く 使 われて いるチャット 表 記 を 翻 訳に 反映
さ せ る こ と が で き ま す。 デー タ ベー ス 更 新 サー ビ ス を
ご 利 用 い た だ け ば、 常 に 流 行 語 や 人 名 の 最 新 動 向
に 対 応 す る こ と が で き ま す。
多言語のチャット翻訳
「方言」の判別
チャッ ト 翻 訳 モ ジュー ル - ア ラ ビ ア 語 は、 Rosette 言 語
判 別 モ ジュー ル (RLI)と 併 用 し て 多 言 語 の チャッ ト 翻
訳 を 実 現 で き ま す。 RLI は ア ラ ビ ア 語、 ク ル ド 語、 ペ
ル シャ 語、 パ シュ ト 語、 ウ ル ドゥ 語、 ウ ズ ベ ク 語 の ア ル
ファ ベッ ト 表 記 に 対 応 し て い ま す。
チャット翻訳モジュールでは語句の綴りから書き手の
地 域 を 特 定 で き ま す。 ま た 使 用 す る 単 語 や ト ピッ ク か
ら も 多 く の 情 報 が 得 ら れ ま す。 世 界 中 か ら 集 め ら れ
た 数 億 に も 及 ぶ チャッ ト 語 彙 を も と に 「方 言」 を 判 別
し、 書 き 手 が ど の 国 の ど の 地 域 か を 特 定 し ま す。 こ れ
は 本 製 品 だ け の ユ ニー ク な 機 能 で、 次 の よ う な 用 途
に 利 用 で き ま す:
2shanbe be didane aghaye javadi raftam. Bebakhshid ke
neveshtane in massage dir shod. Too in yeki 2 rooz saram kheili
sholoogh bood. Amma dar morede oon jala3
bas badi zakrak ino into yali fata7to il ma3ebir ma3 suriya
mich ni7na. we into yali kinto m7asarin mina we ma ken fikon
tjibo sle7 2ila mn souriya. so hayda bi barhen min ken 3emil
saf2a ma3 il souriyeh. bas iza 7ebib tinkira khaberna kif jibto
sle7 talma il ba7er ken msakar 2idemkon.
• 文書の書かれた地域や出典を特定
Mixed Language Chat
Farsi
2shanbe be didane aghaye javadi raftam. Bebakhshid ke
neveshtane in massage dir shod. Too in yeki 2 rooz saram kheili
sholoogh bood. Amma dar morede oon jala3
• 膨 大 な テ キ ス ト の デー タ ベー ス か ら 専 門 の ア ナ リ
ストが視るべきものを分類
対応プラットフォーム
Arabic
bas badi zakrak ino into yali fata7to il ma3ebir ma3 suriya
mich ni7na. we into yali kinto m7asarin mina we ma ken fikon
tjibo sle7 2ila mn souriya. so hayda bi barhen min ken 3emil
saf2a ma3 il souriyeh. bas iza 7ebib tinkira khaberna kif jibto
sle7 talma il ba7er ken msakar 2idemkon.
Language Boundaries Located
Farsi
以 下 の プ ラッ ト フォー ム 対 応 の SDK を 提 供 し ま す。 そ
の 他 の プ ラッ ト フォー ム の サ ポー ト も、 ご 要 望 に 応 じ
対 応 し ま す。
Linux CentOS 5.x/6.x, IA32/AMD64
Linux Debian 6.x/7.x, IA32/AMD64
Linux Red Hat 5.x/6.x, IA32/AMD64
Linux Ubuntu 12.x/13.x, IA32/AMD64
MacOS
Solaris 10/11, SPARC32/64, IA32/AMD64
Windows XP/Vista/7, IA32/AMD64
Windows Server 2003, 2008
お問合せ
Arabic
Language-sensitive Translation
さらに詳しい製品情報ならびに評価版のご利用を
ご 希 望 の 方 は 下 記 へ ご 連 絡 く だ さ い。
[email protected]
www.basistech.jp
電 話 03-3511-2947
詳細 www.basistech.jp
〒102-0084
東京都千代⽥区⼆番町9-6
お問合せ [email protected]
One Alewife Center
Cambridge, MA 02140
電話 03-3511-2947
2553 Dulles View Drive
Herndon, VA 20171
1 Furzeground Way
Middlesex UB11 1BD, UK
© 2014 Basis Technology Corporaon. “Basis Technology”, “Geoscope”, “Odyssey Digital Forensics”, “Rosee”, and “We put the World in the World Wide Web” are registered
trademarks of Basis Technology Corporaon. All other trademarks, service marks, and logos used in this document are the property of their respecve owners. (2014-01-24)
Fly UP