...

Unicode と XSL による多言語組版

by user

on
Category: Documents
21

views

Report

Comments

Transcript

Unicode と XSL による多言語組版
Unicode と XSL による多言語組版
2003 年 12 月 29 日
アンテナハウス株式会社
コンピュータによる多言語組版の課題
なり早いスピードで進化しているので最新の
情報を正しく把握する必要がある。
最初に、コンピュータによる多言語組版に取り組む
にあたって問題になると考えられる点を一覧してみ
・ Unicode に は ど の よ う な 問 題 が あ る だ ろ う
か?
る。これらはいづれも単独でも難しい課題だが、技術
・ 従来のシフト JIS や ASCII 符号化によるテキ
が日進月歩で進歩しているので、それを理解して使い
ストファイルでは使えるコードの種類が限ら
こなすのはさらに難しくなる。
れていた。これに対して、Unicode のテキス
この資料は、コンピュータで多言語組版を行う方法
トでは、新しいコードがいろいろ定義されて
について、最初に多言語組版の課題を整理する。次い
いる。例えば、U+2000 から U+200F までの 16
で 、 Unicode 、 XML と XSL ( Extensible Stylesheet
文字に次のようなコードがある。こういうコ
Language)による多言語組版の現状を述べ、最後に実
ードは組版上どういう意味をもつのか?どう
際の組版例を示す(1)。
やって使いこなすのか?
U+2000 からの 16 文字
組版対象のデータをどう作成するか?
2000;N # EN QUAD
コンピュータで文字情報を処理するには、まず、そ
2001;N # EM QUAD
の文字情報が符号化されたデータとして作成されてい
2002;N # EN SPACE
る必要がある。日本語のみを対象とするのと比べる
2003;N # EM SPACE
と、多言語のデータを作成するのは格段に難しくなる。
2004;N # THREE-PER-EM SPACE
1. 文字符号化方式の選定
2005;N # FOUR-PER-EM SPACE
・ 文字符号化方式(いわゆる文字コード)は主
2006;N # SIX-PER-EM SPACE
として国単位で、地域ローカルな文字コード
2007;N # FIGURE SPACE
表として標準化されてきた。しかし、地域ロ
2008;N # PUNCTUATION SPACE
ーカルな文字コード表でデータを表す方法で
2009;N # THIN SPACE
は、多言語混在の文書を簡単に扱うことはで
200A;N # HAIR SPACE
きない。多言語編集、特に多言語混在の文書
200B;N # ZERO WIDTH SPACE
を編集、組版しようとしたら Unicode が必須
200C;N # ZERO WIDTH NON-JOINER
であろう。
200D;N # ZERO WIDTH JOINER
・ Unicode はどの言語まで使えるか?Unicode の
200E;N # LEFT-TO-RIGHT MARK
最新の標準化状況とそれを実装した製品にど
200F;N # RIGHT-TO-LEFT MARK
のようなものがあるか?特に Unicode は、か
2. コンピュータの選定。ハードウエアと OS はどう
やって選ぶ?
(1)この文書は、アンテナハウスの標準文書形式である
SimpleDoc.dtd に準拠した XML で記述して、XSL Formatter V2.5 で組版
して PDF 化したものである。この文書自体、Unicode、XML、XSL による多言語組版の実例でもある。
-1-
・ Macintosh 、 Windows2000/XP 、 Unix ( Solaris
等)、Linux、JAVA、どのような環境を選ぶ
を異様に恐れる傾向がある。XML へのハード
ルをどうやって下げたら良いか?
・ XML を使う場合、データ構造(スキーマ)を
か?
・ Windows では、Uniscribe という多言語処理層
(ライブラリー)が整備されていて、これを使
設計しなければならない。
・ 新しくデータ構造を定義するのではなく、既
いこなすことでアジア圏の言語を含める多言
存の DTD/スキーマを使えないか。例えば、
語 処 理 が 可 能 に な る 。 Internet Explorer や
DocBook.dtd は使えないのか?
Microsoft Word は Uniscribe を使って、多様な
アジア圏の言語まで処理ができるようになっ
ている。
・ 新しい標準 DTD/Schema 定義の動向は?
5. 編集ソフトウエアの選定
・ 使い慣れた編集ソフトを使えるかどうかは、
・ 多言語処理では Windows がもっとも進んでい
文書作成の生産性に非常に大きな影響を与え
るが、では JAVA ではアジア圏の言語をどこ
るので、どのような編集ソフトを使うことが
ま で 処 理 で き る だ ろ う か ? ま た 、 Linux や
できるかを選択することは非常に重要であ
Solaris な ど の UNIX で の 多 言 語 組 版 の 現 状
る。この観点からは、Microsoft Word を使え
は?
れば非常に便利だ。Microsoft Word は多言語
3. データをコンピュータにどうやって入力するか。
編集ソフトとしてどこまで使えるか?
・ データ入力用のソフトウエアにはどんなもの
があるか?
・ 多言語対応を標榜している編集ソフトは多数
ある。しかし、例えば、英語、西欧の言語、
・ キーボードの選定、キーボードをどうやって
日本語、中国語、韓国語、アラビア語、ヘブ
用意するか?キーボードは各国で標準化され
ライ語、タイ語をひとつのバージョンですべ
ていて、各国で販売している PC には、その
て編集できるソフトは数が少ない。もし、言
国の方式のキーボードが付随している。特に
語別に編集ソフトを切り替えなければならな
日本で販売している PC に付属のキーボード
いなら、多言語が混在する文書は作成できな
で他の国の言語を入力するのはどうしたら良
い。また、言語別に切り替えるとなると、操
いか?
作を新しく覚えたり、データの互換性の問題
・ IME が必要か?その選定方法は?周知のよう
も出るので、これは避けたい。しかし、どう
に日本語を入力するには、ローマ字入力、か
しても言語別に編集ソフトの切り替えが必要
な漢字変換を行う方式が主流である。しか
になったらどうするか?
し、漢字の日本語読みを知らない外国人が、
・ 多 言 語 を WYSIWYG 、 あ る い は WYSIWYG
漢字を入力するのにローマ字読みで入力する
に近い形で編集できるツールがあるか?ある
のは無理ではないかと思う。それと同じで、
として、どのソフトを選択するのが最適か?
中国語の入力方式として中国人にはピンイン
・ XML でデータを作成するには、スキーマに従
入力が自然かもれないが、日本人がピンイン
ったデータの入力編集作業を支援するための
で入力するのは難しいだろう。
ツールが必要である。そのようなソフトがあ
4. データの表現法
るか?
・ アプリケーション依存のバイナリかアプリケ
ーション独立の XML 形式にするか?
・ 専門家が文書を作成する場合は、訓練、学習
ができるので、タグを見せるタイプの XML
・ 多 言 語 処 理 を 実 現 す る に は XML が 一 番 良
編集ソフトでも使用できる。多言語でそのよ
い。しかし、XML を使いこなすのはハードル
う な こ と の で き る XML 編 集 ツ ー ル が あ る
が高いのが事実である。XML のタグはそれほ
か?あるとして、どのソフトを選択するのが
ど難しいものではないが、一般の人達はタグ
最適か?
-2-
組版の方法
・ 右から左へ記述する言語と左から右へ記述す
1. レ イ ア ウ ト を 頻 繁 に 変 え る こ と が で き 、 か つ 、
る言語が混在しても対処できるのか?
WYSIWYG で編集でき、レイアウト編集した結果
を XML のソースデータにリアルタイムで反映で
印刷・PDF 作成方法
きるような、本格的な多言語 XML 組版ソフトは
1. 多言語の印刷はどうやってやるか?
存在しないのか?なぜ存在しないのか?
2. 印刷用 PDF と Web 用 PDF の違い、使い分け。
2. 文字を画面なり、紙、PDF なりに視覚化して表す
には、フォントが必須である。では、Unicode 対
その他
1. 目次の作成方法や索引の作成方法
応フォントにはどのようなものがあるか?
3. PDF を作成して配布したり、印刷しようとする
2. 索引のソート順、言語別のソート規則、多言語混
と、フォントのアウトラインの埋め込みが必須で
在時のソート規則
ある。従って、多言語組版で使用するフォント
は、アウトラインの埋め込みが許可されたフォン
多言語組版の基礎知識
トでないとだめだろう。多言語の組版をしようと
するとき、使えるフォントにはどんなフォントが
文字と言語
あるか?
言語は文字によって記述される。言語をコンピュー
4. XSL-FO によるレイアウト指定方法
タで扱うためには、まずその前提として、言語を表記
・ XSL-FO は ど こ ま で 使 え る か ? ど の 程 度 ま
で、複雑なレイアウトが指定できるか?
する文字を扱うことができなければならない。コンピ
ュータで文字を扱う時は、普通は文字の種類を集合と
・ XSL Formatter は、XSL 仕様を満たす XML の
して規定し、番号付けした符号化文字集合を使う。従
多言語組版ソフトであるが、どんな特徴があ
来は、各国・地域別に規定された符号化文字集合が使
るか?
われてきた。次の表は主要な言語が主にどのような地
・ 組版規則が言語別に違うケースにも対処でき
域別の文字コードで表されるかを示す。
ているのか?
・ 文章の中に異なる組版規則の言語が混在する
時にも対処できるのか?
言語コード 言語名称
ar
Arabic
bg
言語名称(日) 文字の種類
地域別文字コード
アラビア語
Arabic
ASMO 449, Latin/Arabic Alphabet
Bulgarian
ブルガリア語
Cyrillic
Latin/Cyrillic Alphabet
km
Cambodian
カンボジア語
Khmer
(Unicode V3.0 版で初登録)
zh-CN
Chinese (Simplified) 簡体字中国語
Simplified Chinese
GB2312, GBK, GB18030
zh-TW
Chinese (Traditional) 繁体字中国語
Traditinal Chinese
BIG5
hr
Croatian
クロアチア語
Latin
Latin Alphabet No.2,10
cs
Czech
チェコ語
Latin
Latin Alphabet No.2
da
Danish
デンマーク語
Latin
Latin Alphabet No.1,4,5,6,8,9
nl
Dutch
オランダ語
Latin
Latin Alphabet No.1,5,9
en
English
英語
Latin
Latin Alphabet No.1..10
et
Estonian
エストニア語
Latin
Latin Alphabet No.4,6,7,9
fi
Finnish
フィンランド語 Latin
fr
French
フランス語
Latin
Latin Alphabet No.9,10
de
German
ドイツ語
Latin
Latin Alphabet No.1..10(7 除く)
Latin Alphabet No.4,6,7,9,10
-3-
言語コード 言語名称
言語名称(日) 文字の種類
地域別文字コード
el
Greek
ギリシャ語
Greek
Latin/Greek Alphabet
he
Hebrew
ヘブライ語
Hebrew
Latin/Hebrew Alphabet
hi
Hindi
ヒンディ語
Devanagari
IS 13194(ISCII)ほか
hu
Hungarian
ハンガリー語
Latin
Latin Alphabet No.2,10
is
Icelandic
アイスランド語 Latin
Latin Alphabet No.1,6,9
id
Indonesian
インドネシア語 Latin
Latin Characters
it
Italian
イタリア語
Latin
ja
Japanese
日本語
Latin、漢字、かな、カタカナ JISX0201, JIS X0208, JIS X0212
kk
Kazakh
カザフ語
Cyrillic
Extended Latin/Cyrillic Alphabet (Cyrillic
Asean)
ko
Korean
韓国語
ハングル、漢字
KS C5601, KS X1001, Johab
lv
Latvian
ラトビア語
Latin
Latin Alphabet No.4,7
ms
Malay
マレー語
Latin または Arabic
Latin Alphabet, Arabic Extended
Lappish/Sami
ラップ語
Latin Extended
lt
Lithuanian
リトアニア語
Latin
Latin Alphabet No.4,6,7
no
Norwegian
ノルウェー語
Latin
Latin Alphabet No.1,4..9
fa
Persian (Farsi)
ペルシャ語
Arabic
Extended Latin/Arabic Alphabet (Arabic
Character 28+ Original 4 Characters)
pl
Polish
ポーランド語
Latin
Latin Alphabet No.2,7,10
pt
Portuguese
ポルトガル語
Latin
Latin Alphabet No.1,3,5,8,9
ro
Romanian
ルーマニア語
Latin
Latin Alphabet No.10
ru
Russian
ロシア語
Cyrillic
koi8-r, Latin/Cyrillic Alphabet 32 Chars (not
compatible with Ukrainian)
sr
Serbian
セルビア語
Cyrillic
Latin/Cyrillic Alphabet (Serbian)
sk
Slovak
スロバキア語
Latin
Latin Alphabet No.2
sl
Slovenian
スロベニア語
Latin
Latin Alphabet No.2,4,6,10
es
Spanish
スペイン語
Latin
Latin Alphabet No.1,5,8,9
sv
Swedish
スウェーデン語 Latin
sw
Swahili
スワヒリ語
Latin
tl
Tagalog/Takalog
タガログ語
Latin
th
Thai
タイ語
Thai
TIS 620, Latin/Thai Alphabet
tr
Turkish
トルコ語
Latin
Latin Alphabet No.5
uk
Ukrainian
ウクライナ語
Cyrillic
koi8-u, Latin/Cyrillic Alphabet 33 Chars
ur
Urdu
ウルドゥー語
Arabic Extended
vi
Vietnamese
ベトナム語
Latin
xh
Xhosa
zu
Zulu
Latin Alphabet No.1,3,5,8,9,10
Latin Alphabet No.1,4,5,6,8,9
Extended Latin Characters
Latin
ズールー語
Latin
Unicode
Unicode の歴史
現在、国別文字コードに代わり、Unicode が単一の
1991 年 10 月 Unicode 1.0.0 版発行
アプリケーションで全世界のあらゆる言語の文字とテ
1996 年 7 月 Unicode 2.0.0 版発行
キストを取り扱う基盤を与えている。
1999 年 9 月 Unicode 3.0.0 版発行
-4-
2002 年 3 月 Unicode 3.2.0 版発行
アプリケーションの役割
アプリケーション・ソフトウエアが Unicode を扱え
2003 年 4 月 Unicode 4.0.0 版発行
Unicode は単に符号化文字集合を定義するだけでは
るだけでは多言語処理ができるとは言えない。Unicode
なく、テキスト処理のための各種の基準を定義してい
と多言語処理の間には、超えなければならない問題が
る。①文字を書き進める方向を規定する Unicode 文字
沢山ある。文字コードのレベルでいうと次のようなも
データベース、②禁則文字など文字の改行特性を規定
のである。
する Unicode Line Breaking Properties、③双方向性処理
グリフ置換
日本語や中国語(繁体字)では同一文章を横書きと
Unicode の仕様の一部である。これらのレポートは、
縦書きができる。横書きと縦書きでは句読点や括弧
完全とは言えないこともあるが、アプリケーション・
類は同じ文字コードを異なるグリフで表示・印刷す
プログラムを作成する際に参照として貴重な情報源で
る必要がある。組版エンジンは自動的にグリフの入
ある。Unicode の仕様とこれらの技術レポートによっ
れ替えを行わねばならない。
て、多言語組版エンジンの開発が非常に容易になった。
OS とアプリケーションの内部文字コード
日本語、『縦書』。
1980 年代から 1990 年代までのパーソナル・コンピ
ュータの OS は各地域別の文字コード表に基づいてい
たため、OS の上で動作するアプリケーション・プログ
日本語、『縦書』。
を 規 定 す る UnicodeBIDI 、 な ど の 技 術 レ ポ ー ト は
ラムも地域別であった。例えば、日本語 Windows98/Me
また、アラビア語では、同じ文字コードであっても
は、OS 内部ではシフト JIS(JISX0201 と JIS X0208)
単独の時、単語の開始位置に表れる時、中間、終了
でテキストと文字処理を行っている。このため
位置に表れる時でグリフが変化する。アラビア語を
WindowsMe で 動 く ア プ リ ケ ー シ ョ ン で は 、 A with
正しく扱うソフトウエアは文字の位置によるグリフ
diacresis:Ä、O with diacresis:Ö、U with diacresis:Ü
の入れ替えを実現しなければならない。
などのラテンの特殊文字を正しく処理するのが容易で
音節文字
はない。これらの文字は日本語の半角カタカナと文字
タイ語、クメール語、ラオ語などの東南アジア大陸
コードがぶつかってしまうためである。
部の文字は子音字を中心に母音記号を上下、左右に
Microsoft の Windows2000/XP は、OS 内部の処理が
配置する音節文字である。これらの言語の文字コー
Unicode が基本になっていて、多言語処理機能が飛躍
ドは、Unicode では子音字、母音記号、声調記号の
的に強化されている。Microsoft の OS で多言語処理を
記号レベルで規定されている。そこで、アプリケー
行おうとしたら、Windows2000 または XP を選定する
ションは複数の文字コード・ポイントのシーケンス
必要がある。
をまとめて子音字の上下左右に配置して表示したり
アプリケーション・ソフトウエアには、内部的に
印刷する必要がある。
Unicode でデータを処理しているものと、ローカル文
字コードで処理しているものがある。多言語の処理を
フォント
行おうとしたら、内部的に Unicode 処理をしているア
文字コードに次いで重要な基盤はフォント技術であ
プリケーション・ソフトウエアを選択する必要があ
る。実際に使えるフォントがなければ、文字を画面に
る。例えば、XSL Formatter や Micorosoft Word2000/XP
表 示 し た り 、 印 刷 で き な い 。 次 の 表 は Microsoft
は、Unicode アプリケーションであるが、FrameMaker
Windows2000/XP に標準で添付されているか、あるい
は、Unicode アプリケーションではない。
は、インターネットで無償ダウンロードできる
Windows2000/XP 用のフォントのリストである。
-5-
Arial Unicode MS は、Unicode の全域をカバーする唯
Windows2000 を標準でインストールした時に、表で
一のフォントである。しかし、Unicode3.2 の全文字は
Windows2000 と示すすべてのフォントがインストール
揃っておらず、また、必ずしも品質は良くないという
される訳ではない。Angsana(タイ語用のフォント)
欠点がある。
や Mangal ( ヒ ン デ ィ ー 語 用 の フ ォ ン ト ) な ど
言語別にみれば欧米の言語、スラブ系言語、日本
Windows2000/XP を標準でインストールしたままでは
語、中国語(繁体字、簡体字)、韓国語、アラビア語、 インストールされない。コントロールパネルの「地域
ヘ ブ ラ イ 語 、 タ イ 語 等 に つ い て は TrueType ま た は
のオプション」→「システムの言語設定」でタイ、イ
OpenType(TrueType フォーマット)のフォントを無償
ンドなどを選択してシステムを再設定すると初めてイ
で揃えることができる。もちろん、デザインを重視し
ンストールされる(次の図を参照)。
た場合、このようなフォントのみでは不足であるが、
技術説明書、製品のサービス説明書などの用途では十
分実用的である。
フォント・ファミリー
カバーする主要な文字
入手方法
Arial Unicode MS
Unicode V2 全文字
Office2000/XP etc. Sans-serif
Arial
Latin, Greek, Cyrillic, Arabic, Hebrew
2000/XP
Sans-serif
Courier New
Latin, Greek, Cyrillic, Arabic, Hebrew
2000/XP
Monospace
Lucida Console
Latin, Greek, Cyrillic
2000/XP
Monospace
Lucida Sans Unicode
Latin, Greek, Cyrillic, Hebrew, 記号類
2000/XP
Sans-serif
Microsoft Sans Serif
Latin, Greek, Cyrillic, Arabic, Hebrew,
Thai
2000/XP
Sans-serif
Tahoma
Latin, Greek, Cyrillic, Arabic, Hebrew,
Thai
2000/XP
Sans-serif
Times New Roman
Latin, Greek, Cyrillic
2000/XP
Serif
Vernada
Latin, Greek, Cyrillic
2000/XP
Sans-serif
Arabic Transparent
Arabic
2000/XP
Sans-serif (Latin), Cursive (Arabic)
Traditional Arabic
Arabic
2000/XP
Sans-serif (Latin), Cursive (Arabic)
Sylfaen
Latin, Greek, Cyrillic, Armenian,
Georgian
XP
Serif
MS Hei
Simplified Chinese
IE5, Global IME5
Monospace (Latin), Sans-serif (Chinese)
MS Song
Simplified Chinese
IE5, Global IME5
Monospace (Latin), Serif (Chinese)
SimSun
Simplified Chinese
XP
Monospace (Latin), Serif (Chinese)
MingLiU
Traditional Chinese
2000/XP
Monospace (Latin), Serif (Chinese)
PMingLiU
Traditional Chinese
Office2000
Serif
Mangal
Devanagari
2000/XP
Palatino Linotype
Greek Poliytonic
2000/XP
Shruti
Gujarati
XP
Raavi
Gurmukhi
XP
David
Hebrew
2000/XP
Serif
David Transparent
Hebrew
2000/XP
Serif
Fixed Miriam Transparent
Hebrew
2000/XP
Monospace
Miriam
Hebrew
2000/XP
Sans-serif
Miriam Fixed
Hebrew
2000/XP
Monospace
-6-
分類
Serif
フォント・ファミリー
カバーする主要な文字
入手方法
分類
Miriam Transparent
Hebrew
2000/XP
Sans-serif
Rod
Hebrew
2000/XP
Monospace
MS Gothic(MS ゴシック) Japanese
2000/XP
Monospace (Latin), Sans-serif (Japanese)
MS Mincho(MS 明朝)
Japanese
2000/XP
Monospace (Latin), Serif (Japanese)
Tunga
Kannada
XP
Batang
Korean
2000/XP
Serif
Gulim Che
Korean
IE5, Global IME5
Monospace (Latin), Sans-serif (Korean)
Estrangelo Edessa
Syriac
XP
Latha
Tamil
2000/XP
Gautami
Telugu
XP
MV Boli
Thaana
XP
Angsana New
Thai
2000/XP
Serif
Cordina New
Thai
2000/XP
Sans-serif
IrisUPC
Thai
2000/XP
Sans-serif
では、全地球をリアルタイムでカバーする電子化時代
には間に合わない。
紙を電子化した媒体である PDF ができたことによっ
て、多言語の組版結果をインターネット経由でどこに
でも送信したり、CD-ROM などの電子媒体で流通させ
ることができるようになった。
国境を越えて PDF を流通させたり、多言語組版をし
て、アラビア語やタイ語を含む文書の PDF を作成する
場合は、アウトラインの埋め込みを許可されたフォン
トを指定し、PDF 生成時にフォントのアウトラインを
埋め込む必要がある。
XML
XML は、次のような点で多言語の文書のコンテンツ
を表現するのに最適である。
・ XML は、UTF-8、UTF-16 という Unicode ベース
の符号化方式を標準として採用している。従って
文字コード変換をすることなく Unicode テキスト
を扱える。
・ MicrosoftWord のようなワープロを使えば、通常の
地域のオプションの設定
ビジネス文書レベルでの多言語文書作成と印刷、
PDF 化は簡単にできる。しかし、膨大な量の製品
PDF 技術
マニュアルを作成したり、作成した文書をいろい
多言語組版のもう一つの推進要素は PDF 技術だろ
ろな形に加工したり、あるいはプロフェッショナ
う。多言語の説明書を組版することができても、それ
ルな品質をもつ印刷物を作成するためには、他の
を紙に印刷して持ち歩かなければならないということ
アプリケーションとデータを交換したり、他のア
-7-
プリケーションと組み合わせて使う必要がある。 形式なので任意の XML 形式に変換することが RTF よ
このような時、情報を XML で表現しておくこと
りも遥かに簡単である。アンテナハウスは、
で、アプリケーション間の連携が容易に実現でき
WordprocessorML を XSL-FO に変換するスタイルシー
る。
トを世界で初めて商品化した。
・ XML では文書ファイルを分割して作成したり、あ
るいは、画像ファイルは外部ファイルとして置く
ことができる。この仕組みを使って、文書作成時
にいろいろな言語の文書で異なる部分は別ファイ
ルとして作成、共通の部分は一つとし、画像はす
べての言語で共通にするというような構成とし
て、組版時にパーツ文書を組み立てて最終形にす
るような方法が取れる。
多言語 XML の編集
多言語の XML コンテンツを作成する方法は次の 3
通りがある。
1.
多言語の扱えるテキスト・エディタを使う。
2.
多言語対応の XML エディタを使う。
3.
多言語を扱えるワープロ・ソフトを使う。
XML はテキストファイルなので、必要に応じてテキ
スト・エディタを使って記述できる。多言語を扱える
テ キ ス ト ・ エ デ ィ タ に は 、 Windows の NotePad や
UniPad などがある。特に、UniPad は Unicode4.0 の文
字表を使ってタイ語などを Unicode のコードポイント
単位で表示編集処理ができるので便利である(右の図
を参照)。
XML エディタで多言語を本格的に扱えるものはまだ
ないようだ。古くからある XML エディタの多くは、
UniPad の入力画面
Unicode を扱えない。新しい XML エディタは Unicode
を扱えるようになってきているが、既に述べたように
また、2003 年の秋にリリースされた OpenOffice1.1/
単に Unicode を扱えるだけでは多言語対応の XML エ
StarOffice7 でも多言語の編集機能が強化され、アラビ
ディタということはできない。
ひとつのバージョンで最も多くの言語を編集できる
ア語やタイ語の編集ができるようになった。OpenOffice
ワ ー プ ロ ソ フ ト は Microsoft Word で あ る 。 Micorsoft
の保存形式は XML 形式なので多言語の XML コンテン
Word2002 までの XML 機能は限定されたものであっ
ツを作成する際の選択肢の一つと考えることができる。
た。このため Word の文書を XML 化するには、RTF
で保存し RTF から XML に変換するなどの方法がとら
XSL による多言語組版
れ て き た 。 し か し 、 Microsoft Word2003 で は XML
Schema で定義したユーザスキーマによる XML 文書編
XSL
集が可能になり、またユーザスキーマを使わない文書
XSL は XML を紙のような用紙サイズの概念をもつ
についても WordprocessorML という XML 形式で保存
メディアの上に組版するための仕様である。XSL の仕
ができるようになった。WordprocessorML 形式は、XML
-8-
様は、以下に述べるように国際化や多言語組版につい
いる実際のフォント名に対応させる。言語別の一般的
て配慮した設計になっている。
なフォント・ファミリー→実際のフォント名の対応表
XSL では組版の対象となるオブジェクトの種類を定
を、XSL Formatter「組版」メニューの「組版オプショ
義している。オブジェクトの種類には、文字レベル、 ン」→「言語別設定・日本語処理」で設定できる。
インライン・レベル、ブロック・レベル、リスト(箇
フォントファミリ名を次のようにリストで指定する
条書き)、表、リンクなどのダイナミック・オブジェク
と、左から優先的に適用する。この機能を利用して、
ト、ページの領域(本文、ヘッダ、フッタ、サイドバ
欧文と和文が混在する段落に対して、欧文フォントと
ー、あるいは、脚注領域、前方フロート領域、サイ
和文フォントを一括指定することもできる。
font-family の指定例
ド・フロート領域)などがある。
各オブジェクトに対してプロパティ(属性値)を指
<fo:block
定することで、各オブジェクトのレイアウトや修飾の
font-family="Arial, MS Gothic, sans-
指定ができる。
serif">
XSL Formatter は、XSL の仕様に基づいてレイアウト
English is Arial. 日本語はゴシックになりま
を指定した XML ドキュメントを、指定した用紙の上
す。
に組版するための多言語組版エンジンである。多言語
</fo:block>
組版エンジンは、XSL の仕様では規定されていない機
このように指定すると、XSL Formatter は Arial フォ
能についても、アンテナハウスの独自拡張などの方法
ントにグリフがある文字は Arial を適用し、Arial フォ
で多言語機能を強化している。
ントにグリフが無い時は MS ゴシックを適用する。組
版結果は次のようになる。
English is Arial. 日本語はゴシックになります。
フォントの指定
段落やインライン・オブジェクトにフォント・ファ
ミリーのプロパティを指定することで、組版フォント
日本語と中国語の漢字混植
Unicode では、日本語、中国語(繁体字)、中国語
を設定する。データが正しい文字コードで作成されて
いても、指定を間違えると文字が表示されなかった (簡体字)、韓国語 (2) について、Unification を適用し、
り、場合によっては文字の字形が入れ替わってしまう 字形の同じ文字に同一のコードを割り振られている。
ことがあるため、多言語の組版にあたって、フォント
このため Unicode でこの3つの言語のグリフを使い分
ファミリ名を適切に設定することは大変重要である。
けするには、フォント・ファミリーの指定による方法
フォントファミリ名は、Windows のメニューに表れ
しかない。しかし、Unification されている文字であっ
る名前を指定する。例えば、FO に対して次のように指
ても、日本語、中国語では文字のグリフが異なること
定する。
が良くある。また、フォントのデザインも違うため、
・ font-family="MS 明朝"
日本語文書に中国語のフォント・ファミリーを指定す
・ font-family="MS ゴシック"
ると読者には違和感がある。このため日本語、中国語
(繁体字)、中国語(簡体字)を混在させるときは、特
・ font-family="Arial"
・ font-family="Times New Roman"
に注意して、フォント・ファミリーは generic-font family
一般的なファミリー名(generic-font family)で指定
ではなく、各言語のフォント・ファミリー名を指定し
することもできる。一般的なフォントファミリには
なければならない。
日本語と中国語の font-family 指定例
serif, sans-serif, cursive, fantasy, monospace の 5 種類があ
る。XSL Formatter は、フォントファミリ・プロパティ
<fo:block>
の値を一般的なファミリー名で指定すると、組版を実
<fo:inline font-size="12pt" font-
行時に、稼動している Windows にインストールされて
family="MS 明朝">
(2)現在、韓国語はハングル文字を使って表記することが多く、漢字の使用頻度は少ない。
-9-
日:浅 与
xmlns:fo="http://www.w3.org/1999/XSL/
</fo:inline>
Format"
、
xmlns:axf="http://www.antennahouse.com/
<fo:inline font-size="12pt" font-
names/XSL/Extensions">
family="SimSun">
<fo:block axf:text-autospace="none">
簡体:浅 与
漢字 English sentence かな 2004 二千四
</fo:inline>
</fo:block>
、
<fo:block axf:text-autospace="ideograph-
<fo:inline font-size="12pt" font-
alpha">
family="MingLiU">
漢字 English sentence かな 2004 二千四
繁体:浅 与
</fo:block>
</fo:inline>
<fo:block axf:text-autospace="ideograph-
</fo:block>
numeric, ideograph-alpha">
これは次のように組版される。
漢字 English sentence かな 2004 二千四
日:浅 与、 簡体:浅 与、 繁体:浅 与
</fo:block>
<fo:block axf:text-autospace="ideographnumeric, ideograph-alpha" axf:text-
多言語の混植
文章の段落に複数の言語が混在する、多言語混植の
autospace-width="0.12em" >
組版には、様々な難しい問題がある。
漢字 English sentence かな 2004 二千四
ベースライン調整
</fo:block>
多言語を混植した場合、フォントのベースラインを
</fo:block>
これは次のように組版される。
どうやって揃えるかという点も大きな課題である。
フォントには、ラテン文字のように文字の下方にベ
漢字English sentenceかな2004二千四
漢字 English sentence かな2004二千四
漢字 English sentence かな 2004 二千四
漢字 English sentence かな 2004 二千四
ースラインがあるもの、インド系の文字のようにベ
ースラインが上にある(hanging ベースライン)も
の、漢字のように下辺がベースラインになるものが
ある。XSL では、それらの文字を横に配置したとき
ベースラインを調整できる(3)。
XSL の国際化機能
自動空白調整
XSL では、行の進行方向、文字の進行方向等の既定
日本語組版において日本語の中にラテン文字による
値は欧文の横書きであるが、それ以外の進行方向も自
欧文を混植する場合、和文と欧文の間には一定の空
在に指定できる。
白を空けるのが一般的である。CSS3 にはこの動作が
Writing-mode
規定されているが XSL 仕様にはこの機能がない。ア
文書全体、あるいは特定の領域に writing-mode を指
ンテナハウスは XSL 拡張仕様で和欧文間の空白量を
定することで文字を書き進める方向と行を積み上げ
定義し、XSL Formatter は和欧文間の空白量の自動調
る進行方向を指定できる。但し、writing-mode が指
整ができる。
定できるのは、次の FO から生成されるエリアのみ
和欧文間の自動空白量
である。例えば、fo:block に対して writing-mode を指
<fo:block font-size="12pt"
定して右から左に書き進めることはできないので、
padding="4pt"
(3)これについては、"Internationalized
Text Formatting in CSS and XSL"(Steve ZIlles)を参照。。現時点で、XSL Formatter はベース
ライン調整機能の未実装である
- 10 -
その場合は、当該の fo:block を fo:block-container に
日本語、中国語(簡体字)、中国語(繁体字)
入れる。
単語の区切りで改行する言語
・
fo:simple-page-master
・
fo:region-body
・
fo:region-before
定方法を実装し、言語によって使い分けることができ
・
fo:region-after
なければならない。英語のような言語では、改行位置
・
fo:region-start
は原則として単語間の空白、または、センテンスの区
・
fo:region-end
切りの空白の位置となる。日本語や中国語の漢字やか
・
fo:table
なの文章は原則としてどの文字間でも改行できる。タ
・
fo:block-container
イ語、クメール語やラオ語のような言語を組版する
・
fo:inline-container
際、改行位置を決定するためにはある種の辞書を用意
タイ語、クメール語、ラオ語
多言語組版エンジンは、上に述べた 3 種類の改行決
writing-mode="tb-rl"と指定すれば、日本語、中国語の
する必要がある。XSL Formatter は 3 通りの改行位置決
縦書きを指定できる。また、writing-mode="rl-tb"を指
定方法を実装している。タイ語についてのみ辞書を使
定すればアラビア語やヘブライ語のように文字を右
って改行位置を決定できる。
から左に書く言語の指定ができる。Writing-mode を
なお、文章の中で改行位置を予め指定しておきたい
ページに指定すれば、例えば、多段組の段の進行方
時は、Unicode の U+200B(ゼロ幅スペース)を改行可
向を指定できるし、表に指定すれば表のセルの列を
能な位置に挿入しておけば、改行位置を決める際に、
右から左に進むように指定できる。
U+200B を改行候補位置として扱う。
UnicodeBIDI と fo:bidi-override
ラテン・アルファベットや日本語のような左から右
ハイフネーション
へ記述する文字と、アラビア文字やヘブライ文字の
単語を分かち書きする言語では改行位置が単語の区
ように右から左へ記述する文字が混在すると、文字
切りになるため、長い単語が行末にかかって次の行に
の進め方が曖昧になることがある。多言語混植の問
送られると、その行は文字数が少なくなる。このよう
題解決のために、Unicode では UnicodeBIDI という
なことから単語の組み合わせによって行の長さが大幅
処理方法を定めている。XSL では fo:bidi-override を
に変動してしまう。そこで単語を行末で分割すること
使って UnicodeBIDI を制御できる。UnicodeBIDI と
で行の長さを平均化するハイフネーション機能が必要
fo:bidi-override については、後述の「アラビア語を
である。XSL ではハイフネーション機能の動作をオン/
使ってみる」の項で説明する。
オフしたり、ハイフネーションの連続をコントロール
するためのプロパティを定義しており、XSL Formatter
改行位置の決定
ではこれらの機能をつかってハイフネーションの頻度
文字列を組版する上で最も重要な問題は改行位置の
を調整できる。
決定方法である。言語によって改行できる位置が異な
XSL Formatter は、TeX のハイフネーション・アルゴ
る。大別すると単語で分かち書きをする言語と、単語
リズムを標準で実装しており、言語別の TeX のハイフ
で分かち書きをしない言語に分かれる。さらに単語で
ネーション・パターン辞書(を XML 形式にしたも
分かち書きをしない言語は、一般の文字の間のどこで
の)を使ってハイフネーションを行うことができる
も改行できる言語と、単語の区切りで改行する言語に (ハイフネーションの設定例は、「主要言語別組版例」
分かれる。
の英語の項を参照)。
さらに、Computer Hyphenation 社のハイフネーショ
単語を分かち書きする言語
英語や西欧の言語、アラビア語、韓国語(ハング
ンプログラム"Hyphenologist"をオプションとして用意
ル)、現代インド文字
しており、Hyphenologist をインストールすると、40 カ
単語を分かち書きしない言語
任意の音節文字間で改行できる言語
国を超える言語のハイフネーション処理ができるよう
になる。
- 11 -
XSL の 仕 様 で は 、 fo:block 、 fo:character 、 fo:page-
てより改行を起こりにくくしている。記号類と英数字
sequence に、country、language という属性を指定でき
間の改行の起こりやすさについては、アンテナハウス
る(xml:lang によって、country-language を一括指定も
の XSL 拡張 axf:line-break-at-punctuation-in-word によっ
可)ので、ハイフネーション機能を、文書全体、ペー
て指定できる。
ジ毎、段落単位で言語別に使い分けもできる。
日本語組版処理
ジャスティフィケーション
日本語の組版には禁則処理、約物の詰めなどの独自
XSL の仕様では text-align 属性でジャスティフィケー
のルールが沢山あり、日本独自の組版規則を実装しな
ションを指定できる。ジャスティフィケーションを実
ければ、日本語組版エンジンとしては実用にならない。
現するには言語別処理が必要である。例えば、ジャス
現在、これらは XSL の仕様では規定されていない
ティフィケーションの際、英語ではワード・スペーシ
が、CSS3 では検討されている。アンテナハウスでは
ングが多少変化しても良いが、ハイフネーションを使
CSS3 を参考にしながら、XSL の仕様を独自に拡張し
って単語間の空白量ができるだけ変動しないようにす
て、XSL Formatter に実装している。
るのが良い。
アラビア語では、ワード・スペーシングが変化しな
タイ語を使ってみる
いように組むのが普通である。このためアラビア語の
両端揃えでは、文字間にカシダというグリフを挿入し
Windows2000 の 標 準 フ ォ ン ト の 中 で 、 Tahoma 、
て単語の長さを伸ばすことで両端揃えを実現している。 Microsoft Sans Serif の 2 つはタイ文字の範囲をサポート
日本語や中国語は文字と文字の間の空き量を調整し している。Windows2000/XP で地域のオプション「タ
てジャスティフィケーションを行う。しかし、行の中
イ」を追加すると、次のタイ語のフォントが追加イン
に欧文が混在したときは欧文の部分はラテン文字の組
ストールされる。
版ルールに従う。
・ Angsana New
タイ語は改行位置が単語の区切りになるため行の長
・ AngsanaUPC
さが、変動しやすい。しかし、サンスクリットに由来
・ Browallia New
する単語を除いてハイフネーションはしないのが普通
・ BrowalliaUPC
である。このため、タイ語にジャスティフィケーショ
・ Cordia New
ンを指定すると非常に見づらい組版結果になりがちで
・ CordiaUPC
ある。
・ DilleniaUPC
XSL ではジャスティフィケーションを指定できる
・ EucrosiaUPC
が、その実際の処理は組版エンジンが行うものであ
・ FreesiaUPC
り、組版エンジンの優劣が表れやすい部分であろう。
・ IriUPC
・ JasmineUPC
記号類と英数字間の改行
・ KodchiangUPC
Unicode に は Line Breaking Properties ( UAX#14 ) と
・ Lily UPC
いう仕様があり、文字に対して改行特性を定義してい
タイ語を入力して組版してみる。ここでは、SC る。UAX#14 は、U+200B(ゼロ幅スペース)や U+2060
Unipad という Unicode 用のテキスト編集ソフトを使
(Word Joiner)などの必須の改行特性が規定されてい
う。UniPad では、Unicode のコード表を見ながらタイ
る。XSL Formatter はこれらの必須改行特性について
語のコードを入力できる。
は UAX#14 に準拠している。
しかし、その他の文字については、UAX#14 の改行
特性の規定は非常にルーズである。そこで、記号類と
英数字間の改行については UAX#14 をカスタマイズし
- 12 -
タイ語には、Angsana New フォントで 16 ポイントを
指定。
นี่อะไรคะ
〔訳〕これはなんですか?
アラビア語を使ってみる
หนังสือพิมพภาษาไทยครับ
〔訳〕タイ語の新聞です。
タイ語は単語間で分かち書きをしない。しかし、改
Windows2000 の標準フォントの中でアラビア文字の
範囲をサポートしているのは次の 5 種類である。
行位置は単語の区切りである。このため、改行位置を
・ Arial
決定するには、辞書を引いて単語の区切りを調べる。
・ Courier New
XSL Formatter V2.5 では、Windows の Uniscribe という
・ Tahoma
機能を使って、自動的に単語の区切りで改行できる機
・ Microsoft Sans Serif
能が追加される。次の例では、学校という単語の区切
・ Times New Roman
り位置で改行が行われていることを示す。
なお、Windows2000 の地域のオプションで追加され
る Andalus 、 Arabic Transparent 、 Simplified Arabic 、
単語[学校]
โรงเรียน
โรงเรียนโรงเรียน
โรงเรียนโรงเรียนโรงเรียน
โรงเรียนโรงเรียนโรงเรียนโรงเรียน
โรงเรียนโรงเรียนโรงเรียนโรงเรียน
โรงเรียน
Simplifie Arabic Fixed、Traditional Arabic は、フォント
の埋め込みが禁止になっているので使えない。
最初に、アラビア語のみ(国連世界人権宣言の冒
頭)を含む文書の例をあげる。アラビア文字は、
Unicode のデータベースで文字自体が右から左に進む
という特性が定義されているのでアラビア語を書いた
だけで、アラビア語の部分は右から左に書き進められ
る。
アラビア語の例
<fo:block
font-family="Tahoma"
学校という単語の綴りの母音をひとつ間違えると行
の区切り位置が変わることを示す。
โรงเรึยน
โรงเรึยนโรงเรึยน
โรงเรึยนโรงเรึยนโรงเรึยน
โรงเรึยนโรงเรึยนโรงเรึยนโรงเรึยน
โรงเรึยนโรงเรึยนโรงเรึยนโรง
เรึยนโรงเรึยน
language="ar">
アラビア語(略)
</fo:block>
これは次のように組版される。この段落を含む文章
の進行方向は、左から右へ書き進める設定になってい
るのでアラビア語の行が左寄せになってしまう。ま
た、ピリオドが右端に配置されてしまう。
‫اﻹﻋﻼن اﻟﻌﺎﻟﻤﻲ ﻟﺤﻘﻮق‬
‫اﻹﻧﺴﺎن‬
‫اﻟﺪﻳﺒﺎﺟﺔ‬
‫ﻟﻤّﺎ ﻛﺎن اﻻﻋﺘﺮاف ﺑﺎﻟﻜﺮاﻣﺔ اﻟﻤﺘﺄﺻﻠﺔ ﻓﻲ ﺟﻤﻴﻊ‬
‫أﻋﻀﺎء اﻷﺳﺮة اﻟﺒﺸﺮﻳﺔ وﺑﺤﻘﻮﻗﻬﻢ اﻟﻤﺘﺴﺎوﻳﺔ‬
‫اﻟﺜﺎﺑﺘﺔ ﻫﻮ أﺳﺎس اﻟﺤﺮﻳﺔ واﻟﻌﺪل واﻟﺴﻼم ﻓﻲ‬
‫اﻟﻌﺎﻟﻢ‬.
‫وﻟﻤﺎ ﻛﺎن ﺗﻨﺎﺳﻲ ﺣﻘﻮق اﻹﻧﺴﺎن وازدراؤﻫﺎ ﻗﺪ‬
.‫أﻓﻀﻴﺎ إﻟﻰ أﻋﻤﺎل ﻫﻤﺠﻴﺔ آذت اﻟﻀﻤﻴﺮ اﻹﻧﺴﺎﻧﻲ‬
‫وﻛﺎن ﻏﺎﻳﺔ ﻣﺎ ﻳﺮﻧﻮ إﻟﻴﻪ ﻋﺎﻣﺔ اﻟﺒﺸﺮ اﻧﺒﺜﺎق ﻋﺎﻟﻢ‬
‫ﻳﺘﻤﺘﻊ ﻓﻴﻪ اﻟﻔﺮد ﺑﺤﺮﻳﺔ اﻟﻘﻮل واﻟﻌﻘﻴﺪة وﻳﺘﺤﺮر ﻣﻦ‬
‫اﻟﻔﺰع واﻟﻔﺎﻗﺔ‬.
次は、日本語とタイ語の混じった文章の例である。
ศ、สの後のรはしばしば発音されません。
動詞の前にการ kaan やคความ khwaam を付けると、
動詞が名詞化されます。
- 13 -
XSL-FO では writing-mode で、領域の中で書き進め
進行方向の異なる文字が入れ子になっていると、文
る 方 向 を 変 更 で き る 。 writing-mode は 、 リ フ ァ レ ン
字の進行方向に関して曖昧さが生まれることがある。
ス・エリア(参照エリア)を生成する領域に対しての
これを処理するため、Unicode は BIDI アルゴリズムを
み設定できるので、アラビア語の段落を block-container
定義している。Unicode の BIDI は、文字の特性に基づ
に 入 れ る 。 block-container に 対 し て writing-mode="rl-
く暗黙の部分と、埋め込み、オーバライドを明示的に
tb"を指定するとこの領域全体が右から左へ書き進める
制御する部分がある。
XSL で は 、 Unicode の 方 向 整 形 コ ー ド ま た は 、
設定になるので、段落も右から開始するようになる。
fo:bidi-override を使って処理を指定する。XSL Formatter
ピリオドも左端に配置される。
アラビア語の右から左への記述の指定例
はこれを正しく処理できる。次に簡単な例を上げる。
<fo:block-container
FO の中でアラビア語を括弧で括った文字列の場合
writing-mode="rl-tb"
<fo:block>‫ )ﺿﺼﺶ( ﺿﺼﺶ‬ENGLISH</fo:block>
font-family="Tahoma"
括弧は、文字の方向性を持たない中立(ニュートラル)
language="ar">
の文字である。一般的に、中立の文字は周辺の文字の
<fo:block>
方向性に影響を受け、Left-to-Right と Left-to-Right には
アラビア語(略)
さまれた文字は Left-to-Right になり、Right-to-Left と
</fo:block>
Right-to-Left にはさまれた文字は Right-to-Left になる。
</fo:block-container>
この周辺の方向性が対立した場合は、上位の方向性に
したがうので、fo:block の writing-mode と同じになる。
これは次のように組版される。
‫اﻹﻋﻼن اﻟﻌﺎﻟﻤﻲ ﻟﺤﻘﻮق‬
‫اﻹﻧﺴﺎن‬
したがって、上の fo:block は次のように表示される。
‫ )ﺷﺼﺾ )ﺷﺼﺾ‬ENGLISH
これを回避する方法の 1 つは、Unicode の方向整形
コード(RLM、RLE)を使うことである(4)。
‫اﻟﺪﻳﺒﺎﺟﺔ‬
‫ﻟﻤّﺎ ﻛﺎن اﻻﻋﺘﺮاف ﺑﺎﻟﻜﺮاﻣﺔ اﻟﻤﺘﺄﺻﻠﺔ ﻓﻲ ﺟﻤﻴﻊ‬
‫أﻋﻀﺎء اﻷﺳﺮة اﻟﺒﺸﺮﻳﺔ وﺑﺤﻘﻮﻗﻬﻢ اﻟﻤﺘﺴﺎوﻳﺔ‬
‫اﻟﺜﺎﺑﺘﺔ ﻫﻮ أﺳﺎس اﻟﺤﺮﻳﺔ واﻟﻌﺪل واﻟﺴﻼم ﻓﻲ‬
.‫اﻟﻌﺎﻟﻢ‬
‫وﻟﻤﺎ ﻛﺎن ﺗﻨﺎﺳﻲ ﺣﻘﻮق اﻹﻧﺴﺎن وازدراؤﻫﺎ ﻗﺪ‬
‫أﻓﻀﻴﺎ إﻟﻰ أﻋﻤﺎل ﻫﻤﺠﻴﺔ آذت اﻟﻀﻤﻴﺮ‬
‫ وﻛﺎن ﻏﺎﻳﺔ ﻣﺎ ﻳﺮﻧﻮ إﻟﻴﻪ ﻋﺎﻣﺔ اﻟﺒﺸﺮ‬.‫اﻹﻧﺴﺎﻧﻲ‬
‫اﻧﺒﺜﺎق ﻋﺎﻟﻢ ﻳﺘﻤﺘﻊ ﻓﻴﻪ اﻟﻔﺮد ﺑﺤﺮﻳﺔ اﻟﻘﻮل‬
.‫واﻟﻌﻘﻴﺪة وﻳﺘﺤﺮر ﻣﻦ اﻟﻔﺰع واﻟﻔﺎﻗﺔ‬
RLM を使った例
<fo:block>‫& )ﺿﺼﺶ( ﺿﺼﺶ‬#x200F;ENGLISH</
fo:block>
RLE を使った例
<fo:block>&#x202B;‫)ﺿﺼﺶ( ﺿﺼﺶ‬
&#x202C;ENGLISH</fo:block>
この二つはいずれも次のように表示される。
(‫ﺷﺼﺾ )ﺷﺼﺾ‬ENGLISH
fo:bidi-override を使っても同じことを指定できる。
次はアラビア語混じりの英語の例を紹介する。
‫ اب‬ab means either father or a father, and ‫ﺑﺎب‬
bāb either door or a door.
おわりに
Unicode と XML、XSL は多言語組版の世界を大きく
進行方向が曖昧になる時の指定方法
日本語や英語のような左から右に記述する文章の中
にアラビア語やヘブライ語のような右から左に記述す
る文字が混在することを BIDI(双方向性)という。
(4)FO
変えている。XSL Formatter は、世界のあらゆる言語を
高品位に組版できるという目標に向けて改良を続けて
いきたいと考えている。専門家の皆様の教えを請いた
い。
のデータの例では、Unicode の LRO(U+202D:続く文字列は左から右方向として扱う。)を使ってアラビア語の文字を
強制的に(入力順に)左から右に表示されるようにしている。組版後の表示順とは逆になっている。
- 14 -
‫‪主要言語別組版例‬‬
‫‪日本語‬‬
‫‪海に沈む島‬‬
‫‪ツバルは今‬‬
‫‪今、南太平洋に浮かぶ小さな島ツバルが、危機にさらされている。地球の温暖化で、最初に海に沈む島と想‬‬
‫‪像されている。1997 年京都で環境に関する会議が開かれ 2008 年から 2012 年の間に先進国全体の温室効果ガス‬‬
‫。‪の排気量を、1990 年の排気量と比較して 5%以上減らすことを義務つけた‬‬
‫‪温暖化防止対策‬‬
‫‪事項‬‬
‫‪事項‬‬
‫‪チェック‬‬
‫‪水を出しっぱなしにしない‬‬
‫‪テレビを付けっぱなしにしない‬‬
‫‪紙を再利用する‬‬
‫‪できるだけ車を使わず歩く‬‬
‫‪今、南太平‬‬
‫‪洋に浮かぶ小‬‬
‫‪さな島ツバル‬‬
‫‪が、危機にさ‬‬
‫‪ら さ れ て い‬‬
‫‪る。地球の温‬‬
‫‪暖化で、最初‬‬
‫‪に海に沈む島‬‬
‫‪と想像されて‬‬
‫‪いる。一九九‬‬
‫‪七年京都で環‬‬
‫‪境に関する会‬‬
‫‪議が開かれ二‬‬
‫‪〇〇八年から‬‬
‫‪二〇一二年の‬‬
‫‪間に先進国全‬‬
‫‪体の温室効果‬‬
‫‪ガスの排気量‬‬
‫‪を、一九九〇‬‬
‫‪年の排気量と‬‬
‫‪比較して五%‬‬
‫‪以上減らすこ‬‬
‫‪とを義務つけ‬‬
‫。‪た‬‬
‫‪ごみを減らす‬‬
‫‪エアコンの使用を減らす‬‬
‫‪チェック‬‬
‫‪ヘブライ語‬‬
‫האי הטובע בים‬
‫מה קורה ב"טובל"‬
‫בימים אלה‪ ,‬האי הקטן "טובל" אשר בדרום הפסיפיק‪ ,‬עומד בפני סכנה‪ .‬בעקבות התחממות כדור הארץ‪ ,‬נראה‬
‫שטובל הוא האי הקרוב ביותר לטבוע בים‪ .‬בשנת ‪ 1997‬נערכה בקיוטו ועידה שעסקה בנושאים הקשורים באיכות‬
‫הסביבה‪ ,‬ובה נקבע כי בין השנים‪ 2008-2012 :‬יש להוריד את שיעור פליטת הפחמן הדו‪ -‬חמצני במדינות‬
‫המתקדמות בלפחות חמישה אחוזים )בהשוואה לשיעור פליטת הפחמן הדו‪ -‬חמצני בשנת ‪.(1990‬‬
‫כדי למנוע את התחממות כדור הארץ‬
‫בדיקה‬
‫בדיקה‬
‫פריט‬
‫להפחית את השימוש במזגנים‬
‫לא להשאיר‬
‫דולקת כל הזמן‬
‫את‬
‫פריט‬
‫לייצר פחות אשפה‬
‫לחסוך במים‬
‫הטלוויזיה‬
‫למחזר נייר‬
‫להשתדל ללכת יותר‪ ,‬ופחות‬
‫להשתמש במכונית‬
‫‪- 15 -‬‬
アラビア語
・ アラビア語は右から左に書かれます。文字は単語中の、先頭、内部、終端で形が変わります。
‫اﻟﻐﻮص ﻓﻲ اﻟﺒﺤﺮ‬
‫ﻣﺎذا ﻳﺤﺼﻞ ﻓﻲ ﺗﻮﻓﺎﻟﻴﻮ اﻻن؟‬
‫ ﻣ ﻦ اﻟﻤﻌﺘﻘﺪ ﺑ ﺎن ﺗﻮﻓﺎﻟﻴﻮ ﺳ ﻮف ﺗﺼﺒﺢ اﻟ ﺒﻠﺪ اﻻول اﻟﺬي‬.‫ ﺗﻌﺘﺒﺮ ﺗﻮﻓﺎﻟﻴﻮ ﻣﻦ اﻟﺠﺰر اﻟﺼﻐﻴﺮة اﻟﺘﻲ ﺗﺘﺠﻪ ﻧﺤﻮﻫﺎ اﻻﻧﻈ ﺎر اﻟﻌﺎﻟﻤﻴﺔ‬،‫اﻻن‬
‫ وﻓ ﻲ ﻫﺬا اﻟﻤﺆﺗﻤ ﺮ ﺗﻢ اﻗ ﺮار ﺗﻘﻠﻴﻞ ﻛ ﻤﻴﺔ ﺛﺎﻧﻲ‬.‫ ﺗﻢ ﻋﻘﺪ ﻣﺆﺗﻤﺮ ﻓﻲ ﻣﺪﻳﻨﺔ ﻛﻴﻮﺗﻮ ﺣﻮل ﻣﺸﺎﻛﻞ اﻟﺒﻴﺌﺔ‬1997 ‫ ﻓﻲ ﻋﺎم‬.‫ﻳﻐﻮص ﻓﻲ اﻟﺒﺤﺮ‬
.1990 ‫ ﻣﻘﺎرﺗﻨﺎ ﺑﻌﺎم‬،2012 ‫ اﻟﻰ‬2008 ‫ ﺧﻼل اﻟﻔﺘﺮة ﻣﻦ ﻋﺎم‬%5 ‫( ﻓﻲ اﻟﺠﻮ ﺑﻨﺴﺒﺔ اﻛﺜﺮ ﻣﻦ‬CO2) ‫اوﻛﺴﻴﺪ اﻟﻜﺎرﺑﻮن‬
‫ﻟﻤﻨﻊ ارﺗﻔﺎع ﺣﺮارة اﻟﻌﺎﻟﻢ‬
‫اﻟﻔﻘﺮة‬
‫اﻟﻔﺤﺺ‬
‫اﻟﻔﻘﺮة‬
.‫اﻟﺘﻘﻠﻴﻞ ﻣﻦ اﻟﻘﻤﺎﻣﺔ‬
.‫اﻟﺘﻘﻠﻴﻞ ﻣﻦ اﺳﺘﺨﺪام ﻣﻜﻴﻒ اﻟﻬﻮاء‬
‫اﻻﻗﺘﺼﺎد ﺑﺎﻟﻤﺎء‬
.‫ﻋﺪم ﺗﺮك اﻟﺘﻠﻔﺰﻳﻮن ﻣﻔﺘﻮح‬
‫اﻋﺎدة اﺳﺘﺨﺪام اﻟﻮرق‬
‫اﻻﻋ ﺘﻤﺎد ﻋ ﻠﻰ اﻟﺴ ﻴﺮ ﺑ ﺪﻻ ﻣ ﻦ اﻟﺴ ﻴﺎرة‬
.‫ﺑﻘﺪر اﻻﻣﻜﺎن‬
‫اﻟﻔﺤﺺ‬
タイ語
・ タイ語は表音文字で、42 の子音と 32 の母音と声調符号で表されます。
เกาะที่กําลังจะจม
เกาะตูวาลู...
เกาะเล็กๆที่อยูทางใตของทะเลแปซิฟกกําลังอยูในภาวะอันตรายตามการคาดคะเนแลว เกาะตูวาลูจะเปนประเทศแรกที่จมหายไปใน
ทะเลจากสภาวะโลกรอน(GlobalWarming)จากการประชุมระดับโลกในดานปญหาสิ่งแวดลอมที่เกียวโตเมื่อปค.ศ.1997 ที่ประชุมไดมี
มติใหประเทศพัฒนาแลวทั้งหมดลดปริมาณการระบายสารคาบอนไดออกไซดออกสูบรรยากาศใหไดมากกวา 5% ในระหวางปค.
ศ.2008 ถึง ค.ศ.2012 เมื่อเทียบกับปริมาณของสารดังกลาวที่ระบายออกในปค.ศ.1990
การหลีกเลี่ยงสภาวะโลกรอน (Global Warming)
เครื่องหมาย
รายการ
เครื่องหมาย
รายการ
ลดการใชเครื่องปรับอากาศ
ลดปริมาณขยะ
ไมเปดโทรทัศนทิ้งไวโดยไมจําเปน
ไมเปดน้ําทิ้งไว
พยายามเดินแทนการใชรถยนต
นํากระดาษมารีไซเคิลใชใหม
- 16 -
繁体中国語
沈下大海的島嶼
現在的圖華路(Tuvalu)島
現在、浮在南太平洋上的小島圖華路濱臨于極大的危機。由于地球溫暖化的影響、它可能會成為第一個沈下
大海的島嶼。1997 年在日本京都召開的有關環境的會議上、就自 2008 年至 2012 年之間所有先進國家的溫室效應
氣體的排氣量、做出了履行與 1990 年排氣量相比至少減少 5%義務的規定。
溫暖化防止措施
檢查
事項
檢查
事項
少用空調
減少垃圾
不要將電視機開 不管
不要發生長流水現象
儘量步行不用汽車
紙張再利用
現在、浮
在南太平洋上
的小島圖華路
濱臨于極大的
危機。由于地
球溫暖化的影
響、它可能會
成為第一個沈
下 大 海 的 島
嶼。1997
年在日本京都
召開的有關環
境的會議上、
就自2008
年至2012
年之間所有先
進國家的溫室
效應氣體的排
氣量、做出了
履行與199
0年排氣量相
比 至 少 減 少
5%義務的規
定。
簡体中国語
沉下大海的岛屿
现在的图华路(Tuvalu)岛
现在、浮在南太平洋上的小岛图华路滨临于极大的危机。由于地球温暖化的影响、它可能会成为第一个沉下
大海的岛屿。1997 年在日本京都召开的有关环境的会议上、就自 2008 年至 2012 年之间所有先进国家的温室效应
气体的排气量、做出了履行与 1990 年排气量相比至少减少 5%义务的规定。
温暖化防止措施
检查
事项
检查
事项
少用空调
减少垃圾
不要将电视机开着不管
不要发生长流水现象
尽量步行不用汽车
纸张再利用
- 17 -
韓国語
바다 속으로 가라앉는 섬
투발루는 지금
남태평양의 조그만 섬나라인 투발루는 지금 바다에 잠길 위기에 처해 있다. 지구 온난 현상으로 인해 최초로
바다 속으로 사라질 것으로 보인다. 1997 년 교토에서 환경에 관한 회의가 열렸고, 이 회의에서 2008 년에서
2012 년 사이에 선진국 전체의 온실 효과를 일으키는 가스의 배기양을 1990 년의 배기양에 비해 5% 이상 감소
시키는 것을 의무화 하였다.
온난 현상 방지 대책
체크
사항
체크
사항
에어콘 사용을 줄인다
쓰레기를 줄인다
텔레비를 오래 켜두지 않는다
물을 절약한다
가능한 한 자동차를 이용하지 않고
걷는다
종이를 재활용한다
英語(The Chicago Manual of Style より抜粋)
13.2
<fo:block
hyphenate="true"
language="en">
によりハイフネー
ションを指定。
This chapter will describe some of the common problems that arise in
setting technical material and will suggest ways in which these problems can be solved or circumvented. It is intended for authors unfamiliar with techniques of typesetting and for copyeditors not blessed with
a mathematical background. For more on typesetting and printing in
general see chapter l9.
13.3
The advent of sophisticated phototypesetting systems, including both
photomechanical and CRT systems, has revolutionized the setting of
mathematical copy in recent years. Many expressions and arrangements of expressions that formerly were impossible or very difficult to
set are now relatively easy to achieve. Not every manuscript involving
mathematical expressions is composed by such an advanced system,
however, and authors and editors should have some idea what to expect
of the particular typesetting system employed for the manuscript in
hand.
13.4
Typesetting systems can be thought of as existing on four levels of sophistication in mathematical capabilities.
- 18 -
資料集
Extensible Stylesheet Language (XSL) Version 1.0 W3C
Recommendation 15 October 2001
http://www.w3.org/TR/2001/REC-xsl-20011015/
CSS3 Text Module W3C Candidate Recommendation 14
May 2003
http://www.w3.org/TR/2003/CR-css3-text-20030514/
Antenna House による XSL 拡張仕様
http://www.antenna.co.jp/XML/axf-extension/axfextension.htm
Unicode
http://www.unicode.org/
Internationalized Text Formatting in CSS and XSL
http://homepage.mac.com/thgewecke/.Public/
SZillesPaper.pdf
UniPad
http://www.unipad.org
UnicodeFonts
http://www.alanwood.net/unicode/fonts.html
Office 2003 XML Reference Schemas
http://www.microsoft.com/office/xml/default.mspx
FOP
http://xml.apache.org/fop/index.html
TeX のハイフネーション辞書の入手先
http://www.ctan.org/tex-archive/language/hyphenation/?
action=/tex-archive/language/
World Script
http://www.omniglot.com
- 19 -
Fly UP