Comments
Description
Transcript
文字コードについて
ZTV技術コラム 第 51 回 ホームページや電子メールのご利用中に文が記号の羅列になってしまい、判読不能な状態に遭遇したことはありませんか?これは 「 文字化け」 の発生によるもので、コンピュータ上で「 文字コード」 の処理がうまくいっていないことに起因する場合が多くみられます。 コンピュータで扱う文字は、種類によって主に使われる文字コードが異なります。インターネットの世界では様々なコンピュータで作成 された文書が存在するため、文字化けに遭遇しやすくなっています。何故文字化けが発生するのか、仕組みをみていきましょう。 ■ 文字が表示される仕組み 「 計算機」 と呼ばれていたように、コンピュータは本来数値を 扱う機械でした。その後、数値を割り当てることで文字列を表現 する方法が考え出されました。この割り当てルールを「 文字コー ド」 と呼びます。 文字コードは、「 文字集合」 と「 符号化方式」 という要素で成り立 っています。文字集合は、使用する文字を定めたもので、これら の文字をどのコード( 数値) に割り当てるかを決めているのが符 号化方式です。 例えばアルファベットの文字コードとして標準的に用いられて いる「 ASCII( アスキー) コード」 は、文字集合としてA∼Z、a∼z、 その他記号などを含めて全 128 個が定義されています。 そして、「 A」 は「 41」 、「 B」 は「 42」 といったように、それぞれの文 字に符号が決められています。 41 42 A B ■ 文字コードの種類 先述の通り、機種によって主に使用される文字コードは異なります。インターネット上においてよく使われる日本語関連の文字コードは 以下の 4 通りがあります。 文字コード名 特 徴 JIS( ジス) ISO2022-JP とも呼ばれます。主に電子メールの文字コードとして使われています。 Shift_JIS( シフトジス) マイクロソフト社が JIS コードをベースに開発したコードです。Windows や Macintosh など、一般的な PC で広く使われています。 EUC-JP Unicode( ユニコード) EUC( Extended UNIX Code) の日本語版で、UNIX 系 OS においてよく使われています。 世界中の文字を統一した文字コードで表現するために作られたコードです。 その他、中国語( 簡体字) で使われる「 GB2312」 や、あらゆる文字を収録する「 TRON コード」 など、多くの文字コードが存在しています。 ■ 文字化けの発生 同じ文字であっても、符号化方式が異なれば違うコードによっ て表されることがあります。例えば、「 あ」 は Shift_JIS コードでは 「 82 a0」 ですが、EUC-JP では「 a4 a2」 です。従って、Shift_JIS で 保存された文書をEUC-JP で読み込むと、 「 82 a0」 は「 あ」 に割 り当てられていないため、正しく表示することができず、文字化 けが発生します。 ■ 文字化けの対処法 文字化けの文書に遭遇した場合、対応する文字コードを指定して読み直すことで改善 される可能性があります。 <ホームページの場合> 一般的なブラウザでは、自動的に文字コードを認識してくれますが、HTML の指定が 間違っていたりすると文字化けが発生します。Internet Explorer7 の場合、 [表示]( あるいは[ページ]) →[エンコード]で文字コードを指定することができます。 <電子メールの場合> 電子メールも同様です。Outlook Express6 の場合、[表示]→[エンコード]で指定することができます。 お使いのソフトが複数の文字コードに対応しているとは限りません。対応している場合は、文字コードの指定方法を知っておくと、不意 に文字化けに遭遇しても、対処が可能です。 ( 2008/3/27)