文字コードの基礎講座

第12回東海スクールネット研究会
1996.10.19 東海スクールネット研究会 於:愛知県立小牧高等学校
同朋学園本部事務局経理課 河邊憲二

電子メールが読めない文字になっている場合、たいていは文字コードが正しく解釈されていなかったり、符号化されているデータをデコードしていないといったことが考えられます。そこで、ここではそうしたときに必要になる文字コードや符号化などについての知識を簡単にまとめてみました。なおここで説明に使っているWindows画面は、Microsoft社の日本語版Windows95とJustsystemのATOK9の画面から引用しました。

  1. 文字コードについて
  2. *関連情報は RFC1468にありますので、そちらを参照されることをお勧めします。 (RFC1468:Network Working Group Request for Comments:1468)

  3. 外部とのメール交換と文字コードについて
  4. パソコン通信では、決められたホストへ接続するため、電子メールも決まったホストを通してやりとりされます。したがって、パソコンで使われるSHIFT-JISが通るように通信路を1キャラクタを8ビットに設定してあればSHIFT-JISでそのまま電子メールの交換ができます。しかしインターネットでは、メールはいろいろな種類のマシン、主にUNIXを通ります。したがって、ISO-2022-JPにしたがって1キャラクタ7ビットに変換しないと、SHIFT-JISで書かれたメールなどは正しく読めるように伝わりません。また、半角カタカナもEUCではサポートしないこともあるので伝わらないと考えた方がよいでしょう。ここで通信環境の問題と関連が出てきます。パソコン通信を初めてする場合、通信ソフトで通信パラメータのキャラクタビット長を8ビットに指定します。これはSHIFT-JISを扱うためです。ASCIIは1バイト、JIS,SHIFT-JIS,EUCはともに2バイトで文字を表現しますが、EUCとSHIFT-JISは1バイトめの8番めの最上位ビットが「1」で、EUCは2バイトめの8番めも「1」になります。しかし、JISでは8番めは必ず「0」となっています。通信ビット長が8ビットの場合は、この8番めの違いをきちんと区別できるので問題はないのですが、外国のパソコン通信ではASCIIで情報を書くので通信パラメータに7ビットを用いています。この通信路を通ってきた場合、8ビットめはデフォルトで「0」が入ってしまいます。送るときも8ビットめは無視されます。このことから7ビット長の通信では漢字は7ビットのJISコードしか通らないことになります。そのため国内のパソコン通信はたいてい「8ビットで漢字コードはSHIFT-JIS」に通信パラメータを指定するのです。漢字を使わない外国のパソコン通信などは「7ビットでASCII文字を使う」になります。では7ビットJIS漢字なら大丈夫かというと、漢字であることを指定するエスケープシーケンスの解釈が必要になります。これが無視されると漢字として解釈できないのです。さらに、DOS,WINDOWSとUNIXとMACとでは改行コードも違っています。

    使用機種改行コード
    MS-DOS,WINDOWS0D0A
    UNIX0A
    Macintosh0D

    したがって、同じ漢字コードのテキストでも機種によっては乱れたりすることも考えられます。通常は、パソコン通信なら通信ソフト、インターネットメールならメールソフトで漢字コードなどの設定をして使うことになります。これは通信経路の設定に相当します。この設定が正しければ、たいていは正常に読み書きできますが、この設定が間違っていたりすると読めないメールとなってしまいます。さらに通信経路を通ったコードが、漢字として相手に解釈されるためには、相手のマシンも送り手と同じ文字コードを解釈できるようになっていないといけません。ここで、外国のマシン環境で漢字の入ったメールを読むにはという問題が出てきます。ASCII以外の文字を使うのはなにも日本の漢字だけに限ったことではないのです。2バイトコード文字は他の国にもあります。漢字でも中国漢字と日本漢字では違います。

  5. コード変換について


  6. 以上をまとめると電子メールを解読するのに必要な情報としては
    1.漢字コード 2.符号化 3.圧縮 4.アーカイブ
    の4つの情報です。このうち3と4は専用のソフトを使って圧縮展開をします。使用機種で動作するソフトを使えば解読ができます。1と2はメールサーバーやソフトの設定と関係します。WINDOWS95では、拡張文字コードセットを変更できます。



    相手が対応していなかったり、サーバーで漢字コード変換をしていたり、ソフトの設定が間違っていたりすると解読ができないことがあります。
    一般にテキストなら読めないメールでも正しく解釈できるように変換すればたいていは読めます。そういう変換ができるソフトを利用することをお勧めします。
    WINDOWS95では例えばWZEditorなどは、EUC,JISをSHIFT-JISに変換したり、MACやUNIXのテキストも読み書きできる上にバイナリの編集も可能なので便利です。メモ帳などと違いエスケープシーケンスも正しく読みとります。読めないメールをファイルに落としてWZで読み込めば正常に読めるように自動的に変換します。WZEditorについてはhttp://www.villagecenter.co.jp/を参照して下さい。
    画像やサウンドなどはたいてい拡張子で区別しますので、ファイルタイプを登録してビューワーを関連づけしておけばメールに添付してあるデータをExchangeから開くことができます。




K.KAWABE <kawabe@doho.ac.jp>
Created: Oct.19,1996, Updated: Oct.19,1996