[Mew-dist 04056] Re: charset=shift_jis

Kazumasa Utashiro utashiro at example.com
1998年 3月 2日 (月) 17:17:46 JST


From: SAKAI Kiyotaka <ksakai at example.com>
Subject: [Mew-dist 04050] Re: charset=shift_jis
Date: Mon, 2 Mar 1998 10:03:12 +0900

> > ただ、またまたコンテキストを追わずに ctext が何かも理解せずに、気になっ
> > た点を言うと、
> 
> X の Compound Text です。
> 
> img の方の議論で、imls の出力は X の Compound Text で出力する、ただし
> JISX 0208 は ESC-$-(-B 以外に ESC-$-B も可ということになりました。

どうもありがとうございます。一応 compound text であるくらいは知ってい
たんですが、それが何かをよく理解していないので、知らないのと同じです :-)

わからないというだけでも無責任なので、『マルチリンガル環境の実現』を読
んで、最低限の知識だけ仕入れました。

> > 出力に ESC-(-B-ESC-)-I という一見冗長に見えるコードが現れるのは、それ
> > が正しいのか、気にする必要がないのか、とにかく意図した結果なんですよね。
> 
> ESC-(-B が us-ascii を GL に destination するのに対して、ESC-)-I は
> JISX 0201 を GR に destination するので、冗長ではないと思います。

なるほど (よかった、「一見」と書いておいて :-)。

とすると、仮名が終わった後で G1 に Latin-1 を designate して、次にまた
仮名が出て来た時に X0201 を designate するのが冗長になるわけですが、こ
れは気にしないか、その方がいいという判断ですね。

ただ、漢字と仮名が繰り返し出て来る文章の場合は、

	ESC-$(B ...漢字... ESC-)I ...仮名... ESC-A ...漢字... ESC-(B

としたい気がします。しかし「漢字-仮名-ASCII」と続いたら、何処で G0 を 
ASCII に戻すのか... この辺が正規化が難しいという結縁なんですね。

単なる中間コードとして割り切るのであれば、全然気にしません。

--utashiro



Mew-dist メーリングリストの案内