[mew-dist 22552] Re: http://www.mew.org/release/info/ の文字化け
Shun-ichi TAHARA ( 田原 俊一 )
jado at example.com
2002年 12月 11日 (水) 11:17:29 JST
From: Kazu Yamamoto (山本和彦) <kazu at example.com>
Message-Id: <20021211.104029.39015933.kazu at example.com>
> > そういえば大昔、EUCやSJISだと自動推測に失敗しやすいので、HTMLはJISで書
> > け、みたいな話を聞いたことがありますね。
>
> これは「日本語」の自動判定という意味においてのことですか?
そうです。まだ国際化とかあまり考えられていなくてMIMEも一般的じゃなかっ
た大昔ですね。
> でも、日本語という制約があるなら、100% に近い確率で EUC-JP と
> Shift_JIS を判定できると思いますよ。なんといっても、「ひらがな」の部分
> は、両者で重ならない領域に割り当てられていますから。
それはわかります。
以前、Webブラウザは、高速化のためにHTMLの最初の方だけ見て判定している、
という話を聞いたことがあります。ファイルの先頭の方に、コメントで特定の
漢字(SJISでもEUCでも、もう一方のではありえないコードを振るような)の文
字列を入れておく、っていうアヤシゲな裏技が存在するらしいですが、それは
このあたりを突いているのでしょう。
で、さらに問題をややこしくしているのは、SJISで、JISx0201(俗に言う『半
角』)カタカナが混入している場合ですね。less でも時々間違えてくれます。
# もちろんファイル全部を見ればまず間違えないんでしょうけど
思うにIEは、半角カタカナを想定したSJISよりの判定基準を持ってるんじゃな
いかと思ってます。それで EUC のテキストを低くない確率でSJISと誤認して
いるのかなとか。
_______________________________
田原 俊一 jado at example.com, shunichi_tahara at example.com
http://flowernet.gr.jp/jado/
FingerPrint: 16 9E 70 3B 05 86 5D 08 B8 4C 47 3A E7 E9 8E D9
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
Mew-dist メーリングリストの案内