[Mew-dist 05904] Re: header encoding question

Kazu Yamamoto ( 山本和彦 ) kazu at example.com
1998年 8月 13日 (木) 12:09:24 JST


From: Atsushi Onoe <onoe at example.com>
Subject: [Mew-dist 05902] Re: header encoding question
Date: Thu, 13 Aug 1998 10:44:06 +0900

> うーん。わかりません。
> 強いて言うと、iso-2022-jp-2 ってちょっとインチキっぽいかなぁ。
> 中国語とフランス語がくっついていたらどうするんだろうとか。

うーん。

> 	3文字以上じゃインチキすぎるか。

うーん。

僕、知ってます。結局ぜんぶオプションで制御できるようにすると、まるくお
さまるんでしょう? あぁ.

昨日睡魔に襲われながら考えたアルゴリズムは、

(1) 各フィールドから符号化すべき部分を抜き出す
	- Subject: なら text 全体
	- Structured field なら phrase と comment

	e.g.  "hoge hageほげ h<a>ge geho げほ"

(2) white-space で囲まれた ASCII 部分を区切りと考えて分割。
	- 正規表現で実装できるから楽勝
	- 両端は white-space と考える
	- かならず、<符号化必要> <符号化不要> がこうごに現れる
	- 必要なら "  " も考慮する

	e.g. "hoge " "hageほげ h<a>ge" " geho " "げほ"
	     <不>    <要>             <不>     <要>

(3) <符号化必要> の部分を符号化
	- (仮定) ほとんどの文字コードは ASCII も表現できる

(案1) <符号化必要> 全体を符号化
	- 一番現実的か?

	e.g "hageほげ h<a>ge" -> =?iso-2022-jp-2?B?....?=


(案2) がんばる

(3.1) 文字コードごとに分割。
	- このレベルでは white-space は単なる ASCII である

	e.g. "hage" "ほげ" " h" "<a>" "ge"

(3.2) ASCII を前後の "Q" encoding すべき文字コードにくっつける (おそらく MUST)

	e.g. "hage" "はげ" " h<a>ge"

(3.3) 残りの ASCII を "B" encoding すべき文字コードにくっつける (オプション?)
	- 長い ASCII は残す?

	e.g. "hageはげ" " h<a>ge"

(3.4) それぞれを符号化

	e.g. =?iso-2022-jp?B?....?= =?iso-8859-1?Q?....?=


問1: (案2) でがんばるとどれくらい嬉しいか? がんばる必要があるか?

問2: たとえば koi8-r って、"B" なの "Q" なの?

--かず@案1 なら美しいプログラムを提供できます



Mew-dist メーリングリストの案内