[Mew-dist 05904] Re: header encoding question

1998年 8月 13日 (木) 12:09:24 JST

From: Atsushi Onoe <onoe at example.com>
Subject: [Mew-dist 05902] Re: header encoding question
Date: Thu, 13 Aug 1998 10:44:06 +0900

> うーん。わかりません。
> 強いて言うと、iso-2022-jp-2 ってちょっとインチキっぽいかなぁ。
> 中国語とフランス語がくっついていたらどうするんだろうとか。

うーん。

> 	3文字以上じゃインチキすぎるか。

うーん。

僕、知ってます。結局ぜんぶオプションで制御できるようにすると、まるくお
さまるんでしょう？ あぁ.

昨日睡魔に襲われながら考えたアルゴリズムは、

(1) 各フィールドから符号化すべき部分を抜き出す
	- Subject: なら text 全体
	- Structured field なら phrase と comment

	e.g.  "hoge hageほげ h<a>ge geho げほ"

(2) white-space で囲まれた ASCII 部分を区切りと考えて分割。
	- 正規表現で実装できるから楽勝
	- 両端は white-space と考える
	- かならず、<符号化必要> <符号化不要> がこうごに現れる
	- 必要なら "  " も考慮する

	e.g. "hoge " "hageほげ h<a>ge" " geho " "げほ"
	     <不>    <要>             <不>     <要>

(3) <符号化必要> の部分を符号化
	- (仮定) ほとんどの文字コードは ASCII も表現できる

(案1) <符号化必要> 全体を符号化
	- 一番現実的か？

	e.g "hageほげ h<a>ge" -> =?iso-2022-jp-2?B?....?=

(案2) がんばる

(3.1) 文字コードごとに分割。
	- このレベルでは white-space は単なる ASCII である

	e.g. "hage" "ほげ" " h" "<a>" "ge"

(3.2) ASCII を前後の "Q" encoding すべき文字コードにくっつける (おそらく MUST)

	e.g. "hage" "はげ" " h<a>ge"

(3.3) 残りの ASCII を "B" encoding すべき文字コードにくっつける (オプション？)
	- 長い ASCII は残す？

	e.g. "hageはげ" " h<a>ge"

(3.4) それぞれを符号化

	e.g. =?iso-2022-jp?B?....?= =?iso-8859-1?Q?....?=

問1: (案2) でがんばるとどれくらい嬉しいか？ がんばる必要があるか？

問2: たとえば koi8-r って、"B" なの "Q" なの？

--かず＠案1 なら美しいプログラムを提供できます