[Mew-dist 05904] Re: header encoding question
Kazu Yamamoto ( 山本和彦 )
kazu at example.com
1998年 8月 13日 (木) 12:09:24 JST
From: Atsushi Onoe <onoe at example.com>
Subject: [Mew-dist 05902] Re: header encoding question
Date: Thu, 13 Aug 1998 10:44:06 +0900
> うーん。わかりません。
> 強いて言うと、iso-2022-jp-2 ってちょっとインチキっぽいかなぁ。
> 中国語とフランス語がくっついていたらどうするんだろうとか。
うーん。
> 3文字以上じゃインチキすぎるか。
うーん。
僕、知ってます。結局ぜんぶオプションで制御できるようにすると、まるくお
さまるんでしょう? あぁ.
昨日睡魔に襲われながら考えたアルゴリズムは、
(1) 各フィールドから符号化すべき部分を抜き出す
- Subject: なら text 全体
- Structured field なら phrase と comment
e.g. "hoge hageほげ h<a>ge geho げほ"
(2) white-space で囲まれた ASCII 部分を区切りと考えて分割。
- 正規表現で実装できるから楽勝
- 両端は white-space と考える
- かならず、<符号化必要> <符号化不要> がこうごに現れる
- 必要なら " " も考慮する
e.g. "hoge " "hageほげ h<a>ge" " geho " "げほ"
<不> <要> <不> <要>
(3) <符号化必要> の部分を符号化
- (仮定) ほとんどの文字コードは ASCII も表現できる
(案1) <符号化必要> 全体を符号化
- 一番現実的か?
e.g "hageほげ h<a>ge" -> =?iso-2022-jp-2?B?....?=
(案2) がんばる
(3.1) 文字コードごとに分割。
- このレベルでは white-space は単なる ASCII である
e.g. "hage" "ほげ" " h" "<a>" "ge"
(3.2) ASCII を前後の "Q" encoding すべき文字コードにくっつける (おそらく MUST)
e.g. "hage" "はげ" " h<a>ge"
(3.3) 残りの ASCII を "B" encoding すべき文字コードにくっつける (オプション?)
- 長い ASCII は残す?
e.g. "hageはげ" " h<a>ge"
(3.4) それぞれを符号化
e.g. =?iso-2022-jp?B?....?= =?iso-8859-1?Q?....?=
問1: (案2) でがんばるとどれくらい嬉しいか? がんばる必要があるか?
問2: たとえば koi8-r って、"B" なの "Q" なの?
--かず@案1 なら美しいプログラムを提供できます
Mew-dist メーリングリストの案内