[OSASK 5232] Re: 文字のエンコード

From: "I.Tak." <g240845 !Atmark! mail.ecc.u-tokyo.ac.jp>
Date: Mon, 28 Oct 2002 12:14:56 +0900

　こんにちは、I.Tak.です。

From: Hidemi KAWAI <kawai !Atmark! imasy.org>
Subject: [OSASK 5218] 文字のエンコード(Re: gcc移植計画).
Date: Sat, 26 Oct 2002 08:47:14 +0900

>  UTF-8 ： 128 + 2048 + 65536 = 67712
>    （とりあえずややこしいサロゲートを使わないと仮定）

　UTF-8の2バイト、3バイトコードというのは0x0080以降と0x0800以降に
なっているらしいので、UTF-8でも文字数は65536までですよ。

>   ということで、僕はUTF-8が結構気に入りました。特にgccの移植とい
> うことを念頭に考えると、ファイルシステムセーフ性を無視するわけに
> は行きません。また僕は文字化け耐性も重要な要素だと勝手に思ってい
> るので、ISO 2022系（EUC含む）は好きじゃないです。・・・シフトJIS
> なんて論外です。

　UTF-8のエンコードが良いのは分かりましたけど、UnicodeはCJKを統合
しているのでちょっとまずいことになります。中国語と日本語を混ぜると
日本語を簡体字で書くか中国語を日本漢字で書かないといけません。
本当に国際化しているか微妙で、私は地域化ではないかと思っています
(したがってUnicodeは好きになれない)。文字集合の話ですが(^^;;

　気の早い話ですが、実際にSKEを使うとなると文字集合をどうするかが
問題になりますね。

>   gccの移植に当たっては、SKEに特化して移植するつもりはありません
> が、SKEでもすんなり通るようにしたいです。シフトJISには配慮しない

　普通EUCを飛ばす処理を書けばUTF-8もSKEも難なく飛ばせるから大丈夫
でしょうね。iso-2022のエスケープを考えると(コンパウンドテキストとか)
途端に面倒になると思います。
　元のままでもSKEは通るはずですし、もしかしたらそっとしておいたほう
がいいんじゃないかと(^^;

> う。シフトJISが重要な場合は移植していない普通のgccを使ってもらう
> というのを現在の方針とします。introシリーズもOSASK上でコンパイル
> できるようになったら、順次EUCかSKEにしていきます（SKEにする場合
> 、teditcも対応させます）。

　MinGWでaskaをコンパイルするときは一部の文字をエスケープしていた
はずなので普通のgccはシフトJISに対応していませんよ。cpp is dead.と
あったページでも対応しないエンコードの代表として出されていましたし。


I.Tak. <g240845 !Atmark! mail.ecc.u-tokyo.ac.jp>
http://user.ecc.u-tokyo.ac.jp/~g240845/

前（投稿順）： [OSASK 5231] Re: gcc移植計画. Hidemi KAWAI
次（投稿順）： [OSASK 5233] obj2bimt I.Tak.

前（スレッド順）： [OSASK 5218] 文字のエンコード(Re: gcc移植計画). Hidemi KAWAI
次（スレッド順）： [OSASK 5234] Re: 文字のエンコード Hidemi KAWAI