2009年12月26日土曜日

OS間の文字コード互換性(Win, Mac, Linux)

最近 Mac を使い始めたのもあって、Win と Linux 間だけでなく Mac も含めてOS間の互換性を調べていましたが、文字コードについてはそれぞれが微妙に違うものを採用していたりして、本当に面倒くさいことがわかりました。今回はこのあたりをちょっとまとめてみます。

(Mac で圧縮した zip ファイルを Ubuntu で解凍した際のファイル名の文字コード問題を修正する機会があったので、その方法をこちらのページに載せておきました)

OS文字コード改行コード
Windows基本は CP932(Shift-JIS に Microsoft の独自仕様を足したもの)、最近は UTF-8・UTF-16 も。
カーネルや .NET 内部は UTF-16 と思われる
CR+LF
Linuxシステムに依るが、主に UTF-8、EUC-JP 等LF
旧 MacMacJapanese
(Shift-JIS に Apple の独自仕様を足したもの)
CR
Mac OS Xアプリケーションは MacJapanese

カーネルはおそらく UTF-8 か UTF-16

ファイルシステムは UTF-16 NFD(Mac 独自)
LF
※Mac は詳しくないのですが、全て 10.5 (Leopard) で確認しています

このようにしてみると、一般的なものにちょっと独自仕様を足したものが目に付きますね。Mac も Win も、Shift-JIS を基本にしているのでお互いにデータのやり取りはできますが、例えば Mac で作成した標準テキストを Win に持っていくと、文字は読めますが改行コードが LF と CR+LF で異なるために改行がバグります。また、一部のお互いの独自仕様が絡む文字が含まれるとやり取りができなくなる可能性があります。

Mac に関しては非常に汚いですね。Mac OS X までは Shift-JIS を独自拡張した MacJapanese ベースに改行コードとして CR を使ってましたが、Mac OS X からは UNIX ベースになったため改行コードが LF に変わっています。さらに、OS X のシステムも MacJapanese をデフォルトのエンコーディングとしながら、内部的には UTF-8 を利用し、ファイルシステム(HFS+)に NFD 正規化方式を利用した UTF-16 と全部で3種類利用しているようです。

正規化方式の話が出ましたが、「UTF-8」等と書くとほとんどが一般的な NFC 正規化方式を意味し、NFD 方式は Mac ぐらいでしか利用されていません。NFC は濁点や半濁点、ドイツ語等に見られるウムラウトの文字を含めて一字とするのに対して、NFD は「が」→「か」+「゛」のように分離して表現します。Windows や Linux では NFD に対応しているソフトは少なく、トラブルの原因になりかねません。つまり、濁点や半濁点を含むファイル名を直接テキスト等に書き出すと NFD として書き出され、一般的な UTF エディタ等では開けなくなったり、バグったりします。なので、例えばターミナルから

% ls > dirindex.txt

として書き出すと、UTF-8 NFD(UTF-8-MAC というやつです)で書き出されてしまい、Windows の UTF 対応エディタから開いた場合エラーとなる場合があります。一方で、Mac のテキストエディットでは UTF-8-MAC の文字も UTF-8 のファイルとして読み込めば問題なく表示され、どちらかを意識することなく編集できます。逆に言うと、そこに NFD が混じっていても全く区別がつかないので、Win 等に持っていく場合は注意が必要です。(ちなみに、UTF-8-MAC のテキストを開き、NFD の部分を消して同じ文字を打ち直すとその部分だけ NFC になりました)

ただ、Mac・Linux 間はどちらも UNIX ベースということもあって、Mac のデフォルトエンコーディングの MacJapanese を UTF-8 として、かつ日本語のファイル名を利用しなければ、UTF-8 ベースの Linux ディストリビューションと文字コードに関して完全互換になりそうですね。

しかし、様々な文字コードにソフトを対応させたり文字化け解消や適宜変換をしたりと、世界中でかなりの労力が裂かれてると思うのですが、いい加減統一する方向に向かないんですかね。システムの肥大化や文字化け等のトラブル、OS間の受け渡しコストとか、統一してしまえば全部解決する気がするんだけどなぁ…。UTF は全世界の文字をほぼ全部表現できることを目指してるので、もう素直に全部 UTF-8 あたりに統一すればいいのに。

…まぁ、色々と大人の事情があるんでしょうね。

2009年12月7日月曜日

[XREA] PHP による .htpasswd の生成

今回は apache で会員用ページに認証をかける時、XREA/coreserver のコントロールパネルの .htpasswd の生成ツールと同じパスワードを出力する php スクリプトの紹介です。このスクリプトを使うことで、php のスクリプトで .htpasswd を作成できるようになります。

色々と調査してみたのですが、どうやら XREA/coreserver の .htpasswd 生成スクリプトでは標準 DES を用いているようですね。他の認証方式としては md5 等もありますが、同じ入力文字列に対して得られる出力結果(ハッシュ値)が固定なので、出力結果を比較することで同じパスワードが利用されているかどうかがばれてしまいます。一方、DES には平文に加え、salt(調味料ぐらいの意味?)というパラメータの組で一意の暗号化結果が得られるようになります。これにより、同じパスワードを暗号化しても、その都度 salt を変更すれば同じ出力結果になることを避けることができます。

標準 DES を用いた場合、平文に2文字の salt を与えます。また、出力結果の始め2文字にも salt 自身が示されます。例えば、XREA/coreserver でパスワード "a" を暗号化した場合、

aiDm98/1yAB/6

を得ました。この中の、始めの "ai" が salt に該当し、元のパスワード "a" と、salt "ai" の二つの組み合わせで暗号化すれば上記の "aiDm98/1yAB/6" が得られることになります。

php でこの標準 DES による暗号化を行うには、少なくとも XREA/coreserver 上では、$pass を平文、$salt を2字の文字列として

$r = crypt($pass, $salt);

とすれば、戻り値として暗号化結果が得られます。なお、php の crypt 関数は引数の状態(数や文字数)やオペレーティングシステムによって挙動が違うようなので、他の環境で完全に動作するかは未確認です。以上から、XREA/coreserver の出力結果を PHP からも再現したい場合、

echo crypt("a", "ai");

とすることにより、XREA/coreserver の .htpasswd 生成ツールと同じ結果が得られます。実行してみると、

aiDm98/1yAB/6

きちんと同じパスワードが得られていることが確認できました。