タグ

機種依存文字に関するtrappleのブックマーク (3)

  • hide-k.net#blog: perlで機種依存文字を取り扱う

    「D-5 出張版:機種依存文字入りのShiftJISを扱う」を読んで大変タイムリーだったので実験して見ました。 はてぶのコメントでmiyagawaさんが decode("cp932", $buf) でいい気が とおっしゃられているので こんなんで実験してみました。 JISやEUCを取り扱うのでEncode::Unicode::Japanseを使って見ました。 取り扱うtext.txtは機種依存文字や半角カタカナを含んだこんなファイル。 #!/usr/bin/perl use strict; use warnings; use Encode::Unicode::Japanese; use Encode qw/encode decode/; _encode (qw/text.txt shift_jis sjis-utf8.txt utf8/); _encode (qw/text.txt shi

  • 文字コードとエンコーディング (2)

    機種依存文字とは JIS X 0208 には未定義領域が存在します。ここに ベンダが勝手に文字を定義したものを機種依存文字と言います。 機種依存文字の種類と文字コードについては http://www2d.biglobe.ne.jp/~msyk/charcode/kisyuizon/index.html が便利です。特に、こちらには Windows 環境がなかったので、 とても参考になりました。 半角カナとは 半角カナとは、JIS X 0201 の右半面にあるカタカナ文字です。 Shift_JIS、EUC-JP では、半角カナを使っても構いません。 しかし、ISO-2022-JP では使ってはいけないのです。 再度確認しておきますが、JIS X 0208 や JIS X 0201 などは 文字の番号を決めている文字集合です。一方、Shift_JIS・ EUC-JP、ISO-2022-JP な

  • AOTAKA.jp = 日本の文字コードについて (1)通信で嫌われる文字

    の文字コードについて1 通信で使って良い文字、悪い文字 (JIS文字、環境依存文字・機種依存文字) メールを送信するときに相手が全く見られなかったり、全く別の意味の記号や文字に置き換わってしまえば、メールを送る意味がありません。しかし現実にはそのような現象が発生してしまいます。この現象を引き起こす文字のことを一般に「機種依存文字」あるいは「環境依存文字」といいます。 自分の機械の機種依存文字をきちんと把握し、決して使わないようにすることはネットワーカーの常識である。 一般的に広く使える文字 日工業規格(JIS)では情報交換用文字が定められています。歴史的に電子機器ではこの規格をシステムの事情に合わせてカスタマイズして利用していることがほとんどです。よって基となるJISに則った文字は多くの機械で利用できると言えます。 JIS X0201 Latin 半角英数字(ASCII文字) 「半

  • 1