タグ

unicodeに関するkura-2のブックマーク (5)

  • コマンドプロンプトでUTF-8の文字を表示する - Perl入門ゼミ

    PerlWindows この方法では文字が正しく描画できないようです。(maeyanさんの記事)。 わたしの環境でも駄目でした。 手順 コマンドプロンプトのフォントの変更 コマンドプロンプトの文字コードの変更 ショートカットから文字コードの自動設定を行う。 Windowsのバージョン Windows XP Home Edition Version 2002 Service Pack 2 で行いました。 1. コマンドプロンプトのフォントの変更 コマンドプロンプトを立ち上げる→タイトルバー右クリック →プロパティ→フォントから"MS ゴシック"を選択する。 フォントを"MS ゴシック"に変更します。MS ゴシックは、Unicodeに対応するすべての文字を正しく表示できるわけではないですが、一応ユニコードに対応しています。日語や飾り文字を含む文字を表示することができます。 2. コマン

    コマンドプロンプトでUTF-8の文字を表示する - Perl入門ゼミ
  • UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ

    UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ 2008-05-01-3 [Programming] UTF-8 の全角ハイフン(便宜上こう呼びます)を Perl の正規表現でマッチさせようとしてはまりました。 全角ハイフンってのは「−」です。 やろうとしたことは、テキストファイル(UTF-8)を読み込んで、 その中の全角ハイフンを半角ハイフンに変換するという作業。 Perl スクリプトはこんな感じ。 use utf8; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; while (<>) { s/\p{Hyphen}/-/g; # または s/−/-/g; print; } 入力「12−234−5」に対して、 出力「12-234-5」を想定。 しかし一部の全角ハイフンだけが半角

    UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ
  • Unicode - 似た文字同士にご用心 : 404 Blog Not Found

    2008年05月02日04:00 カテゴリLightweight Languages Unicode - 似た文字同士にご用心 後者はハイフンでなくてマイナス記号でんがな。 [を] UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ で、元のテキストファイルの全角ハイフンを「od -t x1」 で見てみると「ef bc 8d」と「e2 88 92」の2種類が混じっていました。 前者は「\p{Hyphen}」にマッチするのですが後者はダメ。 まあ原因は分かったので、前処理でバイナリ置換して解決しました。 で、紛らわしそうなのを名前のHYPHENとMINUS SIGNでgrepするとこんな感じになる。 egrep '(HYPHEN|MINUS SIGN)' /usr/local/lib/perl5/5.10.0/unicore/Name.pl -002DHYPHEN-MI

    Unicode - 似た文字同士にご用心 : 404 Blog Not Found
  • Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改メ tokuhirom’s blog

    Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

  • ■UTFとは何か■

    最近unicodeに対応したソフトが増加してくるにつれ、用語の混乱も一部には見られるようになってきました。そこで特に触れることの多い、UTF-7,UTF-8,UTF-16 についてここで少し取り上げておきたいと思います。 UnicodeとUCS UnicodeはThe Unicode Consortiumが定めた文字コードの規格である。UCSはISOとIECが共同で制定したもので、ISO/IEC 10646 の規格番号が付いている。両者は大雑把にいえば同じものと考えてもよいのだが、違う機関が定めたものである故に、微妙に(?)差があるのも事実である。 ■Unicode側の改訂経緯 Unicode1.0(1991) アメリカ技術者を中心に作られ、漢字コードは極めてデタラメ Unicode1.1(1993) 中国技術者が加わり、少しはまともになる。日が猛反発。 Unicode2.0(199

  • 1