[B! Unicode] bigbroのブックマーク

bigbro id:bigbro

Unicodeに関するbigbroのブックマーク (14)

「Unicode 6.0」が策定、絵文字が国際標準に
bigbro 2010/10/29
文字コード

Unicode

絵文字
リンク
tokuhirom blog
Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at
bigbro 2010/05/27
Perl

モジュール

Unicode

文字列操作
リンク
Unicode正規化
正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ
bigbro 2010/05/27
Unicode

正規化
リンク
Unicode::Normalize で遊ぶ - daily dayflower
Unicode の規格では，文字の合字（リガチャ等）等を統一的に扱えるように，「正規化」という処理が仕様として定まっています。この正規化処理のうち「互換性分解」という処理を行うと副作用として半角カナを全角カナに変換できます（逆に全角カナ→半角カナはできません）。 #!/usr/bin/perl use strict; use utf8; use Encode; use Unicode::Normalize; my $src = 'ﾎﾟﾝｼﾞｭｰｽ'; my $dst = Unicode::Normalize::NFKC($src); print Encode::encode('utf8', "${src} => ${dst}\n"); # OUTPUT is: ﾎﾟﾝｼﾞｭｰｽ => ポンジュースUnicode の正規化についてはperl5.8のUnicodeサポートおよび http:/
bigbro 2010/05/27
Perl

モジュール

Unicode

文字列操作

正規化
リンク
perl - で全角半角変換をモダンに行う : 404 Blog Not Found
2009年06月06日01:15 カテゴリLightweight Languages perl - で全角半角変換をモダンに行う今ならLingua::JA::Regular::Unicodeが第一選択肢ですが、こういう方法もあるということで。 Perl で半角カナと全角カナの変換をする : Serendip - Webデザイン・プログラミング Perl を使って半角カタカナと全角カタカナの変換をするスクリプトを、標準モジュールの Encode.pm と Unicode::Japanese と Lingua::JA::Regular::Unicode を使ってそれぞれ変換スクリプトを書いてみる。 CORE Moduleのみを使うという縛りをかけています。 #!/usr/bin/perl use 5.008001; use strict; use warnings; use utf8; us
bigbro 2010/05/27
Perl

Unicode

文字列操作
リンク
perl の YAML.pm と Unicode - metalglue
YAML::DumpFile で utf8 フラグが立った文字列をダンプすると 'Wide character ...' と警告が出る（どうやって防ぐ？） use utf8; use YAML; $a = '漢字'; YAML::DumpFile('a.yaml', $a); 上のコードで a.yaml は utf-8 で出力される．次に読み込んでみる． use utf8; use YAML; $a = YAML::LoadFile('a.yaml'); print $a; 一見うまくいっているように見える．しかし次のようにすると失敗する． use utf8; use YAML; binmode STDOUT, ':utf8'; $a = YAML::LoadFile('a.yaml'); print $a; これは，$a がバイト列（中身はたしかに「漢字」の utf-8 表現）として扱わ
bigbro 2010/01/27
Perl

モジュール

YAML

Unicode
リンク
Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改メ tokuhirom’s blog
Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at
bigbro 2010/01/26
「perl は、とくになんの指定もない文字列は latin1 だとおもってます。これが一番の要因」

Perl

文字コード

Unicode
リンク
UTF-8における全角マイナスと全角チルダの問題（＝いわゆる「波ダッシュ問題」） - 半径5メートル
以下の通り、同じ文字を表現しているにも関わらず、文字コードが異なるケースが発生します。 [webmaster@localhost work]$ nkf -w sjis.txt > utf8.nkf.txt [webmaster@localhost work]$ od -tx1 utf8.nkf.txt 0000000 e2 88 92 e3 80 9c 0000006 [webmaster@localhost work]$ vi utf8.term.txt [webmaster@localhost work]$ cat utf8.term.txt −〜 [webmaster@localhost work]$ [webmaster@localhost work]$ [webmaster@localhost work]$ od -tx1 utf8.term.txt 0000000 ef bc
bigbro 2010/01/13
文字コード

Unicode
リンク
Perlメモ/日本語の扱い - Walrus, Digit.
Perlで日本語を使用するとき、正しく動かなくなる代表的なケースは次の2点です。日本語を扱う時、文字コードを意識していない。正規表現で、日本語の文字列を使うとエラーが出る。日本語を扱う時には、文字コードを意識する必要があります。代表的な文字コードには「7ビットJIS」「SJIS（シフトJIS）」「EUC（日本語EUC）」「UTF8（Unicode）」があります。厄介なのは、同じ言葉でも、文字コードによってコンピューター内部での表現が違うことです。例えば、WebブラウザからSJISで送られてきた「塚本」という言葉と、EUCコードのスクリプト中で設定した「塚本」という言葉を比較すると「別物だよ」という結果が出ます。こうした問題が起きないように、普通は、以下のことに気をつけてスクリプトを作ります。スクリプトを書くときに、どの文字コードを使うか決めておく。データの入出力(CGIの
bigbro 2010/01/04
Perl

文字コード

Unicode

モジュール

Encode
リンク
Perl 5.8.x における日本語コード変換のメモ
Perl 5.8ではEncode.pmが標準モジュールとなり、多バイト文字を標準で簡単に扱えるようになりました。が、jcode.plやJcode.pmを用いたコード変換の経験があると、逆にこれが仇となって文字化けの嵐に遭います。（私の場合そうだったというだけで、普通はそんなこと無いのかもしれないのですが。）漸く最近になって基本的な考え方が飲み込めるようになって来たので、この辺をまとめておこうと思います。なお、本メモは新たにPerl 5.8.x的なPerlスクリプトを書く際に気をつけることをまとめたものであり、基本的には既存のスクリプトにPerl 5.8 + Encode.pmを適用するためのものではありません。また、utf8でスクリプトを書くことを前提にしています。が、どちらにせよ、この知識は参考になると思います。（たぶん。）本文冒頭ですが、まず参照先を示しておきます。以下のドキュメント
bigbro 2010/01/04
Perl

文字コード

Unicode
リンク
図解: Perl と Unicode 文字列 - daily dayflower
id:tomi-ru さんが [http://e8y.net/mag/015-encode/:title] というとてもプラクティカルな [http://search.cpan.org/perldoc?Encode:title=Encode] 入門をお書きになったので，わたしも違う切り口で書いてみたくなりました。いちおうの基礎（読み飛ばし可）文字セット, キャラクタセット, 文字集合, 文字集合 - Wikipedia エンコーディング, 符号化方式, 文字符号化方式 - Wikipedia この2つは異なります。とくに知らなくても下記の文書を読むことはできますが，理解しているとためになります。くわしく知りたい人は自習してください。文字セットの例 Unicode JIS X 0208 ひらがなとかカタカナとか漢字とか ASCII 文字エンコーディングの例 UTF-8 ISO-202
bigbro 2010/01/04
Perl

文字コード

Unicode
リンク
Perl5.8 の UNICODE 対応
perl は 5.8 から Unicode(utf-8) がサポートされました．5.6 でも Unicode に対応はしていましたが，ぜんぜん使い物にならず，ようやく 5.8 でまともに使えるようになったということです．ただせっかく使えるにもかかわらず perldoc などを見てもイマイチ使い方がわからないので，独自にまとめてみたのがこのページです．誤った書き方や勘違いをしていることもあるので，形式的ですがこのページの内容は無保証です．内容文字コード変換 perlIO jperlからの移行 UTF-8フラグ文字コード自動判別 Unicode Standard Unicode 正規化その他参考資料文字コード変換とりあえず perl5.8 で新しく組み込まれた機能を見るために，euc-jp から shift_jis への変換スクリプトをいくつか載せます． openを利用し
bigbro 2010/01/04
Perl

文字コード

Unicode
リンク
Perl 5.8.x Unicode関連
-> 趣旨と注意書き -> UTF8フラグ？ -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル趣旨と注意書き Perl 5.8.x のUnicode 関連です。正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。使ってみると、よくわかんなくなったので、ちょっとまとめてみました。今でもあんまりわかってないかもしれないので、内容は無保証です。突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、
bigbro 2010/01/04
Perl

文字コード

Unicode
リンク
UnicodeとUTF-8の違いは？ - Humanity
という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/
bigbro 2009/12/01
文字コード

Unicode

まとめ
リンク
1