[B! unicode] charsbarのブックマーク

charsbar id:charsbar

unicodeに関するcharsbarのブックマーク (3)

テキストの文字種分割の補足 - daily dayflower
Perl で日本語テキストを簡単に字種かたまりに分割できないかな、と思い、perlunicode を読みながらサンプルプログラムを書いてみました。対象テキストは UTF-8。 Perl で日本語テキストを字種分割たつをさんは，m// でマッチングさせて分割させてますけど，これだと正規表現で網羅されてないトークンが失われてしまうと思います。 #!/usr/bin/perl use strict; use warnings; use utf8; binmode \*STDOUT, ':utf8'; my $src = <<"END_DATA"; zーあyxルーラでう、う9 10AB.DE「"GH'」★で漢字をカ・ナ食ったー!?ＭＪＤ３９\x{2466}。 END_DATA print $src, "\n"; my @cs = ( $src =~ m/ ( \p{M}+ | \p{N}+
charsbar 2008/02/07
perl

unicode
リンク
EUC-UTF8の可能性 : 404 Blog Not Found
2007年03月18日06:00 カテゴリCodeLightweight Languages EUC-UTF8の可能性 404 Blog Not Found:シフトJISを残すべきか?のコメント欄の、UTFCPのLightConeさんとMatzさんの会話をぼ〜っと眺めているうちに、ひらめきました。 EUCとUTF-8って、マッシュアップできなくね? 鍵は\xFFにあります。このバイト、EUCにもUTF-8にも絶対あらわれないのです。さすれば、あとはこう定義するだけです。 EUC-UTF8-CHAR = EUC-CHAR | \xFF + UTF-8-CHAR LightConeさん曰く、 UTFCP2の特徴として，日本と中国の漢字の主要部分が二バイトで現せる特徴もありますが．他に，後ろのバイトから正確に一文字づつ逆戻りできるという事があるのを知ってますか．正確に逆戻り出来るのは，プ
charsbar 2007/03/18
unicode
リンク
新しいUnicode符号化方式
新しい文字符号化方式戻るリンク文字符号についてユニコード UTFCP UTFCP2 UTFCP-TABLE 文字符号化方式比較文字コード用語 UTFCPとUTF-JP 新しいUNICODE符号の必要性 UTF8では、日本語に対応する文字(ひらがな、カタカナ、全ての漢字)の符号長が3バイトです。一方、Shift_JISやEUCでは、2バイトで表せます。この意味で、UTF8は、今までの文字コードよりもある意味において改悪されています。この事情は、他国の文字に置いても同様で、例えば、中国語の文字(漢字)においても、今まで2バイトで表せていた物が、UTF8では、3バイト必要になります。これは、欧米/中東圏以外の世界のあらゆる国や言語の文字において言えます。今まで2バイトで余裕を持って扱えていたものを、突然3バイトで扱わなければならないと言われれば、誰でも納得しがたいものでしょ
charsbar 2007/03/12
unicode
リンク
1