[B! unicode][perl] charsbarのブックマーク

charsbar id:charsbar

unicodeとperlに関するcharsbarのブックマーク (1)

テキストの文字種分割の補足 - daily dayflower
Perl で日本語テキストを簡単に字種かたまりに分割できないかな、と思い、perlunicode を読みながらサンプルプログラムを書いてみました。対象テキストは UTF-8。 Perl で日本語テキストを字種分割たつをさんは，m// でマッチングさせて分割させてますけど，これだと正規表現で網羅されてないトークンが失われてしまうと思います。 #!/usr/bin/perl use strict; use warnings; use utf8; binmode \*STDOUT, ':utf8'; my $src = <<"END_DATA"; zーあyxルーラでう、う9 10AB.DE「"GH'」★で漢字をカ・ナ食ったー!?ＭＪＤ３９\x{2466}。 END_DATA print $src, "\n"; my @cs = ( $src =~ m/ ( \p{M}+ | \p{N}+
charsbar 2008/02/07
perl

unicode
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx