Perl で日本語テキストを字種分割 2008-02-06-2 [Programming] Perl で日本語テキストを簡単に字種かたまりに分割できないかな、 と思い、perlunicode を読みながらサンプルプログラムを書いてみました。 対象テキストは UTF-8。 chunker.pl : #!/usr/bin/perl use strict; use warnings; use Encode; use utf8; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; while (<>) { chomp; my @cs = m/(\p{M}+|\p{N}+|\p{P}|\p{S}+|\p{Z}+|\p{C}+ |\p{Latin}+ |\p{Han}+ |\p{Hiragana}[\p{Hiragana