SUFARY用インデクサのPerl版の雛形 2007-06-10-3 [Programming] 自分用メモ。 SUFARYガイドにあるやつを改訂。 UTF-8 が対象。正規表現部分は[2006-03-09-1]のそのまま。 Index point (バイナリ) を吐き出した後、 mkary -so する (sort only)。 my $ip = 0; while (<>) { my $idxstr = $_; my $start = 0; while ($idxstr =~ m{([\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]| [\xE0-\xEF][\x80-\xBF]{2}| [\xF0-\xF7][\x80-\xBF]{3})}gsx){ my $c = $1; last if $c =~ /[\t\n]/; #printf "[%s] %d %d\n",
