[B! utf-8] sktshkのブックマーク

sktshk id:sktshk

utf-8に関するsktshkのブックマーク (1)

Perlで文字列をN-Gram変換する関数を書いてみました - 知らないことがあってもへっちゃらさ
そのうち使うかな？と思って、文字列を全文検索でよく使われる N-Gram（Nグラム）変換する関数を書いてみました。例えば、「今日もお仕事」という文字列を、「今日日ももおお仕仕事」とか「今日も日もおもお仕お仕事」というように変換しようというわけです。なお、ソースコードは、文字コードが UTF-8 で保存されている事を前提にしています。 sub ConvertNGram { use Encode; my $str = shift; my $n = shift; my $wsp = decode('utf8', '　'); # 分割する文字数をチェック $n=2 if (!$n || $n !~ /^[0-9]+$/); # 不要な文字を削除 $str =~ s/\n|\t| |$wsp//g; # 文字数チェック my $slen = length($str); r
sktshk 2012/06/25
utf-8

N-gram

perl
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx