[B! perl][テキスト処理] atm_09_tdのブックマーク

atm_09_td id:atm_09_td

perlとテキスト処理に関するatm_09_tdのブックマーク (1)

テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl)
テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl) 2014-05-09-1 [Programming][NLP] 機械学習のデータ加工用のスクリプト。辞書によりテキストから素性を抽出する簡単なプログラムです。先日ちょっと需要がありまして、Pure Perl で動くものを作りました。あらかじめ用意された辞書（文字列とIDのペア）があり、テキスト中にその辞書の文字列が存在したら対応するIDを出力する、というタスクです。辞書マッチは最長一致のみではなく、一部重なりや内包含むすべて。最長一致のみならば辞書エントリを長い順にならべてORでつなげた正規表現を作れば一発なのですが、すべて欲しいというわけで（疑似）TRIEを採用。ハッシュで TRIE という懐かしい実装です（初期のJUMAN風）。 ■辞書の例 (fepp-dic.txt)。フォーマットは「^エントリ
atm_09_td 2014/05/10
Perl

テキスト処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx