テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl)

テクノロジーカテゴリーの変更を依頼記事元:

chalow.net

24 usersがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl)

テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl) 2014-05-09-1 [Programmin... テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl) 2014-05-09-1 [Programming][NLP] 機械学習のデータ加工用のスクリプト。辞書によりテキストから素性を抽出する簡単なプログラムです。先日ちょっと需要がありまして、Pure Perl で動くものを作りました。あらかじめ用意された辞書（文字列とIDのペア）があり、テキスト中にその辞書の文字列が存在したら対応するIDを出力する、というタスクです。辞書マッチは最長一致のみではなく、一部重なりや内包含むすべて。最長一致のみならば辞書エントリを長い順にならべてORでつなげた正規表現を作れば一発なのですが、すべて欲しいというわけで（疑似）TRIEを採用。ハッシュで TRIE という懐かしい実装です（初期のJUMAN風）。 ■辞書の例 (fepp-dic.txt)。フォーマットは「^エントリ

ブックマークしたユーザー

sh199107112014/08/30
amatuka2014/05/14
atm_09_td2014/05/10
peketamin2014/05/09
makoto152014/05/09
masayoshinym2014/05/09
daiki_172014/05/09
fromAmbertoZen2014/05/09
nakex12014/05/09
barlog2014/05/09
kutakutatriangle2014/05/09
advblog2014/05/09
hiromark2014/05/09
kana03552014/05/09
sassano2014/05/08

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx