エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl)
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl)
テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl) 2014-05-09-1 [Programmin... テキストから辞書にある文字列をすべて取り出す簡単なプログラム (Pure Perl) 2014-05-09-1 [Programming][NLP] 機械学習のデータ加工用のスクリプト。辞書によりテキストから素性を抽出する簡単なプログラムです。先日ちょっと需要がありまして、Pure Perl で動くものを作りました。 あらかじめ用意された辞書(文字列とIDのペア)があり、テキスト中にその辞書の文字列が存在したら対応するIDを出力する、というタスクです。 辞書マッチは最長一致のみではなく、一部重なりや内包含むすべて。最長一致のみならば辞書エントリを長い順にならべてORでつなげた正規表現を作れば一発なのですが、すべて欲しいというわけで(疑似)TRIEを採用。ハッシュで TRIE という懐かしい実装です(初期のJUMAN風)。 ■辞書の例 (fepp-dic.txt)。フォーマットは「^エントリ