[B! hadoop][自然言語処理] showyouのブックマーク

showyou id:showyou

hadoopと自然言語処理に関するshowyouのブックマーク (2)

Hadoopでテキストを扱う際にLuceneのTokenizerで単語分割してみる | mwSoft
概要 Luceneは3.6から形態素解析機能も入って日本語文書が手軽に扱えるようになった。 Hadoopを使う際にこれらの機能を利用すれば何かと便利なんではなかろうかと思ったので、サンプルコードを書いてみた。英語文書を扱ってみる英語文書を単語に分割してカウントする処理を書いてみる。下記はStandardTokenizerでsplitし、小文字で統一するLowerCaseFilter、「a, and, is, to」などの頻出文字列を取り除くStopFilter、単語末尾の「's」を取り除くEnglishPossessiveFilter、複数形などの揺れを統一するKStemFilterなどをかけてWordCountを行っている。 public class EnWordCountMapper extends Mapper<LongWritable, Text, Text, LongWri
showyou 2012/06/24
hadoop

自然言語処理
リンク
Hadoopで形態素解析をするの顛末記
showyou 2012/06/24
自然言語処理

hadoop
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx