yukimori_726のブックマーク - はてなブックマーク

高速実装CRFSuiteとベンチマーク - 自然言語処理 on Mac
テキストから人名や地名など内容を特定するような箇所を取り出す固有表現抽出や、名詞句や動詞句などのようにかたまった単語の列を求めるチャンキング、単語の品詞を特定する形態素解析など、自然言語処理の様々なタスクでCRF(Conditional Random Fields)の機械学習アルゴリズムが利用されています。 CRFSuiteはCRFの学習とテスト実行を高速に行うオープンソースの実装で、CRF++と並んで広く利用されています。メモリ使用量を抑えるよりも処理を高速に行う実装を目指していて、効率的なオンライン学習のアルゴリズムであるAveraged PerceptronやPassive Aggressive、AROW (Adaptive Regularization Of Weight Vector)なども利用することができます。他のオープンソースと比較したベンチマークテストの結果を見ると、訓練
yukimori_726 2016/04/05
benchmark

nlp

arow
リンク
MeCabで日本語WordCount on Hadoop - 自然言語処理 on Mac
HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。 MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときのMeCabのエンコーディングはUTF-8が前提となります。 http://mecab.sourceforge.net/bindings.html このmecab-javaのMacPortsを現在登録申請中です。これを使うと、/opt/local/lib/libmecab-java.dylib と /opt/local/share/java/mecab.jar がインストールされることになります。 $ sudo port selfupdate $ sudo port install mecab +utf8 $ su
yukimori_726 2015/12/02
wordcount

mecab
リンク
1

はてなブックマーク

タグ

ブックマーク / hjym-u.hatenadiary.org (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / hjym-u.hatenadiary.org (2)

高速実装CRFSuiteとベンチマーク - 自然言語処理 on Mac

MeCabで日本語WordCount on Hadoop - 自然言語処理 on Mac

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第2週）

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス