Kesinのブックマーク / 2011年7月11日

Kesin id:Kesin

2011年7月11日のブックマーク (2件)

日本語の単語分割 - 自然言語処理 on Mac
日本語の単語分割処理は、一般に、単語辞書と単語間連接の規則や学習データに基づいて行われます。オープンソースとして有名なものがいくつもあります。 KAKASI - 漢字→かな(ローマ字)変換プログラム JUMAN - KUROHASHI-KAWAHARA LAB chasen legacy -- an old morphological analyzer http://mecab.sourceforge.net/ これらのツールは主に新聞記事のような一般的なテキストが対象です。単語辞書に登録されていない語は未知語として処理されますが、特定分野のテキストを対象として解析精度を保つためには、専門用語や新語などを適宜登録する必要があります。他方、文字間に単語境界があるかどうかを機械学習の2値分類問題として解く手法があり、ツールも公開されています。 KyTea (京都テキスト解析ツールキット) 次
Kesin 2011/07/11
自然言語処理
リンク
新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改
新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ
Kesin 2011/07/11
自然言語処理
リンク
- 2011年7月14日
- 2011年7月11日
- 2011年7月10日

お知らせ

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

はてなブックマーク

タグ

2011年7月11日のブックマーク (2件)

日本語の単語分割 - 自然言語処理 on Mac

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

2011年7月11日のブックマーク (2件)

日本語の単語分割 - 自然言語処理 on Mac

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改