Men talking over coffee with smoking Ark Royal.[B!]新着記事・評価 - はてなブックマーク

『Men talking over coffee with smoking Ark Royal.』

Nグラムを使った未知語の抽出（仮） - Men talking over coffee with smoking Ark Royal.
3 users
r-onodr.hatenadiary.org

n-gramsってどう使うのかよく分かんないなー、どうしてGoogle IMEは「灼眼のシャナ」とか「やはり俺の青春ラブコメはまちがっている。」とかをひとつのフレーズとして認識しているのだろう・・・とググっていたら、こんな論文をみつけた。森信介, 長尾眞, 1998, 「nグラム統計によるコーパスからの未知語抽出」, 『情報処理学会論文誌』, 39:7, 2093-2100. 「品詞ごとに、前後にくる文字にはパターンがある」という仮定に基いて未知語を探すらしい。名詞の場合、コーパスを分析すると「ご＜名詞＞の」とか「、＜名詞＞し」とかいうパターンが多かった、みたいな。この論文だと、このパターンの辞書を各品詞について作成したあとに、各単語についても同様のパターンを作成して、なんだか最適化問題を解いているのだけど、まず、各単語についてそれぞれ辞書をつくるほどコストを掛けていたら朝になってし
- 学び
- 2015/04/04 15:06

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx