[B! Programming][language][nlp] HeavyFeatherのブックマーク

HeavyFeather id:HeavyFeather

Programmingとlanguageとnlpに関するHeavyFeatherのブックマーク (3)

Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
HeavyFeather 2010/11/28
Python

nlp

language

programming
リンク
マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
そもそも、マルコフ連鎖とは何なのか？全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ？コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った！作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済みマルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。（素晴らしい情報に感謝です！） MeCabを使ってマルコフ連鎖一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ
HeavyFeather 2009/07/08
algorithm

japanese

language

MeCab

nlp

programming
リンク
きまぐれ日記: 「読めてしまう」コピペがなぜ読めてしまうのか
http://www.asks.jp/users/hiro/59059.html http://www.itmedia.co.jp/news/articles/0905/08/news021.html 最初読んだとき、違和感なく読めてしまったのですが、よくよく見てみると、そんなトリックがあったのですね。さて、この「読めてしまう」がなぜよめてしまうのでしょうか？人間の言語モデルの単語パープレキシティは、約100ぐらいであると言われています。どういうことかというと、人間が文章を読んでいるときに、次の単語を過去の文章から推測するのは 1/100　程度の確率で正解するということです。件のコピペですが、最初の文字は変わらないので、その正解率は平仮名の数(52)倍になります。すなわち、52/100 =~ 0.5　実際には、最後の文字も変わらないし、単語の長さが変わらないというもの、大きな
HeavyFeather 2009/05/13
パープレキシティの問題で、機械にも高い精度で元文章を推測可能。

nlp

programming

literature

language

algorithm
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx