タグ

ブックマーク / zariganitosh.hatenablog.jp (3)

  • ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。

    ベイジアンフィルターで日語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。 ところが、日語の場合は、「エアポートの無線ネットワークはどうやって設定しますか?」という文章を、「エアポート の 無線 ネットワーク は どう やっ て 設定 し ます か ? 」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。 そこで、この高度な作業を

    ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。
    alfaladio
    alfaladio 2010/03/29
  • Rubyでベイジアンフィルター - ザリガニが見ていた...。

    ベイジアンフィルターという仕組みを知ったのは、何年か前に迷惑メールの多さに困り始めた頃だった。OSX付属のMailにも迷惑メールフィルター機能は存在するが、これがあまり賢くない。(いくら学習させても、すり抜けてくる迷惑メールが日に何通かあり、また必要なメールを迷惑メールとしてしまったり。)そんな時に巡り会ったのが、PopfileMgrだった。 使い始めは全くトンチンカンな分類だが、間違って分類した時は、正しく訂正して学習させる。そうしているうちに、驚くほど高精度にメールを分類できるようになる。単なる迷惑メールのフィルタリングだけに留まらず、設定した通りに、どんな風にも分類してくれる。(例えば、「プライベート」「仕事」「DM」「買物」「迷惑」など。) 最近の1ヶ月を振り返って、迷惑メールか、それ以外で、その分類の精度を確認してみた。最近では1日に50通前後の迷惑メールが届く。今確認したところ

    Rubyでベイジアンフィルター - ザリガニが見ていた...。
  • マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

    そもそも、マルコフ連鎖とは何なのか?全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。 しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ?コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った! 作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済み マルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。(素晴らしい情報に感謝です!) MeCabを使ってマルコフ連鎖 一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

    マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
  • 1