タグ

ブックマーク / shuyo.hatenablog.com (3)

  • 統計的機械学習セミナー (2) 教師無し&半教師分かち書き - 木曜不足

    昨日の続き。 持橋さんの教師なし&半教師分かち書きについて、わかる範囲で説明してみる。 「分かち書き」とは文章を単語に区切ること。日語や中国語など単語の区切りに空白を入れない言語では、これがないとほとんど何にもできない。MeCab 様々、と常日頃感謝しまくっている人も多いだろう。 その MeCab は膨大な辞書と大量の正解データを使って作られた「教師ありの分かち書き」。教師あり学習のモデルである CRF(Conditional Random Fields) を用いている。 教師ありのため、辞書に載ってない言葉や、正解データに現れていない区切り方は苦手。それらが用意されていない言語や方言(話し言葉含む)は、満足に分かち書きできない。 そこで「教師なし分かち書き」ができたらいいな、という話になる。これは大量の文章さえ与えたら、そこから単語の区切り方を自動的に判断できるようになる、という夢のよ

    統計的機械学習セミナー (2) 教師無し&半教師分かち書き - 木曜不足
  • 自然言語処理勉強会@東京 第1回 の資料 - 木曜不足

    日の tokyotextmining こと 自然言語処理勉強会@東京 第1回 で話す「Webページの文抽出 using CRF」の資料(自己紹介は除く)です。 以前、Ruby で作った文抽出モジュール を機械学習技術を使って作り直してみたら、というお話。 CRF は Conditional Random Fields の略。 Web文抽出 using crf from Shuyo Nakatani 実装はこのあたり。 http://github.com/shuyo/iir/blob/master/sequence/crf.py http://github.com/shuyo/iir/blob/master/sequence/pg.py http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py 【追記】

    自然言語処理勉強会@東京 第1回 の資料 - 木曜不足
    jp-myk
    jp-myk 2010/07/04
  • PRML 読んでやってみた(上巻編) - 木曜不足

    今までに書いた「 PRML を読んで、やってみた」系の記事をまとめてみた。何か参考になれば幸い。 根的にとても疑り深い人(教科書の類に対しては特に)なので、「こんなん書いてあるけど、ほんまかいな〜?」という姿勢が目立つ。 また、よく「手触り」という言葉が出てくる。なんというか、「感触」がわからないと気持ち悪いのだ。基的な道具類は目をつむっていても使えるのが理想、と言えば、なんとなくでもわかってもらえるだろうか。 あと、言葉使いに無駄に小うるさい(苦笑)。多くの人にとってはどうでもいいところで妙にこだわっているかも。 下巻編はこちら。 PRML 読んでやってみた(下巻編) http://d.hatena.ne.jp/n_shuyo/20110519/prml 1章&2章 特に実装とかしてない。 ディリクレ分布のパラメータが0のとき http://d.hatena.ne.jp/n_shuy

    PRML 読んでやってみた(上巻編) - 木曜不足
    jp-myk
    jp-myk 2010/05/08
  • 1