タグ

MeCabと形態素解析に関するzonoiseのブックマーク (2)

  • MeCabで中国語の形態素解析(分かち書き)をしてみる | 100% Pure NEET

    2017年10月更新 同じ話題について書きました:「MeCabの中国語分割辞書を作る話」 形態素解析(分かち書き)とは 形態素解析というのは「我是英國人」という文章を入れたときに「我/是/英國/人」という形態素(意味を持つ最小の単位)に分割するものです。ここでは必ずしも形態素に分割することを求めていないので「分かち書き」という言葉を使います。 このエントリを作ろうと思ったのは情報がほとんどなくて自分が非常に苦労したからです。このエントリがあることで多くの人にとって役に立つことを願います。 中国語の形態素解析器はほとんどない 「関口宏司のLuceneブログ」によると 「中国語には(商用のものを除き)形態素解析器が(あまり)ない」という話を聞いたことがあります とのことです。他にも「(2004年度修士論文)JPドメインにおける茶筌を用いた中国語ページの抽出(PDF注意)」を見ると 3.2.1

  • マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

    そもそも、マルコフ連鎖とは何なのか?全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。 しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ?コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った! 作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済み マルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。(素晴らしい情報に感謝です!) MeCabを使ってマルコフ連鎖 一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

    マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
  • 1