最近またMecabをいじっています 今回はmecabでnaist-jdicを使う方法と、辞書への単語の追加方法を紹介します ダウンロード mecab-naist-jdicのダウンロード wget 'http://iij.dl.sourceforge.jp/naist-jdic/40117/mecab-naist-jdic-0.6.0-20090616pre3.tar.gz' インストール tar xvfz mecab-naist-jdic-0.6.0-20090616pre3.tar.gz cd mecab-naist-jdic-0.6.0-20090616pre3 ./configure --with-charset=utf8 make make install 辞書のビルド 僕の環境はUTF-8で辞書ファイルなどがEUC-JPなので今回はyour_dict.csvをEUC-JPに変換し
2017年10月更新 同じ話題について書きました:「MeCabの中国語分割辞書を作る話」 形態素解析(分かち書き)とは 形態素解析というのは「我是英國人」という文章を入れたときに「我/是/英國/人」という形態素(意味を持つ最小の単位)に分割するものです。ここでは必ずしも形態素に分割することを求めていないので「分かち書き」という言葉を使います。 このエントリを作ろうと思ったのは情報がほとんどなくて自分が非常に苦労したからです。このエントリがあることで多くの人にとって役に立つことを願います。 中国語の形態素解析器はほとんどない 「関口宏司のLuceneブログ」によると 「中国語には(商用のものを除き)形態素解析器が(あまり)ない」という話を聞いたことがあります とのことです。他にも「(2004年度修士論文)JPドメインにおける茶筌を用いた中国語ページの抽出(PDF注意)」を見ると 3.2.1
そもそも、マルコフ連鎖とは何なのか?全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。 しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ?コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った! 作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済み マルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。(素晴らしい情報に感謝です!) MeCabを使ってマルコフ連鎖 一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ
概要 我が家のLinux機(Fedora10)にMecabを入れた際のログです。 入れたものは以下。 MeCab0.98 mecab-ipadic-2.7.0-20070801 mecab-naist-jdic-0.6.1-20090630 unidic-mecab-1.3.12 mecab-ruby-0.98 以上5つです。 ここでは入れた際に打ったコマンドと、簡単なサンプルを載せておきたいと思います。 MeCabのインストール ダウンロードはこちら http://sourceforge.net/projects/mecab/files/ Linuxであれば、mecab-x.xx.tar.gz(x.xxはバージョン番号)を持ってきます。持ってきたら解凍してinstall。 $ tar xzvf mecab-x.xx.tar.gz $ cd mecab-x.xx $ ./configure
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く