ええっとですねぇ、とりあえずインストールしたツールを記録しておきます。 ■anaconda (python) ■RStudio ■MeCab ■RMeCab ■mecab-python ■BeautifulSoup ■boilerpipe
MeCab http://mecab.sourceforge.jp/ ココからインストール。MeCabには Python binding っていう便利なのがあるんだけど、Winだとどうも上手くコンパイル出来ない。あれこれ調べたところ、ココに、ctypes*1を利用したMeCabの使い方が書いてあったので、これを使うことにする。 ctypes ココからダウンロード。0.9.9.3はうまく動かなかったので、前のバージョンの0.9.6を使う。とりあえずこれでPythonからMeCabを使えるようになりました。 マルコフ連鎖 で、、、マルコフ連鎖アルゴリズムの説明やらサンプルが、ココとかココらへんにあったので参考にして、Pythonで書いてみた。 # -*- coding: sjis -*- from ctypes import * def sparse(s): # ライブラリの場所を指定 lib
We’re getting things ready Loading your experience… This won’t take long.
授業で,日本語文書を単語に切り分け索引語リストを作りtf-idfを求めよという課題が出たので,Pythonで取り組んでみることにしました.基本的には初心者なので,誤りなどあればご指摘いただければ幸いです. まずは日本語文書を形態素解析するために,オープンソースの形態素解析エンジンMeCabをインストールします.形態素解析とは文を形態素という言語で意味を持つ最小単位に分割し,それぞれの品詞を判別する技術です.自然言語処理の基礎技術でかな漢字変換や機械翻訳などに使われたりします.形態素解析 - Wikipedia.国立国会図書館の前館長である長尾真先生は自然言語処理における第一人者で,形態素解析エンジンには長尾先生の研究室で作成され現在も開発が続けられているJumanというシステムもあります.*1 Try JUMAN MeCabのインストール 公式のページからPythonバインディングも提供さ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く