Captcha security check hisasann.com is for sale Please prove you're not a robot View Price Processing
Captcha security check hisasann.com is for sale Please prove you're not a robot View Price Processing
昨日の晩あたりから、形態素解析したい気分だったのでやってみました。 形態素解析というのは以下のようなもの。 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。 形態素解析 - Wikipedia 圧縮新聞にも使われているそうです。 「圧縮新聞」を作った - phaの日記 今回は、MeCab(和布蕪)という形態素解析エンジン利用させて頂きました。 Ubuntu環境で実験しましたが、大抵同じような作業で動くと思います。文字コードの指定のみ適時読み替えてください。 ファイルの取得 MeCab本体(mecab-0.97.tar.gz)、辞書ファイル(mecab-ipadic-2.7.0-20070801.
Ruby で Mecab という形態素解析エンジンを使ってみました。 インストール ソースからインストールしないといけないかなと思ったらどうやら Mac なら MacPorts で簡単にインストールできるようで、 $ sudo port install mecab $ sudo port install mecab-ipadic-utf8 $ sudo port install rb-mecab これだけ。かと思ったらなぜか文字化けを起こしてしまい、調べてみると辞書ファイルの指定が UTF-8 になっていませんでした。 /opt/local/etc/mecabrc をエディタで開いて、 $ sudo vim /opt/local/etc/mecabrc dicdir を書き換えました。 -dicdir = /opt/local/lib/mecab/dic/ipadic +dicdir =
文脈IDは-1を指定すれば自動採番してくれるという噂だったのですが、実行したら「自動で探したけど、対応するのが見つからなかったよ」と言われた為(文字コードの問題かな)、自前でシステム辞書ディレクトリ内の「left-id.def」と「right-id.def」を探して、それっぽいIDを拾ってきました(本当にこの方法で良いのか未確認)。 辞書によってIDは変わってきて、IPA辞書の「名詞,一般」は、我が家の環境では1285になっていました。バージョンによっても違う可能性もあるので注意が必要です。 読み・発音については、はてなのファイルの読みは全て平仮名で記述されているので、NAISTの辞書に合わせる為に片仮名に変換して登録します。発音は本来「アマクサシロー」になるべきですが、その辺は変換してると面倒なのでこのままで。 参考URLでは、CSVの末尾に「はてなキーワード」と入れて、はてなの辞書が使
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く