MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれ... 続きを読む
文章中のキーワード抽出を行いたくなっていろいろ調べていて、次の組み合わせで実現することができました。 Mecab Lingua::JA::Summarize Pecl/Perl Mecabは文書の形態素解析に。Lingua::JA::Summarizeはサイボウズラボ奥さんのキーワード抽出CPANモジュール。... 続きを読む
rubyActiveRubyとかからちょろっとMeCabを使ってみたい、、、でもMeCabのruby bindingとか使うのは億劫、って人向けに書いてみました。単にpopenで直接MeCabを呼んでるだけですが、、、 #!/bin/ruby -Ks # -*- coding: euc-jp -*- # # easymecab.rb # class MeC... 続きを読む
キーワード解析をしたくて MeCab にトライ。まさにこれがやりたかったこと!http://d.hatena.ne.jp/kenkitii/20060705/p1Programming Must Go On - Windows上のrubyでMeCabをちょっこっと使ってみたい 続きを読む
第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態... 続きを読む
形態素解析器MeCabの 辞書を自分で作る場合、動詞や形容詞など活用する品詞については 自分で活用を書かなければいけないんですが、 激しく面倒なのでこれを自動化するやつを作ってみた。 ( ・∀・)つ[katsuyou.tar.gz] このプログラムを使うには、別途ロー... 続きを読む
Yahoo!の形態素解析をMeCabで無理やり再現してみる を読む。 MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 学習させるときには、辞書と、... 続きを読む
« CRF++ 0.45 | メイン | ソートの平均要素移動距離 » 2007年01月01日 ルー語変換を MeCab だけで実現 巷で話題のルー語変換.周りにこういうしゃべり方をする人がいるからかもしれませんが, 爆笑しました 中身は,MeCab -> EDICT -> Bilingual Emacspeak だそ... 続きを読む
こんにちは satoです。mecabのユーザ辞書を追加したのですが,いろいろはまったので誰かがはまった時のためにメモっておきます。 1)品詞IDの取り方 2)ユーザ辞書の追加方法 3)禁止語句とか独自の要素を付けたい csvファイルの最後に追加すればOK 4)context_id.c... 続きを読む
3年ぐらい前に欲しいなーと思っていたMeCabのPHPモジュールが最近リリースされたようです。DBから取り出したレコードごとに形態素解析したいときなどはPHPから呼び出せると便利。 » Page2 MeCab extension 手元のマシンはmecabが0.90だったのですがconfigure時... 続きを読む
さくらでMeCab PHP extensionをインストールしたので,メモ(自分の環境がデフォルトとかなり違うので,再現性があるか分かりませんが) MeCabインストール ダウンロードはこちらから tar zxfv mecab-X.X.tar.gzcd mecab-X.X ./configure --prefix=$HOME/usr/lo... 続きを読む
最新のエントリーをMecabで解析する トップ 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン カテゴリ[Perl]カテゴリ[MovableType] MovableTypeの最新のエントリーをMecabで形態素解析するPerlプログラム。設定は適宜変えてください。 #!/usr/bin/perl -w #maca... 続きを読む
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています... 続きを読む
MeCab を使って文章の形態素解析をする PHP 用の拡張モジュールです。 MeCab は 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトの一環として開発されたオープンソース形態素解析エンジン。 えらいこ... 続きを読む
文章をタグクラウド化 アメリカ合衆国の大統領の演説をタグクラウド化した US Presidential Speeches Tag Cloud や日本の首相の演説をタグクラウド化した Japanese Prime Minister Speeches Tag Cloud などを見て、そういう使い方があるんだな、と面白かった。 ... 続きを読む
日本の総理大臣の演説をタグクラウド化: blog.bulknews.net に影響されてちょっと作ってみた。 http://hdcloud.spiritloose.net/ こんな感じになる。http://hdcloud.spiritloose.net/spiritloose/ IE6, Firefox 1.5, Opera 9.02で確認。他は知りません。(Opera... 続きを読む
日本の総理大臣の演説をタグクラウド化 US Presidential Speeches Tag Cloud が面白かったので日本の総理大臣版を3分ハッキング。コード自体は15分くらいでかけたんだけどデバッグやらデータの解析やらに時間がかかってトータルでは2時間くらいか。 Japanese Pr... 続きを読む