本コンテンツで使用しているMeCabと辞書のバージョンは以下になります。 ・MeCab 0.98pre ・NAIST辞書 0.6.1-20090630 相変わらず、勉強がてらに書いてます。コストの算出方法については、この記事を書きながらリアルタイムで勉強していたりするので、内容の正... 続きを読む
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれ... 続きを読む
未知語処理の定義 $Id: unk.html 167 2009-03-08 10:16:26Z taku-ku $; 概要 未知語処理(辞書に載っていない単語の形態素解析の処理)についてユーザが再定義できます。 設定ファイル 配布辞書のディレクトリにある char.def と unk.def という2つのファイル を... 続きを読む
15:50 | NAIST自然言語処理学講座出身Googleに入社してから大規模開発やインフラを経験MeCabを開発NTTコミュニケーション科学基礎研究所に所属その後Googleへ研究より開発寄り日本語のウェブ検索「もしかして」機能ダジャレサーチ エイプリルフールネタを1ヶ月... 続きを読む
今日は、徳島大学の石田基広先生が開発されたRMeCabというRのパッケージを、ご紹介いたします。 RMeCabは、データ解析・グラフィックス環境Rから日本語形態素解析ソフトMeCabを呼び出して使うインターフェイス(フリーウェア)。他のRパッケージと同様に、Windo... 続きを読む
こんにちは、山下です。 今年もどうぞよろしくお願い致します。 Webサービスを開発していると、特定のキーワードを自動でURLリンクにする処理が必要になることがあると思います。今回は、このキーワード自動リンク機能を形態素解析ツールMecabを使ってPHPで実装... 続きを読む
MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています... 続きを読む
ほとんどMeCab extension使いたさにあれこれこじつけた感ありありですが。。。MeCabはオープンソースとして公開されている形態素解析エンジンの1つで、GPLもしくはLGPL/BSDライセンスの下に公開されています。他の形態素解析エンジンとしては、KAKASIやChaSenな... 続きを読む
MeCabを使う時、辞書のインストールでこちらを参考にしてMakefileをいじらないと品詞IDが使えなくてはまる。 念のためこのページにも書いておこう。 http://keihanna.dl.sourceforge.jp/mecab/20904/mecab-ipadic-2.7.0-20060707.tar.gz tar zxvf mecab-ipadic-... 続きを読む
MeCabのWebService, MECAPI を182倍高速にしてhttp://api.chasen.org/mecapi/ - Perlによる実装はやめて、完全に C++ で書き直し - CGI ではなくて、C++ による自作 HTTPServer - mecab のプロセスを prefork することで永続化 たつをさんのオリジナルMECAPIの... 続きを読む
« IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意... 続きを読む
Chasen(2.3.3)とKakasi(2.3.4)とMeCab(0.91)の形態素解析の結果を比較できます。Chasenはここに書いてある設定をしてあります。処理の比較等はMeCabのページ等に載っています。MeCabも近いうちに追加いたします。 04.7.8 - MeCabを追加しました。 形態素解析す... 続きを読む