タグ

mecabに関するfubaのブックマーク (11)

  • MeCabの未知語(unk.def)と戯れた記録 : mwSoft blog

    今年の初めくらいにメモして後でまとめようと思っていた話なんだけど、さっぱりまとめる暇が取れないまま放置されていたので、メモをそのままブログに貼っておく。 MeCab(辞書はNAIST)で遊んでいたら、スクエニが以下のように解析された。 echo スクエニ | mecab スクエニ 感動詞,*,*,*,*,*,* EOS 感動詞になっている。出来れば名詞が良いなぁと思う。 スクエニは未知語として判定されていると思われる。 未知語判定されているかどうかは、-F%Sすれば分かる。 1が出れば未知語、0は辞書にある語。 echo スクエニ魔法 | mecab -F"%m\t%s\n" スクエニ 1 魔法 0 EOS 未知語については「/usr/local/lib/mecab/dic/naist-jdic/unk.def」を見れば分かる。 KATAKANA,1358,1358,3869,名詞,一般,

    fuba
    fuba 2011/12/12
  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語

    fuba
    fuba 2011/05/16
    コスト生成めんどくさいし便利そう
  • GitHub - KOBA789/node-mecab: C++で書かれたnode.js用のMeCabバインディング

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - KOBA789/node-mecab: C++で書かれたnode.js用のMeCabバインディング
  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    fuba
    fuba 2009/07/01
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • さくらの500円サーバで MeCab の Perl モジュールが動かなくなっていた

    さくらの500円サーバで MeCab の Perl モジュールが動かなくなっていた 2009-04-28-3 [Tips][Maintenance] さくらの500円サーバにインストールして使っていた MeCab の Perl モジュールが動かなくなっていました。 perl のバージョンが 5.8.9 に上がっていたのが原因っぽいです。 その影響で MECAPI もストップしてました。 これは困りました。 というわけでさっそく対応。 MeCab 体も Perl モジュールも「make clean」して configure からインストールし直しました。 インストール手順はこちら→[2008-11-15-1]。 しかし、Perl モジュールインストール(make install)時にこんなエラーが出て先に進まず。 Can't load '/home/***/src/mecab-perl-0

    さくらの500円サーバで MeCab の Perl モジュールが動かなくなっていた
  • RMeCab - コーパスいぢり

    今日は、徳島大学の石田基広先生が開発されたRMeCabというRのパッケージを、ご紹介いたします。 RMeCabは、データ解析・グラフィックス環境Rから日形態素解析ソフトMeCabを呼び出して使うインターフェイス(フリーウェア)。他のRパッケージと同様に、Windowsだけでなく、MacLinuxなどのOSでも使用可能。 ものすごく短い期間でバージョンアップされていますが、2008年4月7日現在でRMeCab_0.46が最新版。このバージョンに搭載されている主な機能は、文章の形態素解析、頻度表の作成、品詞指定での頻度表の作成、n-gram、コロケーションの抽出(T、MI、Gなどのスコアを表示)など。勿論、R上で処理しているので、既存の関数などを組み合わせていけば、様々な解析や視覚化が可能。 詳しい情報は、コチラ → http://cms.ias.tokushima-u.ac.jp

  • MeCab: オリジナル辞書/コーパスからのパラメータ推定

    $Id: learn.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 学習用コーパスからパラメータ(コスト値)を推定することができます. MeCab 自身は品詞体系に非依存な設計になっているため, 独自の品詞体系, 辞書, コーパスに基づく解析器を作成することができます. パラメータ推定には Conditinoal Random Fields (CRF) を使っています. 処理の流れ データフロー図は次のようになります. パラメータ推定には以下のサブタスクがあります. Seed辞書の準備 設定ファイルの準備 dicrc char.def unk.def rewrite.def feature.def 学習用コーパスの準備 学習用バイナリ辞書の作成 CRF パラメータの学習 配布用辞書の作成 解析用バイナリ辞書の作成 評価 それぞれ順に説明

  • きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

    MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。 ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニング するといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力 があればコスト値を機械学習的なアプローチで構築することができます。 さらに、正解データを人手で作る必要は必ずしもありません。 すなわち、Yahoo!形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。 ふだんはあま

  • HyperEstraier開発メモ

  • きまぐれ日記: リアルめかぶ

    めかぶが好物の私ですが、スーパーで売っているいろんなタイプのめかぶをトライしています。しかし納得できるものが少ない。NAIST近くのサカエに売っていた「カネキ吉田商店」の「若めかぶとろろ」がやっぱり一番です。引っ越してきてからは、なかかなこのめかぶに出会うことがなかったのですが、つい最近嫁さんが見つけたそうです。どうやら150円で売ってるみたい。奈良では100円だったのに。。 ひさびさに出会えたこともあり、改めてその味に感動しました。なんたって歯ごたえが違います。たいていのスーパーのめかぶは、単にヌルヌルしてるだけなのですが、カネキさんのは適度なコリコリ感があります。焼酎がすすみます。量も比較的多めです。 このめかぶを安定して入手したいのですが。ダイエー系のスーパーならあるのかな? さて、形態素解析器 MeCab ですが、0.90の公開準備がようやく整いつつあります。解析精度のよきせぬバグ

    fuba
    fuba 2005/10/18
  • 1