タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Mecabに関するEhrenのブックマーク (3)

  • eclipseからJavaでMeCabを利用するためにバインディングを行った記録 - あったこといろいろ

    Javaから形態素解析エンジンであるMeCabを利用したいと考え調べたところ、Javaバインディングが存在するとのことで導入を行った。 結構いろんなところでハマったので、メモっておく。 設定の際は、このサイトを参考にした。 Twitterから取得した「つぶやき」を品詞に分解する - 放浪するエンジニアの覚え書き 使用した環境 MAC OS X 10.9.4 eclipse Luna Release (4.4.0) JDK 1.8.0_20 手順 1. 家のサイトからMeCab体をインストールする。 2. 家のサイトからMeCab 用の辞書をダウンロードし、解凍する。 3. 家のサイトからJavaバインディングをダウンロードし、解凍する。 4. 解凍したファイル内のMakefileを以下のように書き換える(パスなどの条件が各自異なるはずなので、同じものを利用しても実行できない可能性が

    eclipseからJavaでMeCabを利用するためにバインディングを行った記録 - あったこといろいろ
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
    Ehren
    Ehren 2010/11/16
  • MeCab+pythonという組み合わせ

    photo by s1m0ne "Ocean tender love cocktail" 最近は日語を解析してなんかできないかなぁと思っているので、形態素解析用のソフトウェアMeCabをインストールして、いろいろ遊んでいる状態です。インストールはそんなに難しくないと思いますが、とりあえず載せておきたいと思います。 まずはMeCabとその辞書、ライブラリ一式のインストール。ソースからビルドしてインストールするのでもいいですが、今回は手軽にapt-getを使用。 $ sudo apt-get install mecab mecab-ipadic mecab-utils libmecab1 libmecab-dev で簡単にインストールできました。 ですがこのままでは辞書の文字コードがeuc-jpであるため、utf-8が標準のubuntuでは少し使いづらい。調べてみたら、IPA辞書をeuc-j

    MeCab+pythonという組み合わせ
    Ehren
    Ehren 2010/03/03
  • 1