タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

mecabに関するmilk1000ccのブックマーク (3)

  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

  • Ruby + Mecab で日本語テキストから頻出キーワードを抽出する

    こんにちは。Sleipnir Mobile for Android 開発担当の西田です。 最近 Android アプリで、日語テキストから頻出キーワードを抽出したいなあ等といったことを考えており、ちょっと調べてみました。 まずは 日語の形態素解析ライブラリの Mecab を使おうと思いつくわけですが、これをアプリに組み込むにはちょっと辞書のサイズが大きすぎる感じです。(50MB 以上!)なのでどっかのサーバーで API を用意してやるのが良さげな感じです。 Mecab には各種スクリプト言語のバインディングが用意されているので、今回は Ruby でやることにしました。 まずは Mecab + Ruby バインディング + 辞書をインストールします。Ubuntu 10.04 だと以下のようなコマンドでインストールできます: sudo aptitude install ruby1.9.1

    Ruby + Mecab で日本語テキストから頻出キーワードを抽出する
  • Coreserverに最初からMeCabが入ってた件

    ひどい、今気がついた。 自力でMeCab入れて、MeCabのRuby用バインディング入れるところまではOK。でもいざ使ってみると毎回コア吐くし、意味がわからんと思ってたら… なんか最初からMeCabとRuby用バインディング入ってるんですけど! しかも最初から入ってるやつがCore吐いてるっぽい (追記) Core吐いてる理由は、使っている辞書(UNIDIC)にあった可能性が。下に詳しく追記。 使えないもの入れてるんじゃねーよ… というわけなので、デフォで入ってるMeCabのバージョンは最新の0.98だけど、自分で入れ直した方がよさそうです。 まずはMeCab体 wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz/download cd mecab-0.98 ./configure -

  • 1