[B! mecab] milk1000ccのブックマーク

milk1000cc id:milk1000cc

mecabに関するmilk1000ccのブックマーク (3)

[O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました
MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日本語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。その課題に対処するために、日本全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia 日本語版やはてなキーワードなどです。困ったことに、新語辞書を生成
milk1000cc 2015/03/14
mecab
リンク
Ruby + Mecab で日本語テキストから頻出キーワードを抽出する
こんにちは。Sleipnir Mobile for Android 開発担当の西田です。最近 Android アプリで、日本語テキストから頻出キーワードを抽出したいなあ等といったことを考えており、ちょっと調べてみました。まずは日本語の形態素解析ライブラリの Mecab を使おうと思いつくわけですが、これをアプリに組み込むにはちょっと辞書のサイズが大きすぎる感じです。(50MB 以上！）なのでどっかのサーバーで API を用意してやるのが良さげな感じです。 Mecab には各種スクリプト言語のバインディングが用意されているので、今回は Ruby でやることにしました。まずは Mecab + Ruby バインディング + 辞書をインストールします。Ubuntu 10.04 だと以下のようなコマンドでインストールできます: sudo aptitude install ruby1.9.1
milk1000cc 2011/10/24
ruby

mecab
リンク
Coreserverに最初からMeCabが入ってた件
ひどい、今気がついた。自力でMeCab入れて、MeCabのRuby用バインディング入れるところまではＯＫ。でもいざ使ってみると毎回コア吐くし、意味がわからんと思ってたら… なんか最初からMeCabとRuby用バインディング入ってるんですけど！しかも最初から入ってるやつがCore吐いてるっぽい (追記) Core吐いてる理由は、使っている辞書(UNIDIC)にあった可能性が。下に詳しく追記。使えないもの入れてるんじゃねーよ… というわけなので、デフォで入ってるMeCabのバージョンは最新の0.98だけど、自分で入れ直した方がよさそうです。まずはMeCab本体 wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz/download cd mecab-0.98 ./configure -
milk1000cc 2010/12/12
ruby

mecab
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx