タグ

mecabに関するjune29のブックマーク (4)

  • [O] MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました

    MeCab 用の新語辞書 mecab-ipadic-neologd を公開しました Tweet [NLP] 日語の文書を機械的に処理しようと思った時に、ほとんどの人が MeCabとIPADIC(IPA辞書)の両方、または、どちらかを使うことになります。 IPADICはとてもよく出来ていますが、更新されないまま年月が過ぎているので、例えば2015年3月上旬に急に流行ったような言葉は収録していません。そのため、今日生まれたような新しい文書(例、Apple Watch発売)を解析する時に困ります。困らない人もいますけど、僕は困ります。 その課題に対処するために、日全国津々浦々、自然言語処理に関わる全ての人は独自にMeCabの新語辞書を作って対応しているわけです。その際に元データとして使われることが多いのは Wikipedia語版やはてなキーワードなどです。 困ったことに、新語辞書を生成

    june29
    june29 2015/03/17
    プログラマの世界でそうなってきたように、研究者の世界でも、知見やデータやノウハウの共有がラグなしで進行していくといいな (研究室時代の自分へ)
  • 顔文字をMeCabで形態素解析する - Haroperi.log

    顔文字を形態素解析? テキストコミュニケーションにおける「身振り手振り言語」とも言われる顔文字は、目・鼻・口などの顔のパーツから構成されています。ところで顔文字をパーツごとに分割し、パーツの種類(品詞)を推定するというタスクは、形態素解析と同じ問題に帰着します。そこで今回私は、形態素解析器として使われているMeCabを用いて、顔文字を形態素解析してみました。 デモ まずはデモを試してみてください。 http://www.haroperi.info/cgi-bin/emoticon.cgi 実行結果 未知語処理が苦手なようで、なかなか正確な形態素解析は行えませんが、教師データを解析してみると、以下のように綺麗に分割・品詞付与されます。 詳細 詳細はhttp://www.haroperi.info/emoticon/mecab.htmlに書きました。これ以上はどこにも書いていません。 今後、M

    顔文字をMeCabで形態素解析する - Haroperi.log
  • MeCab および MeCab-Ruby をインストールする - CasualConc

    このページの記述は、次のページを参考にしました。 RとLinuxと... http://cms.ias.tokushima-u.ac.jp/index.php?RMeCab ちなみに、ここでは、OS 標準の Ruby からアクセスしたり、RubyCocoa で作成したプログラムからも使えることを前提にインストールしますが、 もし、直接 Ruby を使って MeCab を使いたいだけなら、MacPorts を使ってパッケージをインストールする方が楽です。  その方法は、こちらから。 この方法で MeCab-Ruby をインストールしても、Ruby から MeCab が使えるようになります。 文字ばかりだと、ターミナルを扱った事がない人にはちょっとわかりづらいかと思い、スクリーンショットいっぱいのページも作りました。 ここでの方法は、Leopard と Snow Leopard の両方で試して

    june29
    june29 2009/11/04
    MeCab 0.98 のインストール手順。
  • きまぐれ日記: Mac OS X Leopard に「標準で」インストールされている MeCabを使ってみる

    Mac OS X Leopard の Spotlight に MeCab が使われているらしいという情報を聞いたので、実際に深追いしてみました。 いとも簡単に /usr/lib/libmecab* , /usr/include/mecab.h と /usr/lib/mecab/dic/apple/{ja,tc,sc} というディレクトリを発見しました。ts, sc は traditional/simplified Chinese (繁体字/簡体字) の略で、中国語の辞書だと推察されます。辞書のディレクトリはさらに dic/apple/ja/{LE,BE} という風に、エンディアンごとに分かれています。MeCabの辞書はエンディアン依存なので、こうするしかないのかもしれません。 さて、この辞書を使って、UTF8の文字列を流し込んでみたのですが、うまいこと解析してくれません。MeCabのバイナ

    june29
    june29 2008/07/13
    試したいことがある
  • 1