タグ

形態素解析に関するques9のブックマーク (5)

  • MECAPIのソースコード公開

    MECAPIのソースコード公開 2007-04-01-1 [MECAPI][NLP][Programming] MECAPI[2006-09-18-1]のソースコードを公開。 きちんと書き直そうと思ってたんだけど、手抜きでそのまま公開します。 - MECAPI - MeCab Web Service (MeCab API) https://maapi.net/apis/mecapi - ソースコード ttp://maapi.net/apis/mecapi?mode=code サーバ負荷の問題があるので、大量にアクセス(例えば毎秒数回等)する 人は自分のサーバに設置して使って頂けると幸いです。 ソースは「無償・無保証・著作権放棄」(http://lifehacks.ta2o.net/byebye-copyright.html) ですので、好き勝手に使って下さい。 設置方法: (1) MeCa

    MECAPIのソースコード公開
  • 83's : MeCab用、2ちゃんねる辞書

    かな漢字変換用の2ちゃんねる辞書を 元に、MeCab用の辞書を作った。 ( ・∀・)つ[2ch.dic.2005-09-11-22-47] 辞書の追加の仕方はMeCabのサイトの辞書の追加方法のページを 見て下さい。 なんかあんまり正確でないんで、動詞・形容詞・接続詞の中で変だったやつは消しました。 それでもまだまだ変な定義されてる語が多い……。 あとコストが今んとこ3206で一律なんだけど、どうなんだろう。 $ mecab こんなスレageるなよ厨房 こんな 連体詞,*,*,*,*,*,こんな,コンナ,コンナ スレ 名詞,一般,*,*,*,*,スレ,スレ,スレ ageる 動詞,自立,*,*,一段,基形,ageる,アゲル,アゲル な 助詞,終助詞,*,*,*,*,な,ナ,ナ よ 助詞,終助詞,*,*,*,*,よ,ヨ,ヨ 厨房 名詞,一般,*,*,*,*,厨房,チュウボう,チュウボう EO

    ques9
    ques9 2007/03/24
    2ch語辞書
  • さくらインターネットで和布蕪(MeCab)をインストールする方法 - さぶちゃんねるブログ

    この文章は、さくらインターネット・スタンダードプラン(FreeBSD)でMeCab、ipadic、MeCab Perlモジュールをインストールする際のメモです。ここでのMeCabのバージョンは0.81です。最新版のMeCabではないので気をつけてください。 説明の都合上、カレントディレクトリを「/home/username/」とします。 表示の関係で来、一行に記述しなければならないのに改行して表示されている個所があります。注意してください。 ◆準備 アーカイブファイルをダウンロードします。 http://chasen.naist.jp/stable/ipadic/ipadic-2.4.4.tar.gz http://prdownloads.sourceforge.jp/mecab/14968/mecab-0.81.tar.gz http://prdownloads.sourceforge

    さくらインターネットで和布蕪(MeCab)をインストールする方法 - さぶちゃんねるブログ
  • Elementary, ... MeCab - HTML::TagCloud

    会社で、ブログのエントリに応じた反応をする(いわゆるBlogPet)の話になり、形態素解析をやってみようと気が向いたのでサンプルを作ってみました。 http://e8y.net/labs/tagcloud/ 入力されたテキストの内容を MeCab 様で形態素分析して、名詞の回数でタグクラウドします。MeCab は Perl モジュールも提供してくれてますので、数十分でできあがりました。Chasenのインストールで苦労したときと比べると大違い。 インストール http://sourceforge.jp/projects/mecab/files/ から、 mecab と mecab-ipadic の最新版をダウンロード。その後、それぞれ $ tar zxvf mecab-* $ cd mecab-* $ ./configure $ make # make install あと同じ http:/

  • Amazon Search のコンテンツ解析ロジックをリファクタリング中

    Amazon Search サービスを開始してから約2年になりました。開始始めは 2004 年 03 月 07 日らしいんですが、自分でも覚えていません・・・ 細かい修正を含めるて数えてみたら、52回目のバージョンアップになりますが、サーバの計算力も Pentium 4 から Athlon 64 X2 と大幅に向上したこともあり、コンテンツ解析部分の計算量を増やして、より適合度の高い関連商品が選択されるようにしてみました。 前より良くなってますよね? (なってなかったらごめんなさい・・・) ※新しいエントリーもしくは古いキャッシュが消えるまでお待ち頂いてからご確認ください。 さて、計算量を増やす代わりに、形態素解析を ChaSen (茶筌)から MeCab に変更しました。MeCab は ChaSen の3〜4倍程度は高速に動作するので、全体としては速度的に速くなっているかもしれません。

  • 1