タグ

ブックマーク / elm200.hatenadiary.org (2)

  • 形態素分析エンジン「茶筌(ChaSen)」の導入 - elm200 の日記(旧はてなダイアリー)

    語の文章を形態素分析すると何が起きるだろう?というふとした好奇心より、形態素分析エンジン「茶筌(ChaSen)」を導入する。 元ネタは、Yet Another 仕事のツール(45) 日形態素解析ツール「ChaSen」。 ソフトウェアのインストール まずは、Darts というソフトウェアが前提として必要らしい。「Darts は, Double-Array [Aoe 1989]を構築するための シンプルな C++ Template Library です.」とのこと。 最新の darts-0.31.tar.gz をインストールする。ちなみに私の環境は Debian Linux sarge である。 % tar zxvf darts-0.31.tar.gz % cd darts-0.31 % ./configure % make % make check % sudo make insta

    形態素分析エンジン「茶筌(ChaSen)」の導入 - elm200 の日記(旧はてなダイアリー)
    Kesin
    Kesin 2011/11/01
  • GETA 第2版 連想計算関数 wsh() の歩き方 - elm200 の日記(旧はてなダイアリー)

    趣旨 GETA 2 を使って連想検索を行う上で、もっともコアになる関数が libae.a にある wsh() である。しかし使い方がなかなか厄介である。ネットを探しても情報が少ないので、結局、$GETASRC/lib/ae/wsh.c というソースコードの解読を試みた。 wsh.c には wsh() という関数がひとつだけ定義されていて、おそらく高速化のためだろうが、関数呼び出しを極力行わないようにしている。$GETASRC/lib/ae/wt/*.f という類似度定義ファイルの内容も、最終的には wsh.c にインクルードして、wsh() に組み込む形で実行している。高速化重視で、やや可読性が失われているため、wsh() は相当読みづらかったが、なんとか解読に成功した。 wsh() の使い方について、具体例を交えて説明したい。 情報ソース まず説明の前に、有益な情報ソースへのリンクを掲げ

    GETA 第2版 連想計算関数 wsh() の歩き方 - elm200 の日記(旧はてなダイアリー)
    Kesin
    Kesin 2011/08/07
  • 1