タグ

2010年12月15日のブックマーク (2件)

  • phpのserializeを使うより高速でサイズもコンパクトに仕上げる「MessagePack」とPHP拡張:phpspot開発日誌

    phpのserializeを使うより高速でサイズもコンパクトに仕上げる「MessagePack」とPHP拡張 2010年12月15日- The MessagePack Project phpのserializeを使うより高速でサイズもコンパクトに仕上げる「MessagePack」とPHP拡張。 結構前のエントリのご紹介なので知っている人も多いと思うのですがご紹介。 phpには serialize という関数があって、配列等の複雑なデータも文字列にして、ファイル等に保存し、後ほど unserialize 等で変数に戻せて便利なのですが、MessagePackとそのPHP拡張を使えば、より高速で、serialize後のデータも小さくできます。 MessagePack自体はkumofsの内部で使われていて、PHP以外にもc++, erlang, haskell, java, perl, pyth

    volonte
    volonte 2010/12/15
  • TermExtract Perlで出来る特徴語抽出 - プログラマになりたい

    PerlのCPANモジュールを使って、簡単にベイジアンフィルターを使う方法を紹介したエントリーが思いのほか好評でした。ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと  調子に乗ってもう一つ、お気に入りのCPANモジュールの紹介です。日語の形態素解析といえばMeCabでほぼ間違いないのですが、MeCabはあくまで形態素解析器です。ということで、最小単位の形態素を検出することは出来ますが、連語等は分解されて出てきます。(当はちょっと工夫したら出せるのですが、それはまた次回)例えば、「集合知」という言葉が出てきたら、下のように分解されて出てきます。 集合 名詞,サ変接続,*,*,*,*,集合,シュウゴウ,シューゴー 知 名詞,一般,*,*,*,*,知,チ,チ 使い方にもよりますが、集合知という言葉で取りたい場合も多いと思います。以前、Yahoo!APIと組み合わせ