タグ

ブックマーク / hillbig.cocolog-nifty.com (4)

  • SBM研究会発表資料 - SBMの推薦アルゴリズム - DO++

    先週末東工大で開催された第3回SBM研究会の発表資料です。 * SBMの推薦アルゴリズム [pdf] [pptx] - はてブの関連エントリで利用されているBayesian setsの解説とその改良(とチューニングちょっと) - Locality Sensitive Hash (LSH)の解説と実験結果.結構うまくいった (最初のエコは大切というのは前の発表からの流れです) ---- 研究会は熱心な人がたくさんいて、twitterでリアルタイムな反応がみれるなど新鮮でした。

    SBM研究会発表資料 - SBMの推薦アルゴリズム - DO++
  • fujimap: 簡潔な連想配列 - DO++

    博論終わったので仕事の合間にfujimapというライブラリを作ってみました。 fujimap project fujimapは作業領域が非常に小さい連想配列で、文字列からなるKeyを利用して、整数値もしくは文字列からなるValueを登録・参照することができるライブラリです。 今巷では大規模なKey Value Stroe (KVS)が流行っていますがFujimapは一台のマシンのメモリ上で動作することを想定して作成されています.Fujimapの特徴は必要な作業領域量が非常に小さいことです.キー自体を明示的に保存しないため、作業領域は値を格納するのに必要なサイズと、許容するfalse positive(後述)にのみ依存します。 例えば、google N-gramのunigramの約1300万キーワードとそれらの頻度の対数を記録する場合、false positiveを気にしないなら、一キーワー

    fujimap: 簡潔な連想配列 - DO++
    toton
    toton 2010/03/01
    Fujimapの特徴は必要な作業領域量が非常に小さいこと。「例えば、google N-gramのunigramの約1300万キーワードとそれらの頻度の対数を記録する場合、一キーワードあたり約4bit(全部で7MB、もともと136MB)で格納できます。」
  • OLL: オンライン機械学習ライブラリをリリースしました。 - DO++

    様々なオンライン学習手法をサポートしたライブラリ「OLL (Online-Learning Library)」をリリースしました。 プロジェクトページ 日語詳細ページ 学習、推定を行なう単体プログラムと、C++ライブラリからなります。(C++ライブラリ解説はまだ)。 New BSDライセンス上で自由に使えます。使った場合は感想や苦情などいただけると幸いです。 オンライン学習とは、一つずつ訓練データを見てパラメータを更新していく手法で、訓練データをまとめて見てから学習するバッチ学習(SVMs, 最大エントロピー法)と比べて非常に効率良く学習を行なうことができます。それでいながらSVMs, やMEsに匹敵する精度が出ます。 学習するデータの性質にもよりますが、例えば、英語の文書分類タスクで、15000訓練例、130万種類の素性の訓練データに対する学習が1秒未満で終わります(SVMsだと実装に

    OLL: オンライン機械学習ライブラリをリリースしました。 - DO++
  • 私達のNグラムはすべてあなたに属するある - DO++

    Googleが10兆語のデータから作成したn-gram(n単語列)の出現回数などを記録したデータを研究用途向けに配布するそうです[link]。機械翻訳、スペリングチェック、情報検索、構文解析、意味抽出、音声認識などなど用途は広いですね。クローリングして良質のデータを集めるのは一苦労なので、使ってみるとおもしろそう。 #All Our N-gram are Belong to You についてはここ参照。タイトルではもう一回日語に訳しなおしてみました

    私達のNグラムはすべてあなたに属するある - DO++
    toton
    toton 2006/11/11
    Googleが10兆語のデータから作成したn-gram(n単語列)の出現回数などを記録したデータを研究用途向けに配布するそうです
  • 1