タグ

ブックマーク / hillbig.cocolog-nifty.com (5)

  • Slide 1

    hillbig@is.s.u-tokyo.ac.jp 2005 12 z z / / z zSuffix Arrays, Burrows Wheeler Transform z zCompressed SA, FM-index z zWavelet Tree, XWT (Tree BWT) zSuccinct (bit array, tree) 1990 2000 2005 z z MEDLINE (1100 500GB) z Blog Watcher (1100 blog ) z TREC2004 Terabyte Track (2500 426GB) z Web Pages in Internet ( PB ) z Genome (> 800G in 2004) z We can obtain accurate information from very large inaccurat

    thorikawa
    thorikawa 2014/12/22
  • カーネル多変量解析 - DO++

    タイトルのを買って読んでみた. カーネル多変量解析―非線形データ解析の新しい展開 (シリーズ確率と情報の科学) サポートページ 様々な解説記事で定評のある赤穂先生によるカーネル法による解析についての。日語で読めるカーネルに関するとしては、導入部の丁寧さと、そのあとの展開と深さ、最新の話まで抑えている点でお勧めだと思います。カーネルの性質、汎化性能とかはもちろんのこと、例えばカーネルk-means, スぺクトラルクラスタリング、(ちょっとだけ)Gaussian Process, Leave-one-outの閉じた式、L1正則化など、他の和書ではあまり見たことない内容が多く、中身が濃いです。ただ、これらは、どれもさーっとかいて気持ちがわかって、詳しくは参考文献を見るという感じです。まぁ、それだけ詰め込んでいるから仕方ないですね。 -- カーネル法とは、なんらかの対象を解析するときに、対

    カーネル多変量解析 - DO++
  • オンラインEMアルゴリズム - DO++

    EMアルゴリズム(Expectation Maximizationアルゴリズム、期待値最大化法、以下EMと呼ぶ)は、データに観測できない隠れ変数(潜在変数)がある場合のパラメータ推定を行う時に有用な手法である。 EMは何それという人のために簡単な説明を下の方に書いたので読んでみてください。 EMのきちんとした説明なら持橋さんによる解説「自然言語処理のための変分ベイズ法」や「計算統計 I―確率計算の新しい手法 統計科学のフロンティア 11」が丁寧でわかりやすい。 EMは教師無学習では中心的な手法であり、何か観測できない変数を含めた確率モデルを作ってその確率モデルの尤度を最大化するという枠組みで、観測できなかった変数はなんだったのかを推定する場合に用いられる。 例えば自然言語処理に限っていえば文書や単語クラスタリングから、文法推定、形態素解析、機械翻訳における単語アライメントなどで使われる。

    オンラインEMアルゴリズム - DO++
  • OLL: オンライン機械学習ライブラリをリリースしました。 - DO++

    様々なオンライン学習手法をサポートしたライブラリ「OLL (Online-Learning Library)」をリリースしました。 プロジェクトページ 日語詳細ページ 学習、推定を行なう単体プログラムと、C++ライブラリからなります。(C++ライブラリ解説はまだ)。 New BSDライセンス上で自由に使えます。使った場合は感想や苦情などいただけると幸いです。 オンライン学習とは、一つずつ訓練データを見てパラメータを更新していく手法で、訓練データをまとめて見てから学習するバッチ学習(SVMs, 最大エントロピー法)と比べて非常に効率良く学習を行なうことができます。それでいながらSVMs, やMEsに匹敵する精度が出ます。 学習するデータの性質にもよりますが、例えば、英語の文書分類タスクで、15000訓練例、130万種類の素性の訓練データに対する学習が1秒未満で終わります(SVMsだと実装に

    OLL: オンライン機械学習ライブラリをリリースしました。 - DO++
  • DO++: 機械学習による自然言語処理チュートリアル

    自然言語処理のときに使う機械学習手法のテクニックをざーっと2時間程度で紹介してほしいとのことだったので今日話してきました。基的に、そんなに頑張らなくても効果が大きいものを中心に説明(特にパーセプトロンとか)を説明してます。 紹介した手法はパーセプトロン、最大エントロピー、正則化、多クラス分類、系列分類(CRF, Structured Perceptron)などなどです。どれも一かじりする感じで網羅的に見る方を優先してます。個々の詳しい話はそれぞれの文献や実装などを当たってみてください。 スライド [ppt] [pdf] ここで話しているのは線形識別モデルの教師有り学習が中心で教師無し学習(クラスタリングなど)など他の自然言語処理を支える技術は省いてます。 こういうのを使って(使わなくてもいいけど)どんどんアプリケーション作らないといかんね。 Tarot is not used to ma

    DO++: 機械学習による自然言語処理チュートリアル
  • 1