タグ

2010年2月11日のブックマーク (2件)

  • TF-IDFで遊んでみた - uncertain world

    最近,何が分かってて何が分かってないのかがゴチャゴチャしてきたので, 頭の整理と勉強の為に, 某ニュースサイトの記事をクローリングして集めていたものを使って色々遊んでみました. 今回はTF-IDFの計算をMySQLでやるというお題. ここで言うTFとIDFの意味は以下のような感じです. 単語の文書における重みをとすると, 以下のような指標によってを特徴付けることができる. ・TF(局所的重み付け) 単語の文書における出現頻度を元に計算される重み. = 単語の文書における出現回数 / 文書に出現した単語数 ここで注意するのは,"文書に出現した単語数"は単語数であり,単語の種類数ではないという事. 例えば,「今日は東京で太郎君と東京タワーに行ってきました.東京まんじゅう美味いな.」という文書があった場合, 今日/は/東京/で/太郎/君/と/東京タワー/に/行っ/て/き/まし/た/./東京/まん

    TF-IDFで遊んでみた - uncertain world
  • 統計的機械学習(Hiroshi Nakagawa)

    統計的機械学習 (under construction) 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise 数学のおさらいppt pdf 線形代数学で役立つ公式 情報理論の諸概念 (KL-divergenceなど) 指数型分布族、自然共役 正規分布(条件付き、および事前分布) 評価方法ppt pdf 順位なし結果の評価(再現率、精度、適合率、F値) 順位付き結果の評価 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 モデル推定ppt pdf 潜在変数のあるモデル EMアルゴリズム 変分ベイズ法 Expecta