タグ

ブックマーク / yukinoi.hatenablog.com (3)

  • さらなる Naive Bayes: 不均衡データに対する UniversalSetNB と SelectiveNB の紹介 - Debug me

    ちゃお……† まいおり……† こちらの記事は機械学習数学 Advent Calendar 2017の23日目の記事となります。 qiita.com 以前、Naive BayesとComplement Naive Bayes, Negation Naive Bayesでの多クラス分類を比較しました。今回も別のNaive Bayes亜種での多クラス分類をみていこうと思います。なお多クラス分類とは、文書 $d$ がどのクラス $c$ に属しているかを求めることです。 それぞれの手法 Naive Bayes Naive Bayesによる多クラス分類では、ベイズの定理を適用した事後確率 $\Pr(c|d)$ が最大となるクラス $ \tilde{c}$ を求めます。ただ、$\Pr(d|c)$ を直接推定するのは難しいので、文書 $d$ を文書 $d$ に含まれる単語列 $ w_1, w_2, ..

    headless_pasta
    headless_pasta 2017/12/25
    悔しいぐらいためになる。
  • いろんなtf-idf - Debug me

    ちゃお……† 舞い降り……† 今回はtf-idfの話をしようと思います……† tf-idfとは tf-idfは、文書中の単語に関する重みの一種であり、主に情報検索や文章要約などの分野で利用される。 tf-idfは、tf(英: Term Frequency、単語の出現頻度)とidf(英: Inverse Document Frequency、逆文書頻度)の二つの指標にもとづいて計算される。 from tf-idf - Wikipedia ということで、 による単語の重み付けの方法です. 上記Wikipediaの記事ではオーソドックスな例が挙げられてますが, 実はいろいろな重み付けの方法があります. tf 以下、文書中の語の頻度を と記します. 2進重み (binary) $$ \displaystyle tf = \begin{cases} 1 & (f_ij \gt 0) \\ 0 & (

    いろんなtf-idf - Debug me
    headless_pasta
    headless_pasta 2016/11/15
    「いろんな……?」と思ったけど読んでみて納得。参考になります。
  • 確率的カウントアルゴリズム Morris Counting の話 - Debug me

    ちゃお。舞い降り......† ハイパフォーマンスPython 作者: Micha Gorelick,Ian Ozsvald,相川愛三出版社/メーカー: オライリージャパン発売日: 2015/11/20メディア: 大型この商品を含むブログ (3件) を見る 11/20にオライリーのHigh Performance Pythonの日語版が出るようです。 著者のMicha Gorelickさんの紹介文がエキセントリックなことで一部で話題沸騰中なです。(未来から来たマッドサイエンティストらしい...†) 私は先に出た英語版を読んでMorris Countingという推定カウントアルゴリズムが面白いと思ったんですけど、検索してみたら日語だとあまりヒットしなかったので、今回はそのお話をしたいと思います。トニーモリス (有名人) の話じゃないよ〜。 さてMorris Counting [Mor

    確率的カウントアルゴリズム Morris Counting の話 - Debug me
  • 1