a_kimuraのブックマーク / 2015年4月22日

a_kimura id:a_kimura

2015年4月22日のブックマーク (5件)

Telegram Messenger
Colorful Calls, Thanos Snap Effect, and an Epic Update for Bots Telegram's 10th update of 2023 adds improved calls with a colorful new design that use less of your phone's battery, a new vaporize effect…
a_kimura 2015/04/22
messenger

webservice
リンク
2.3　区間推定／信頼区間
←前へ | もくじ | 次へ→ 母集団から標本を取り出して計算した標本平均は、母平均の推定値として使うことができます。しかし、それは母平均にぴったり一致しているわけではありません。あくまでも推定値です。サンプルサイズが小さければ、標本平均と母平均が離れている可能性が高くなりそうですし、逆に、サンプルサイズが大きければ、標本平均と母平均とが近くなるような気がします。そこで、母平均を、ある幅を持って推定しようということを考えます。これを「区間推定」と呼びます。「標本から推定すると、母平均はこの値からこの値までの間にはいるのではないか」という形で推定をおこなうのです。区間推定の考え方区間推定の考え方を説明していきましょう。まずポテトの母集団の分布を考えます。この分布が「正規分布」にしたがっているとします。正規分布というのは、下の図のように平均を山の中心として左右になめらかに広がった「つり
a_kimura 2015/04/22
統計

統計学
リンク
Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類 - SmartNews Engineering Blog
ハイパーパラメータは自由に設定する値です。確率分布 $ \theta_{ik} $ などをまとめて$ {bf \Theta} $などと書くと、ハイパーパラメータを$ {\bf \alpha}$, ${\bf \beta}$と設定したとき、トピック混合率が$ {\bf \Theta} $で、単語生成率が$ {\bf \Phi} $で、各単語の背景トピックが$ {\bf Z} $であるような文章群$ {\bf W} $が得られる確率$P({\bf \Theta}, {\bf \Phi}, {\bf Z},{\bf W} |\alpha,\beta)$は以下のような図(グラフィカルモデル)によって表現され、実体は、 $$ P({\bf \Theta}, {\bf \Phi}, {\bf Z},{\bf W} |\alpha,\beta) = \left( \frac{prod_{k}\G
a_kimura 2015/04/22
LDA
リンク
トピックモデルシリーズ 4 LDA （Latent Dirichlet Allocation）
このシリーズのメインともいうべきLDA（[Blei+ 2003]）を説明します。前回のUMの不満点は、ある文書に1つのトピックだけを割り当てるのが明らかにもったいない場合や厳しい場合があります。そこでLDAでは文書を色々なトピックを混ぜあわせたものと考えましょーというのが大きな進歩です。さてこの記事の表記法は以下になります。前回のUMの場合と同一です。右2列は定数については数値を、そうでないものについてはR内の変数名を書いています。データは前の記事参照。グラフィカルモデルは以下になります（左: LDA, 右（参考）: 前回のUM）。　見ると四角のプレートがまで伸びてきただけです。しかしながらこれが曲者でUMからかなりのギャップがあります。以下の吹き出しの順に説明していきます。 ① ここではハイパーパラメータからディリクレ分布に従って『文書の数だけ』が生成されます。このは以下のような
a_kimura 2015/04/22
LDA

機械学習
リンク
トピックモデルシリーズ 2 NB（Naive Bayes）
このシリーズははじめの2ステップ（NB→UM→LDA）がとっつきにくいですがそこまで理解すれば後のモデルの拡張はそんなに難しくは感じませんでした。そのためNBから順にしっかり理解することが重要と思います。またNBとUMは文書のトピックが与えられているかそうでないかの違いしかなく、BUGSコードは全く同一のまま動きます（Stanでは離散パラメータを含みますので多少面倒になります）。今回はNBの分かりやすい説明を試みたのち、実際にStanでの実装と結果を見ていきたいと思います。はじめにこの記事の表記から。以下になっています。右2列は定数については数値を、そうでないものについてはR内の変数名を書いています。与えられているデータ（前回の記事の data1 の w.1）は以下の図のようになっています。文書が1-100（M）まであり、その各文書に144（V）種類の単語のいずれかが出現しています。
a_kimura 2015/04/22
LDA

機械学習
リンク
- 2015年4月26日
- 2015年4月22日
- 2015年4月19日