タグ

ブックマーク / hoxo-m.hatenablog.com (7)

  • トピックモデルの評価指標 Coherence に関する論文まとめ - ほくそ笑む

    LDA などのトピックモデルの評価指標として、Perplexity と Coherence の 2 つが広く使われています。 Perplexity はモデルの予測性能を測るための指標であり、Coherence は抽出されたトピックの品質を評価するための指標です。 トピックモデルは確率モデルであるため、Perplexity の定義は明確です。 一方、Coherence は「トピックが人間にとって分かりやすいかどうか」を評価する必要があるため、その算出方法について様々な議論があります。 記事では、Coherence に関する研究の中で、主要な流れを作っている、特に重要な 5 つの論文をピックアップして紹介したいと思います。 Coherence とは Coherence は、「トピックが人間にとって分かりやすいか」を表す指標です。 例えば、トピックが { farmers, farm, food

    トピックモデルの評価指標 Coherence に関する論文まとめ - ほくそ笑む
  • マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む

    対応のない 2 群間の量的検定手法として、最も有名なのは Student の t 検定でしょうか。 以前、Student の t 検定についての記事を書きました。 小標問題と t検定 - ほくそ笑む しかし、Student の t 検定は、等分散性を仮定しているため、不等分散の状況にも対応できるように、Welch の t 検定を使うのがセオリーとなっています。 ただし、これら 2つの検定は分布の正規性を仮定しているため、正規性が仮定できない状況では、Mann-Whitney の U検定というものが広く使われています。 Mann-Whitney の U検定は、正規性を仮定しないノンパラメトリック検定として有名ですが、不等分散の状況でうまく検定できないという問題があることはあまり知られていません。 今日は、これらの問題をすべて解決した、正規性も等分散性も仮定しない最強の検定、Brunner-

    マイナーだけど最強の統計的検定 Brunner-Munzel 検定 - ほくそ笑む
  • 可視化で理解するマルコフ連鎖モンテカルロ法(MCMC) - ほくそ笑む

    先日行われた第9回「データ解析のための統計モデリング入門」読書会にて、 「可視化で理解するマルコフ連鎖モンテカルロ法」というタイトルで発表させて頂きました。 発表スライドは以下です。 可視化で理解するマルコフ連鎖モンテカルロ法 from hoxo_m この発表は、みどりぼんに登場する、マルコフ連鎖モンテカルロ法(MCMC)のアルゴリズムである「メトロポリス法」と「ギブス・サンプラー」について、可視化して理解しようというお話です。 「マルコフ連鎖モンテカルロ法」というのは、字面だけ見ると難しそうですが、この発表で理解すべきポイントは、次のスライド 1枚に凝縮されています。 このことを念頭に置いて、それぞれの手法を見ていきましょう。 まず、メトロポリス法ですが、これは、 前の状態の近くの点を次の遷移先候補として選ぶ(マルコフ連鎖) そのときの確率比 r < 1 ならば確率 r で棄却する。それ

    可視化で理解するマルコフ連鎖モンテカルロ法(MCMC) - ほくそ笑む
    tnal
    tnal 2014/09/12
  • 小標本問題と t検定 - ほくそ笑む

    統計を学び始めると「t検定」というのが最初のほうで出てくると思います。 t検定は、20世紀前半に活躍した統計学者、ウィリアム・ゴセットによって「小標問題」というのを解決するために考案されました。 小標問題とは、正規分布の平均値の検定に正規分布を用いると、サンプルサイズが小さい場合にαエラーを過小評価してしまうという問題です。 今日はこの小標問題とそれを解決する t検定について R によるシミュレーションを使って説明してみたいと思います。 正規分布の平均値の検定 確率変数 が正規分布に従うとき、その平均値もまた、正規分布に従います。 数式で書くと、 となります。(分散が されていることに注意) なので、正規分布の平均値の検定には正規分布を使用すれば良いように思われます。 これを R でシミュレートしてみましょう。 # 正規分布を使用して平均値が 0 と等しいかの p値を求める norm

    小標本問題と t検定 - ほくそ笑む
  • Shiny アプリをワンクリックで起動するやつ作った - ほくそ笑む

    先日、RStudio から Shiny がリリースされ、早くも話題になっています。 Shinyを使って、RだけでWebアプリケーション - ixixixixixixi Shinyで5分でできる株価チャートウェブアプリ - はやしのブログ Rev.3 shinyでシャイニイイイイイイイイイイイイイイイイイイイイイイイイイ - 盆栽日記 Shiny は、R だけで手軽に Web アプリケーションが作れるということで、早速試してみましたが、これはすごいです。 解析結果を埋め込んだインタラクティブな Web アプリケーションを非常に簡単に作成することができます。 実際どういうのができるのか知りたい人は、デモページがあるので触ってみるといいでしょう。 Spark and Glimmer Users – RStudio Spark and Glimmer Users – RStudio Spark a

    Shiny アプリをワンクリックで起動するやつ作った - ほくそ笑む
    tnal
    tnal 2012/11/26
  • RPubs の新着記事をつぶやく Twitter Bot 作った - ほくそ笑む

    R ユーザのための Web サービス RPubs は、R で書かれたプログラムを実行結果つきで簡単に記事にしてアップロードできる仕組みを提供するサイトです。 teramonagi さん、wdkz さん、dichika さん、manozo さん、phosphor_m さんといった、R クラスタの有名人たちがこぞって使用を開始しているのを見ると、流行するきざしが感じ取れて期待が持てます。 先日の wdkz さんの発表資料を見て「自分も RPubs やりたい!」と思った人もいるんじゃないでしょうか。 私もその一人で、いきおいで RPubs に登録してみました。 が、しかし、まあ、なんというか・・・しょぼいです。 RPubs のサイトはまだ作り込まれていないらしく、ほとんど機能がありません。 せっかく上記の有名人たちをフォローしておいて、R の良質な情報源として活用できると期待していたのに、フォロ

    RPubs の新着記事をつぶやく Twitter Bot 作った - ほくそ笑む
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 1