タグ

Statisticsに関するrydotのブックマーク (33)

  • 食べログ3.8問題を検証 - クイックノート

    先日、twitter上でべログの星の数について、 ある問題が話題になりました。 べログの闇として話題になったその問題とは、 「評価3.8以上は年会費を払わなければ3.6に下げられる」 というものです。 べログは飲店についての口コミを集めるサイトで、 その評価は実際のユーザーによって形成されるものとして広く認知されています。 専門的なグルメリポーターでもなく、 一般の人々の素直な感想を集めることで、 その飲店のリアルな価値が知れると期待して、 利用しているユーザーも多いでしょう。 それだけに、 「べログが評価を恣意的に操作しているかもしれない」という話は、 瞬く間にネットで話題となりました。 さて、この話は実際に行われていることなのでしょうか。 べログでは、当然評価点は公開されているので、 このような恣意的な操作があれば、 何らかの形で偏りが見つかるはずです。 ということで、

    食べログ3.8問題を検証 - クイックノート
  • 不等間隔の状態空間モデル - StatModeling Memorandum

    日付単位とかでデータを取ることが多いこのご時世、等間隔の状態空間モデルを使うことが多いと思います。しかし、ふと不等間隔の状態空間モデルってどうやるんだろーとつぶやいたところ、ご指導いただきました。いつも大変感謝です。 .@berobero11 細かく等間隔に切って欠測扱いにするのが基.欠測で速度のおちないブロックサンプラーが有用になる.非線形常微分方程式でデータのない部分を「解いてしまう」方法は逐次モンテカルロ限定かな? ほとんど観測がないならカーネル回帰に直す方法もありますが端が近似になる— baibai (@ibaibabaibai) 2015, 2月 19 .@berobero11 間違ってもカルマンフィルタで補間してから,別の状態空間モデルをカルマンフィルタであてはめたりしないように.— baibai (@ibaibabaibai) 2015, 2月 19 @berobero11

    不等間隔の状態空間モデル - StatModeling Memorandum
  • 5分でわかるベイズ確率

    ベイズ統計学の基礎概念からW理論まで概論的に紹介するスライドです.数理・計算科学チュートリアル実践のチュートリアル資料です.引用しているipynbは * http://nhayashi.main.jp/codes/BayesStatAbstIntro.zip * https://github.com/chijan-nh/BayesStatAbstIntro を参照ください. 以下,エラッタ. * 52 of 80:KL(q||p)≠KL(q||p)ではなくKL(q||p)≠KL(p||q). * 67 of 80:2ν=E[V_n]ではなくE[V_n] → 2ν (n→∞). * 70 of 80:AICの第2項は d/2n ではなく d/n. * 76 of 80:βH(w)ではなくβ log P(X^n|w) + log φ(w). - レプリカ交換MCと異なり、逆温度を尤度にのみ乗す

    5分でわかるベイズ確率
  • ケーキに3回だけ刃を入れてできるだけ公平に分割したい話 - アジマティクス

    今日は楽しいパーティです。 白雪姫は、円形のケーキを作りました。 白雪姫 円形のケーキに上から1回だけ包丁を入れると、最大2分割できます。 2回包丁を入れると、最大4分割までできます。 では、3回包丁を入れると最大で何分割できるでしょうか。そのまま考えると、6分割でしょうか? 上図のように切れば、最大で7つに分割することができます。 ちなみに回包丁を入れると最大分割、回だと、回だと、そして回だと最大個のピースに分割できることがわかっています。なるべく多く線が重なるように切ればいいのです。実際にやって確かめてみたい感じありますが、しかし今回の題はそこではないのでまたこんどにしましょう。 白雪姫は、王子様からもらった大切な包丁をあまり使いたくなかったので、ケーキに3回だけ包丁を入れて7つに分割し、それを7人のこびとたちに下図のように配ることにしました。 こびとたち しかし、このような切り方で

    ケーキに3回だけ刃を入れてできるだけ公平に分割したい話 - アジマティクス
  • Qlik Senseのマップに顧客データを表示する | QlikView Training

    Qlik Cloud 日リージョンへの移行方法(qlik-cli利用時の注意点) 先日、ブログにて、日リージョンへテナントを移行する方法の全体像をご紹介しました。今回は、コマンドラインのqlik-cliを用いたテナント移行時の注意点と、コマンドやスクリプトの記述例をご紹介します。 Qlik Application Automation活用術:Microsoft Teamsにメッセージを配信する Qlik Sense SaaSを使用していて、メジャーの結果と事前に設定した閾値を比較して、閾値を超えたら通知を飛ばせたら良いな、と考えたことはありませんか?記事では、Qlik Sense SaaSの「Qlik Application Automation」でMicrosoft Teamsにメッセージを配信する方法を紹介します。

  • 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料

    「第5回 プログラマのための数学勉強会 発表資料 (2015/11/21[sat])」 内容は統計学の素養がある方には基的な事項ですが、ベクトルと内積で見方を変えてみたという点と、あまり統計学に親しみがない方にも理解してもらえるようなまとめになっている、というところにスライドの独自性があると考えていますので、その辺り良ければご覧ください^^Read less

    「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
  • 【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita

    統計学や機械学習をを勉強していると「尤度」という概念に出会います。まず読めないというコメントをいくつかいただきましたが、「尤度(ゆうど)」です。「尤もらしい(もっともらしい)」の「尤」ですね。犬 じゃありませんw 確率関数や確率密度関数を理解していれば数式的にはこの尤度を処理できると思うのですが、少し直感的な理解のためにグラフィカルに解説を試みたいと思います。 コードの全文はGithub( https://github.com/matsuken92/Qiita_Contents/blob/master/General/Likelihood.ipynb )にも置いてあります。 正規分布を例にとって 正規分布の確率密度関数は f(x)={1 \over \sqrt{2\pi\sigma^{2}}} \exp \left(-{1 \over 2}{(x-\mu)^2 \over \sigma^2

    【統計学】尤度って何?をグラフィカルに説明してみる。 - Qiita
  • PyMCがあれば,ベイズ推定でもう泣いたりなんかしない

    ベイズ推定の基とPyMCによる簡単な実装例です. 関連資料: https://github.com/scipy-japan/tokyo-scipy/tree/master/006/shima__shimaRead less

    PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
  • なぜベイズ統計はリスク分析に向いているのか?-その哲学上および実用上の理由-

    連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読むtakehikoihayashi

    なぜベイズ統計はリスク分析に向いているのか?-その哲学上および実用上の理由-
  • 今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ

    どもお久しぶりです。林岳彦です。ローソンなどで売ってるいなばのタイカレーはそうめんのつけ汁として使ってもマジうまいのでオススメです。 さて。 今回は前々回の記事: 因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) - Take a Risk:林岳彦の研究メモ の続編として、逆のケースとなる「因果関係があるのに相関関係が見られない」ケースについて見ていきたいと思います。あんまり長いと読むのも書くのも大変なので、今回はまずは前編として「検定力の問題」に絞って書いていきます。 (*今回は上記の前々回の記事での記述を下敷きに書いていきますので、分からないところがあったら適宜前々回の記事をご参照ください) まずは(今回の記事における)用語の定義:「相関」と「因果」 今回も少しややこしい話になると思うので、まずは用語の定義をしておきたいと思います。(*細かいと

    今回は因果関係があるのに相関関係が見られない4つのケースをまとめてみた(前編:検定力が低い) - Take a Risk:林岳彦の研究メモ
  • カルバック・ライブラー情報量 - Wikipedia

    カルバック・ライブラー情報量(カルバック・ライブラーじょうほうりょう、英: Kullback–Leibler divergence)は2つの確率分布の差異を計る尺度である。 確率論と情報理論で利用され様々な呼び名がある。以下はその一例である: カルバック・ライブラー・ダイバージェンス(KLダイバージェンス) 情報ダイバージェンス(英: information divergence) 情報利得(英: information gain) 相対エントロピー(英: relative entropy) カルバック・ライブラー距離 ただしこの計量は距離の公理を満たさないので、数学的な意味での距離ではない。 応用上は、「真の」確率分布 P とそれ以外の任意の確率分布 Q に対するカルバック・ライブラー情報量が計算される事が多い。たとえば P はデータ、観測値、正確に計算で求められた確率分布などを表し、Q

  • ノイズ耐性のある二分探索 - www.kotha.netの裏

    観測にノイズが乗っても対処できる二分探索が意外と簡単に書けることが分かったのでメモ。 問題 (n-1)個の整数からなる列がある。そのうち左からi個は(-1)であり、それ以外は1である。 n=6, i=3の例 -1 -1 -1 1 1クエリを繰り返すことでiを求めたい。各クエリは整数kであり、答として左からk番目の整数の値が得られる。ただし、この答にはノイズが加算される。ノイズは標準偏差σ(既知とする)の正規分布に従う。 解法 iがどの値を取るかの確率分布を持っておいて、クエリの答が得られるたびにベイズの定理に従って更新する。最初はn通りの一様分布。クエリは、得られる情報量の期待値を最大化するように選ぶ。これには、(-1)と1の境界よりも右にあるか左にあるかが半々に近い位置を選べば良い。 iの確率分布が十分に偏ったら終了。 実験 以下では、iが特定の値を取る確率が95%を越えた時点で探索を終

    ノイズ耐性のある二分探索 - www.kotha.netの裏
  • 小標本問題と t検定 - ほくそ笑む

    統計を学び始めると「t検定」というのが最初のほうで出てくると思います。 t検定は、20世紀前半に活躍した統計学者、ウィリアム・ゴセットによって「小標問題」というのを解決するために考案されました。 小標問題とは、正規分布の平均値の検定に正規分布を用いると、サンプルサイズが小さい場合にαエラーを過小評価してしまうという問題です。 今日はこの小標問題とそれを解決する t検定について R によるシミュレーションを使って説明してみたいと思います。 正規分布の平均値の検定 確率変数 が正規分布に従うとき、その平均値もまた、正規分布に従います。 数式で書くと、 となります。(分散が されていることに注意) なので、正規分布の平均値の検定には正規分布を使用すれば良いように思われます。 これを R でシミュレートしてみましょう。 # 正規分布を使用して平均値が 0 と等しいかの p値を求める norm

    小標本問題と t検定 - ほくそ笑む
  • データ分析における不確実性と変動性の違い - About connecting the dots.

    仕事をしていてデータを意思決定に用いる場合,データから予測されるシミュレーション結果が,どの程度信頼できるかということを判断する必要があります.例えば前期に20回実施して,14回は想定通りの効果が得られ,残りは失敗した施策があるとして,これを今期実施したらどの程度成功して,いくらの売り上げになるのか,みたいな場合です. これを職場の偉い人に説明しにいくときに,予測売り上げをわかりやすく説明する必要があります.もちろん予測ぴったりになるとは限らないので,ある程度のレンジをもって伝えるわけですが,このときに,できるだけレンジの幅を縮めたり,また説明性を高めたりしないといけないわけですね.この予測のレンジについて,変動性と不確実性の2種類に区分することができます,というのが今回のネタです.元ネタはこちらのになります*1. 入門リスク分析―基礎から実践 作者: デビッドヴォース,David Vo

    データ分析における不確実性と変動性の違い - About connecting the dots.
  • プログラマーのための確率プログラミングとベイズ推定

    プログラマーのための確率プログラミングとベイズ推定¶PythonとPyMCの使い方¶ベイズ推定(Bayesian method)は,確率推論のためのもっとも適切なアプローチであるにもかかわらず,書籍を読むとページ数も数式も多いので,あまり積極的に読もうとする読者は少ないのが現状である.典型的なベイズ推定の教科書では,最初の3章を使って確率の理論を説明し,それからベイズ推論とは何かを説明する.残念ながら多くのベイズモデルは解析的に解くことが困難であるため,読者が目にするのは簡単で人工的な例題ばかりになってしまう.そのため,ベイス推論と聞いても「だから何?」と思ってしまうのである.実際,著者の私がそう思っていたのだから. 最近の機械学習のコンテストで良い成績を収めることができたので,私はこのトピックを復習しようと思い立った. 私は数学には強い方である.しかしそれでも,例題や説明を読んで頭の中で

  • チャートジャンクは役立つ? | Okumura's Blog

    Useful junk?: the effects of visual embellishment on comprehension and memorability of charts というペーパーを教えていただいた。ACM会員でない場合は,ほぼ同じものがここに公開されている。 どこかで見た絵だと思ったら,このブログで紹介されていたのを見て,忘れていた。 Nigel Holmesのグラフィックと,Rで学生が描いたような単純なグラフとを比較して,どちらが理解しやすいか,どちらが記憶に残りやすいかを,被験者を使って調べた研究である。案の定,Holmesのグラフィックのほうが記憶に残りやすいという結果であった。 これは,チャートジャンクは少ない方がよい,データ/インク比(data-ink ratio)は大きい方がよいというTufteの主張の反証ということらしい。 しかし,実際にTufteの

  • 少年犯罪は急増しているか

    『犯罪白書』平成19年度版をもとに少年犯罪は急増しているか(平成19年度版)を作成しました。 少年犯罪は急増しているか(平成19年度版) 少年犯罪は急増しているか 少年犯罪が急増しているということがよく報道されています。しかし、当に増加しているのでしょうか。報道のイメージに騙されず、きちんと統計を見るようにしてみましょう。 ということで、インターネットにつなぐことができれば誰でもデータを見ることができる「犯罪白書」平成13年版をもとに作成したグラフを見てみることにしましょう。 なお「犯罪白書」は法務省のサイトから、誰でもみることができます。これまで、白書なんて見たことがなく、メディアの言うことを鵜呑みにしている人は是非とも見てみましょう。 まず、少年犯罪全体がどのように推移しているかを見てみましょう。なお、この数はすべて検挙者数であることは頭に入れておく必要があります。なにしろ、検挙して

  • 人工知能学会の表紙の件について最尤推定とMAP推定したらがっかりした - @yamitzky エンジニアブログ

    2013-12-28 人工知能学会の表紙の件について最尤推定とMAP推定したらがっかりした 当にがっかりしたのが、「女性蔑視だ」って騒いでいる人たちは、「性の役割から自由であること」に関して、全く興味がないんだろうなあ、と思ってしまったこと。 人工知能学会の表紙は女性蔑視? - Togetterまとめ 人工知能学会誌の表紙、女性イラストレーターが描いていた 学会誌名の変更と新しい表紙デザインのお知らせ | 人工知能学会 (The Japanese Society for Artificial Intelligence)より 私自身は「男性らしさ、女性らしさ」みたいなものがあまり好きではなく、「○性はこういう職業に就くべき」とか「男性だから出世する」とかが好きではない。もっと言うと「女性の管理職が少ないから登用しよう」というのも好きではない(「性別に一切関係なく管理職は登用されるべきだ」と

  • JIN'S PAGE - R

    R、R言語、R環境・・・・・・ Rのダウンロードとインストール リンク集 題名 Chap_01 データ解析・マイニングとR言語 Chap_02 Rでのデータの入出力 Chap_03 Rでのデータの編集と演算 Chap_04 Rと基統計量 Chap_05 Rでの関数オブジェクト Chap_06 Rでのデータの視覚化(1) Chap_07 Rでのデータの視覚化(2) Chap_08 Rでのデータの視覚化(3) Chap_09 GGobiとデータの視覚化(Rgobi) Chap_10 Rと確率分布 Chap_11 Rと推定 Chap_12 Rと検定 Chap_13 Rと分散分析 Chap_14 Rと回帰分析 Chap_15 Rと重回帰分析 Chap_16 Rと一般化線形モデル Chap_17 Rと非線形モデル Chap_18 Rと判別分析 Chap_19 Rと樹木モデル Chap_20 WEK

  • RjpWiki - RjpWiki

    RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですRjpWiki はオープンソースの統計解析システム 《R》 に関する情報交換を目的とした Wiki です † どなたでも自由にページを追加・編集できます. (初めて投稿・既存記事への追加・修正を行なう方はこのページ末の注意*1を御覧下さい) ページへのファイル添付については、画像ファイルのみパスワードなしで可能としてあります(ページ上部「画像添付」より)。その他のファイルの添付はパスワードを入力することで可能です(ページ上部「ファイル添付」より)。現在のパスワードは, Rでの round(qt(0.2,df=8),3) の実行結果です。 スパム書き込みに対処するため、書き込み系の処理に対してパスワードを設けました。ユーザ名の欄には,Rで round(qt(0.2,df=8),3) を実行