タグ

統計に関するlike_futsalのブックマーク (19)

  • 『Pythonではじめる数理最適化』の7章「商品推薦のための興味のスコアリング」をStanで解く

    この記事は確率的プログラミング言語 Advent Calendar 2023の12/8の記事です。 概要 『Pythonではじめる数理最適化』はいいですよね。親しみやすい実例、分かりやすい数式、きれいなPythonコードと三拍子そろっています (今年のアドカレで改訂版が近いうちに出ることを知りました)。 7章「商品推薦のための興味のスコアリング」では、「何日前に直近の閲覧があったか」と「閲覧回数」の二つの軸で興味のスコアを考えます。興味のスコアが単調減少であるという制約のもと、再閲覧の割合と推定値の二乗誤差を最小化するという凸二次計画問題として解いています。この記事ではStanで解くとこんな感じですというのを示します。メリットとしてベイズ信頼区間も推定されます。 データ 公式のリポジトリの7章のipynbファイルを途中まで実行して得られるデータフレームrf_dfを使用します。他の人の扱い

    『Pythonではじめる数理最適化』の7章「商品推薦のための興味のスコアリング」をStanで解く
  • 3-4. いろいろな平均 | 統計学の時間 | 統計WEB

    一般的な平均、つまりデータの値を全て足してデータの数で割ったもの、は「算術平均」と呼ばれます。平均にはこの算術平均以外に「幾何平均」や「調和平均」といったものがあります。 ■幾何平均 幾何平均は次の式から求めます。 幾何平均は比率や割合で変化するものに対してその平均を求めるときに使います。例えば過去3年間で家賃が20%、10%、15%上昇したときに、1年で平均何%上昇したかを算出する際に用いられます。 この時の平均は幾何平均の式に当てはめて次のように求められます。(この計算は一般的な電卓ではできませんので関数電卓もしくはExcelで行ってください。)

    3-4. いろいろな平均 | 統計学の時間 | 統計WEB
    like_futsal
    like_futsal 2022/12/07
    平均
  • 統計検定を理解せずに使っている人のために I - J-Stage

    318 化学と生物 Vol. 51, No. 5, 2013 セミナー室 研究者のためのわかりやすい統計学-1 統計検定を理解せずに使っている人のために I 池田郁男 東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.

  • 統計検定を理解せずに使っている人のために II

    408 化学と生物 Vol. 51, No. 6, 2013 15 μ σ μ σ μ σ 16 セミナー室 研究者のためのわかりやすい統計学-2 統計検定を理解せずに使っている人のために II 池田郁男 東北大学大学院農学研究科 15 16 409 化学と生物 Vol. 51, No. 6, 2013 μ σ σ σ μ σ * 17 μ σ μ σ * μ μ μ Z n 1 1 = − ( ) X µ σ σ 18 μ σ σ σ σ σ μ σ μ μ μ σ / n σ / n σ / n σ / n * * 17 18 σ 410 化学と生物 Vol. 51, No. 6, 2013 t u n 1 1 = − ( ) X µ σ σ σ σ σ μ t X 1 1 = − ( ) µ SE 19 μ μ μ μ μ 20 μ σ μ μ σ μ μ u n / 19 20 4

  • Python pandas プロット機能を使いこなす - StatsFragments

    pandas は可視化のための API を提供しており、折れ線グラフ、棒グラフといった基的なプロットを簡易な API で利用することができる。一般的な使い方は公式ドキュメントに記載がある。 Visualization — pandas 0.17.1 documentation これらの機能は matplotlib に対する 薄い wrapper によって提供されている。ここでは pandas 側で一処理を加えることによって、ドキュメントに記載されているプロットより少し凝った出力を得る方法を書きたい。 補足 サンプルデータに対する見せ方として不適切なものがあるが、プロットの例ということでご容赦ください。 パッケージのインポート import matplotlib.pyplot as plt plt.style.use('ggplot') import matplotlib as mpl m

    Python pandas プロット機能を使いこなす - StatsFragments
  • 機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 背景 広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年半ばに外部のデータ分析専門の会社に、その日の予算消化が異常の場合、アラートを鳴らすシステムを外注開始、2016年10月に納品 2017年9月半ばに進捗率が芳しくないことが判明した。終わる見込みが立たなかったので、私が解決に当たる (ついでに"Machine Learning: The High-Interest Credit Card of Technical Debt[2]"と呼ばれる負債化してしまう機械学習のシステムとはという評価軸があったので、これらから今回使えそうなプラクティスを取り出して適応してみたいというモチベーションが

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう
  • 【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita

    統計をこれから学ぼうという方にとって、非常に重要な概念ですが理解が難しいものに「標準偏差」があると思います。「平均」くらいまでは馴染みもあるし、「わかるわかるー」という感じと思いますが、突如現れる「標準偏差」 の壁。結構、この辺りで、「数学無理だー」って打ちのめされた方もいるのではないでしょうか。 先にグラフのイメージを掲載すると、下記の赤い線の長さが「標準偏差」です。なぜこの長さが標準偏差なのか、ということも解き明かしていきます。 (code is here) 記事では数学が得意でない方にもわかるように1から標準偏差とはなにか、を説明してみようという記事です。 数式はわかるけど、イマイチ「標準偏差」の意味わからんという方にも直感的な理解がしてもらえるような説明もしていきますので、ぜひご覧ください。 (※ この記事では標準偏差の分母に $n$を使用しています。$n-1$を使用するケースも

    【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita
  • 【保存版】一次情報をゲットするために確認するべきウェブサイトをまとめてみました(随時更新) - とある浪速の調査雑記

  • 社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ

    今日何気なく呟いたツイートが、見ていたら結構RT&favされていた模様で。 社会人が統計学とか機械学習を独習するには、いわゆる「落下傘方式」が良いと思う。必要な時にその項目だけ学んで実践する。その繰り返しで学問体系のマス目が埋まっていけば良し。あと、初めに体系立ったテキストを分からなくても良いので通読するのも良し。だいたいの地図が頭に入る。— TJO (@TJO_datasci) 2014, 3月 31 この後も色々補足で呟いたんですが、せっかくなので簡単にまとめたものを書いてみました。これから社会人で統計学や機械学習を学ぼうと考えている人の参考になれば嬉しいです。 あ、これはベタな言い方をすれば「データサイエンティスト(死語)になるにはどうしたら良いか」にもつながる話なんですが、ここではもっと広く「統計学や機械学習を使う仕事をしたいと思ったらどう独習するべきか」という話にしておこうと思い

    社会人が統計学や機械学習を学ぶなら「落下傘方式」で - 渋谷駅前で働くデータサイエンティストのブログ
  • ソフトウェアのための統計学 – 前編 | POSTD

    ソフトウェア開発の原点は可能性の追求であり、不可能を可能にすることです。ひとたび ソフトウェア が開発されると、エンジニアは次に 程度 という課題に向き合うことになります。企業向けのソフトウェアであれば、「速度はどれくらいか」と頻繁に問われ、「信頼性はどの程度か」という点が重視されます。 ソフトウェアのパフォーマンスに関する質問に答え、さらには正しい内容を語る上で欠かせないのが統計学です。 とはいえ、統計学について多くを語れる開発者はそうはいません。まさに数学と同じで、一般的なプロジェクトで統計学が話題に上ることなどないのです。では、新規にコーディングをしたり、古いコードのメンテナンスをしたりする合間に、手が空くのは誰でしょうか? エンジニアの方は、ぜひ時間を作ってください。近頃は、15分でも貴重な時間と言えるでしょうから、 こちらの記事をブックマークに追加 しておいてもいいでしょう。とに

    ソフトウェアのための統計学 – 前編 | POSTD
  • FINDJOB!終了のお知らせ | FINDJOB!

    FINDJOB! 終了のお知らせ 2023年9月29日にFINDJOB!を終了いたしました。 これまでFINDJOB!をご利用いただいた企業様、求職者様、様々なご関係者様。 大変長らくFINDJOB!をご愛顧いただき、誠にありがとうございました。 IT/Web系の仕事や求人がまだ広く普及していない頃にFind Job!をリリースしてから 約26年間、多くの方々に支えていただき、運営を続けてまいりました。 転職成功のお声、採用成功のお声など、嬉しい言葉もたくさんいただきました。 またFINDJOB!経由で入社された方が人事担当になり、 FINDJOB!を通じて、新たな人材に出会うことができたなど、 たくさんのご縁をつくることができたのではないかと思っております。 2023年9月29日をもって、FINDJOB!はその歴史の幕を下ろすこととなりましたが、 今後も、IT/Web業界やクリエイティブ

    FINDJOB!終了のお知らせ | FINDJOB!
  • 非エンジニアにもオススメ。数学が苦手な統計初心者がR言語を触ってみる。

    こんにちは。海原です。 ここ最近、統計学が流行していますね。「統計学が最強の学問である」がきっかけになっているのでしょうか。数年前に比べてマーケティングが重要視される今日、統計の需要が増えたのかもしれません。私はまだこのを読んでいませんが、読もうと思った矢先にたまたま統計ツールRに出会いまして、調べながら少しいじってみました。Rを使った感触から申し上げますと、SQLを叩いて好きなデータをピックアップするよりもずっと簡単で小気味良いのです。 他の統計ツールには色々な種類があるようですが、よく知られるものとしてIBMのSPSS (IBM)(有償)があります。 その点、RはMac/Win両方に対応しており無償です。またSPSSに劣らない機能を備えており、統計学者の間でデファクトスタンダードとなっているようです。 Rに関して検索すれば丁寧な解説サイトがたくさんありますので、インストールから何の心

    非エンジニアにもオススメ。数学が苦手な統計初心者がR言語を触ってみる。
  • SPSS基礎資料集目次

    カテゴリカルデータに対する、基集計である、頻度集計(=度数分布表の作成)を行う 「パーセンタイル値」の算出は、これを利用

    like_futsal
    like_futsal 2012/02/12
     検定法 SPSSから
  • 統計セミナー-資料.indd

    ~

    like_futsal
    like_futsal 2012/02/12
    多群 検定
  • 私のための統計処理 ー多重比較検定

    [基解説→ポストホックテストとしての多重比較検定]  →[検定-1要因多群-2要因多群] →[ANOVA] 独立した群が3群以上あるとき、どの群とどの群の平均値に有意差があるかを検定! 基的に、多重検定は、2群比較のためのt検定の拡張版である。 比較の数が増加する(=2群ずつの検定を繰り返す)ことによる第一種の過誤の増大を調整するために、危険率の補正方法が異なる種々の検定がある。↓ (棄却域:Fisher PLSD < Tukey < Bonferroni < Scheffe) ◎多重比較の2通りの立場 ・事前比較 (A priori comparisons): 結果を分析する前に,理論的な背景などにより,比較する平均値についての仮説がある場は、 ANOVA抜きで、多重比較を行う。 ・事後比較 (Post hoc comparisons): 比較する平均値についての明確な仮説がない場合

    like_futsal
    like_futsal 2012/02/09
    ] anova 多重検定
  • http://www.pilar-edit.com/shop/user_data/samples/9784861940224.pdf

    like_futsal
    like_futsal 2012/02/08
    ] 正規分布 検定
  • 目次

    統計解析メニュー:直接データ入力フォームへ移動できます。 :データ入力の際、excelで作ったデータを「コピー&ペースト」することも可能です。 in English ●分散分析 ◎一元配置分散分析 ◎二元配置分散分析 ●平均値の差の検定 1)2標の差の検定

    like_futsal
    like_futsal 2012/02/03
    フォームで入力 確認用 Wilcoxon t検定
  • 私のための統計処理ー基本解説

    実験はギャンブルのようなもので、 どんな結果が出るかはわからないが、 実験計画を立てる。 「2群に差がない!」という帰無仮説を立てる。 群間のサンプルの選択は公平にしなければならないが、 勝率が高くなるような実験計画をデザインも必要である。 生物実験では、物理科学実験とは異なり、 得られるデータは必然的にばらつきを伴う。 測定者による誤差 ---実験技術の向上に伴い、 データの信頼度は上がる! 測定装置、あるいは測定方法による誤差 測定されるものの性質による個体差

    like_futsal
    like_futsal 2012/02/03
    データ解析 の基本
  • R による統計処理

    「Rによる統計解析」 オーム社 刊 サポートページ 目次 第1章 Rを使ってみる 第2章 データの取り扱い方 第3章 一変量統計 第4章 二変量統計 第5章 検定と推定 第6章 多変量解析 第7章 統合化された関数を利用する 第8章 データ分析の例 付録A Rの解説 付録B Rの参考図書など はじめに R とは何か,何ができるかのリンク集(日のもののみ) R を使うためにはどうしたらいいの? データなどの読み書き R の定石(R に限らずプログラミングの定石も) R を使って実際に統計解析をする AtoZ 一連の流れ データファイルの準備をする 分析してみる 分析結果を LaTeX で処理したり,ワープロに貼り込んだりする 道具立て 連続変数データをカテゴリーデータに変換 カテゴリーデータの再カテゴリー化 度数分布表と度数分布図の作成 散布図・箱髭図の描画 クロス集計(独立性の検定,フィ

    like_futsal
    like_futsal 2012/02/03
    Rのためのサンプル集
  • 1