タグ

statisticsに関するmharaokaのブックマーク (70)

  • 『初等整数論講義 第2版』目次

    『初等整数論講義 第 $2$ 版』高木 貞治 著高木貞治プロジェクトとして『初等整数論講義 第 $2$ 版』を転載しました。 共立出版より許諾を頂きました。 著作権について、ブログ:高木貞治プロジェクトを顧みる。 誤植と思われる箇所はこちらにまとめてあります。 推奨環境:PC。(スマホ:Chrome、Firefox。) JavaScript有効。 現在も共立出版から初等整数論講義 第 $2$ 版が出版されています。 転載元:『初等整数論講義 第 $2$ 版』高(たか)木(ぎ)貞(てい)治(じ)著、共立出版、2019年刊(第2版44刷) $\blacktriangleright$ 評判

  • (追記5件あり)統計モデリング基礎論再び:データの生成過程から見てGLMが最適な場合にあえて線形回帰を当てはめてみる - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は、遥か昔のこちらの記事の続きのようなものです。また何度も何度も恐縮ですが、今回の記事内容も付け焼き刃で書いているので色々間違っている可能性があります。お気付きの方は是非ご指摘くださいm(_ _)m 各方面のエコノメトリシャンの方々と上記記事を書いた際に議論*1したことがあるのですが、その時は基的に統計モデリングを行う際は以下のような判別表に従ってモデルを使い分けるべきだという話になったのでした。 確率分布 特徴 ポアソン分布 データが正の離散値、平均値30ぐらいまで、標平均=標分散 負の二項分布 データが正の離散値、平均値30ぐらいまで、標平均<標分散 二項分布 データが離散値、ゼロ以上でしかも有限 (0, 1, 2, ... N) 正規分布 データが連続値もしくは離散値でも平均値が十分大*2 (-∞~∞) 対数正規分布 同上、ただし正の値、範囲 (0~∞) ガンマ分布

    (追記5件あり)統計モデリング基礎論再び:データの生成過程から見てGLMが最適な場合にあえて線形回帰を当てはめてみる - 渋谷駅前で働くデータサイエンティストのブログ
  • 統計・R・Stan関連の本、用途別のオススメ10冊 - StatModeling Memorandum

    2016 - 12 - 24 統計・R・Stan関連の、用途別のオススメ10冊 書評 R Stan 年末年始向けに、比較的読みやすいを中心にオススメします。 統計学 入門 色々読んでみましたが、現在決定版と言えるものは存在しないように思えました。個人的には、シグマと 積分 の復習、場合の数・数え上げの方法、確率、確率変数、確率密度、度数分布と ヒストグラム 、代表値・平均・分散、確率分布、同時分布、周辺分布、確率変数の変数変換、検定、散布図と箱ひげ図、回帰、相関あたりをRなどを使いながらシンプルに説明していくがあるといいと思うのですが、なかなかバランスのとれたいいがありません。初歩の初歩しか説明してない、グラフが少ない、検定にページを割きすぎ、分厚い、ちょっと難しいなどの不満点があります。立ち読みして自分にあったを選ぶのがいいと思います。ネットで検索して調べるのでもいいと思います

    統計・R・Stan関連の本、用途別のオススメ10冊 - StatModeling Memorandum
  • 書評: StanとRでベイズ統計モデリング - About connecting the dots.

    今回は書評エントリです.日のStan界隈の顔である @berobero11 さんが統計モデリングを出版し,ありがたいことに献いただきました*1.ようやっと一通り読み終えた*2ので,感想がてらの魅力について述べていきたいと思います*3. StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行この商品を含むブログ (4件) を見る このを読んで得られるもの 「統計モデリング」とはどのようなものか,ということについての実践的な知識および心構え 書には,冒頭で,統計モデリングについて以下のように書かれています. モデルというのは不必要な性質を大胆に無視して,必要なエッセンスだけを取り上げたものだ....(中略)... 確率モデルをデータにあてはめて現象の理解と予測をうながす

    書評: StanとRでベイズ統計モデリング - About connecting the dots.
  • ゲルマン先生の「役に立つ統計用語集」 - StatModeling Memorandum

    この記事はゲルマン先生(Andrew Gelman)の許諾を得て、Handy statistical lexiconを日語訳したものです。元記事の用語集は現在も更新中です。英語に抵抗がない人はぜひ元記事を読んで下さい。訳語に関しては親しみやすさを重視し、多くの日人にあまりなじみのないと思われる言葉や地名は変え、難しい熟語は避けました。また、訳注はリンク先の要約をしばしば含みます。 ここで取り上げるものはすべて重要な手法や概念である。それらは統計学に関連しており、よく知っておくべきにもかかわらずあまり知られていないものだ。それらに名前を与えることで、そのアイデアがもっと親しみやすいものになってほしいと思う。 ミスターP: マルチレベル(階層モデル)で回帰し、事後層別化(poststratification)する手法のこと。 秘密兵器: ある統計モデルを複数の異なるデータセットに繰り返しあ

    ゲルマン先生の「役に立つ統計用語集」 - StatModeling Memorandum
  • 統計: 共分散と相関係数でデータセットの相関を調べる - CUBE SUGAR CONTAINER

    まず、二次元の特徴量をもったデータセットがあるときを考えてみよう。 もし、一方の次元の値が高いときに、もう一方も高い傾向があるときは、両者に正の相関があるという。 反対に、一方の次元の値が高いときに、もう一方は低い傾向があるときは、両者に負の相関があるという。 では、それぞれの次元に正または負の相関があるか否かを調べるには、具体的にどうしたら良いのだろうか。 散布図を描いてみる それにはまず、散布図を描いてみるという選択肢がある。 x 軸と y 軸に、それぞれの次元の値をプロットするやり方だ。 このとき、例えば正の相関があるなら、値は次のように左下から右上にかけてプロットされる。 これはつまり x 軸の次元の値が高いときに y 軸の次元の値も高くなることを示す。 反対に、負の相関があるなら、値は次のように左上から右下にかけてプロットされる。 これはつまり x 軸の次元の値が高いときに y

    統計: 共分散と相関係数でデータセットの相関を調べる - CUBE SUGAR CONTAINER
  • データサイエンティスト(本物)は決して幻の職業などではない - 渋谷駅前で働くデータサイエンティストのブログ

    かつて拙著出版の際に大変お世話になった技術評論社(技評)さんから、『データサイエンティスト養成読』改定2版のPRとして以下の記事がリリースされていました。この記事がもう何と言いますか、「読めばそのままデータサイエンティスト(物)もしくはグローバルにおけるData Scientistのスキル要件になっている」ほどの素晴らしい記事なので、ぜひ皆様にはご一読をお薦めいたします。 ちなみにここであえて「物」と銘打ったのは、少し前にもどこかで論じられていた記憶があるのですが、要は「なんちゃってデータサイエンティスト」は含まないということです。僕の知る限り、日国内でデータサイエンティストと言うと「データサイエンティスト(カナ)」と方々から侮られるのが常なのですが、それはそもそも後述するように数年前に大量に発生したデータサイエンティスト(物)でも何でもない専門的スキルに乏しい人々のことが世間で

    データサイエンティスト(本物)は決して幻の職業などではない - 渋谷駅前で働くデータサイエンティストのブログ
  • 株式会社ALBERT(レコメンドエンジン)

    データ分析から導き出されたインサイト無しにAI人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

    株式会社ALBERT(レコメンドエンジン)
  • Gareth James

    Gareth James Home Bio Research Teaching CV Personal "Data is the sword of the 21st century, those who wield it well, the Samurai."* Gareth James Dean (from July 2022) Goizueta Business School Emory University. Education BSc/BCom University of Auckland, New Zealand. Ph.D. in Statistics, Stanford University, California. Contact Information email: gareth at emory dot edu Links Students and informatio

  • 転送中

    リダイレクトします 以前ここにあったブログは、現在 https://www.kyougokumakoto.com/2015/11/glmm.html にあります。 リダイレクトしますか。

  • データサイエンスのワークフロー ― データ分析を効率に行うために | POSTD

    データを扱うときに、きちんと定められたワークフローがあると助かります。具体的には、「ストーリーを伝える」(データの可視化/ジャーナリズム)ことだけを目的として分析を行いたいのか、それとも一定のタスク(データマイニング)をモデリングするためにデータに依存するシステムを構築することが目的なのか、プロセスが重要です。前もって方法論を定めておくことによって、チームの足並みが揃い、次に何をすべきか考え出そうとして無駄な時間を費やさなくて済みます。それによって早く結果が得られ、資料の公表も早くなります。 これを念頭に、Ashley Madisonの漏洩データ分析に関する 前回の記事 に続いて、私たちが現在使用しているワークフローをご紹介します。このワークフローは、データ漏洩(Ashleyのケースなど)を分析するためだけでなく、社内のデータの分析にも使用されます。ただし、重要な点として、このワークフロー

    データサイエンスのワークフロー ― データ分析を効率に行うために | POSTD
  • 「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ

    何かこんなメディア記事が出ていたようです。 これを読んで色々な人がツッコミを入れまくっている模様ですが、この記事の不思議なところは「完全に間違った説明というわけでもないのに何故か(両分野に詳しい)誰が読んでも猛烈な違和感を覚える」ところなんじゃないかなぁと。 正直、これはライター・インタビュアー・コメンテーター・編集者の誰のせいなのかは全く分からないんですが、ツッコミ入れられまくっている内容について色々あげつらってもあまり建設的でないので、ここでは記事中で題として取り上げられている「統計学と機械学習の違い」についてちょっとコメントしてみようと思います。 あ、もちろん僕がこれから書くコメントも別に正しいとは全く限らないので、おかしいところや間違ってるところがあったらバンバン突っ込んでいただければ幸いです*1。そしてガチ勢向けのコメントでもないので何卒悪しからず。 統計学はデータを「説明」す

    「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
  • 「調査観察データの統計科学」読書会資料を公開しました(数式周りをフォロー) - 木曜不足

    因果推論、特に傾向スコアについて日語で学ぼうとしたら、第一に名前が挙がるのは「調査観察データの統計科学」だろう。 調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学) 作者: 星野崇宏出版社/メーカー: 岩波書店発売日: 2009/07/29メディア: 単行購入: 29人 クリック: 285回この商品を含むブログ (26件) を見る ところがこの、数式を中心に難が多く、読み始めたはいいけど困っているという人がかなり多そうだ。実は社内の機械学習勉強会でこのを紹介したのだが、数式のフォローがかなり大変で、そこそこ端折ったにもかかわらず、3章が終わるまでに7回ほどかかってしまった。 特に3章頭の「難所」については、社内勉強会の時の資料をもとにメモを書いてブログに公開したりもしている。 「調査観察データの統計科学」3.1章 傾向スコアの数式メモ(前半)

    「調査観察データの統計科学」読書会資料を公開しました(数式周りをフォロー) - 木曜不足
  • 【統計学】一般化線形混合モデル(GLMM)を理解するための可視化。 - Qiita

    「データ解析のための統計モデリング入門」(通称:みどりぼん)のp157 にある、「分布を混ぜる」の考え方について、分布で考えるのではなく乱数ベースでシミュレーションを行いアニメーションで可視化をしてみましたので紹介したいと思います。 結果のアニメーションはこちらです。文でこの内容を説明していきます。 (コードはこちら) 詳細な説明はこの「みどりぼん」に全てわかりやすく書いてあるので、ここでは可視化するにあたっての解説のみを行います。なんだか面白そうな話だと思いましたら是非ご購入ください! 前置き ある植物において種子が最大8個作られるのですが、その種子の生存個数が二項分布、 p(y_i) ={8 \choose y_i}\ q_i^{y_i} (1-q_i)^{8-y_i} \quad \mbox{for}\ q_i=0,1,2,\dots,8 に従っているとします。$y_i$は個体$i

    【統計学】一般化線形混合モデル(GLMM)を理解するための可視化。 - Qiita
  • p値とAIC(赤池情報量基準)の関係について - 蛍光ペンの交差点

    現段階での理解をまとめる。 間違った記述があれば、読者諸氏からのご指摘を頂きたい。 (p値を使うNeyman-Pearsonの)検定によるモデル選択と、AICによるモデル選択を比較した図として、管見では以下が最も整理されていた。薄緑の付箋と黄色のハイライトは私が追加したものである。 (『データ解析のための統計モデリング入門』、久保拓弥、96ページ、2014年7月第10刷より引用) 前掲書の文脈において、この図の主張は以下である。 モデル推定の文脈では、モデルの説明変数の係数に対する検定は「係数=0としたモデル(=説明変数が1つ少ないモデル)が真のモデルである」という帰無仮説を棄却するものである。そして、図では(見解が統計学者によって恐らく分かれるので恐らく意図的に)記載されていないが、「帰無仮説を棄却したときに対立仮説(=説明変数が1つ多いモデル)を採択する」という論証を踏むことになる。た

    p値とAIC(赤池情報量基準)の関係について - 蛍光ペンの交差点
  • R言語の過去と最新の動向

    連載「フリーソフトによるデータ解析・マイニング」は今月号をもって終了となります。 2003年8月に連載第1回として金明哲氏による「データ解析・マイニングとR言語」という記事が掲載されて以来、 約12年半149回に渡り、6名の執筆陣がR言語とデータ解析について解説してきました。 最終回となる今回は、過去10年余りのR言語の国内での普及、 そしてR言語の最新の動向について紹介しながら、有用な情報をピックアップしてみます。 なお今回の記事には著者の主観が多分に反映されていることをご承知おき下さい。 R言語の10余年史 コンピュータのバックアップ履歴を漁ってみたところ、著者自身は大学院生だった2003年頃からRを触り始めて、 2004年夏頃に研究のための分析ツールとしてRを導入していたようです。 この頃のRのバージョンは1.7から1.8だったように記憶しています。 連載の開始時期と著者のR利用

  • 若者が学ぶべきスキルは? Googleシュミット会長「分析力とプログラミング、統計学とデータサイエンス」

    企業文化を変えるチャンスはどの企業にもある サルマン・カーン氏(以下、サルマン):お二人は既にイノベーションが起こっている環境に後から貢献したと思います。そこで「Googleのカルチャーを作る時、何が難しくて、他の国だったらどう難しいか」という質問です。最後のところは興味深いですね。別の国と言わずとも、別の会社でGoogleみたいな会社を作れますか? エリック・シュミット氏(以下、エリック):会社のカルチャーは上部の人間で決まります。の中で有名なスローガンの話があるんですが、君が好きだったのは何だったっけ? エンロンだっけ? ジョナサン・ローゼンバーグ氏(以下、ジョナサン):エンロンもそうだけど、レーマンのやつも確か「献身と忍耐を持つ社員と共に無償の協調関係で、投資者のために株主価値を作る」だったかな? エリック:それ、ブランディング会社が作ったコピーだと思うよ(笑)。まあそれは冗談とし

    若者が学ぶべきスキルは? Googleシュミット会長「分析力とプログラミング、統計学とデータサイエンス」
  • https://www.pu-hiroshima.ac.jp/p/ttetsuji/R/%5B64%5Ddplyr.html

  • Pythonデータ分析系ライブラリのインストール Windows / Mac - Librabuch

    PyCon JP 2014 チュートリアル「PyData入門」のお知らせ | Librabuch 上記のエントリで告知した通り、2014年09年12日(金)に行われるチュートリアルの講師を務める御縁を頂いています。29枚あったチケットは完売のようで、若干プレッシャーの高まりを感じる今日この頃です。 さて、チュートリアル開催にあたり、利用するライブラリ群のインストール方法をOS毎に確認していたのでこちらにも備忘録として残しておきます。(参加者の方々には専用経路で別途ご案内差し上げます) 導入手順 共通 WindowsMac版 動作確認 導入したいもの 今回導入したいライブラリは下記の通りです。 NumPy Scipy Pandas scikit-learn matplotlib IPython 共通手順 Python3.4.1をインストールしてPATHを通しておきます。(手順問わず) p

    Pythonデータ分析系ライブラリのインストール Windows / Mac - Librabuch
  • [Stan] 傾向スコアを使ったモデル

    傾向スコアについて少し学ぶ機会があったので備忘録のための記念Stanです。傾向スコアについては以下を参考にして下さい。 [1]統計的因果推論(傾向スコア)の勉強会資料をアプしてみた(web) [2]傾向スコアを用いた共変量調整による因果効果の推定と臨床医学・疫学・薬学・公衆衛生分野での応用について(pdf file) [3]傾向スコア解析法による因果効果の推定と調査データの調整について(web) [4]調査観察データにおける因果推論(3) - Rによる傾向スコア,IPW推定量,二重にロバストな推定量の算出(web) 概略は以下です。 例えば喫煙の体への影響(例えばガンになったかどうか)を知りたいとします。被験者のデータ(性別・年齢・学歴・ストレスがあるか・飲酒するかどうかなど)とガンかどうかのデータがあるとします。この場合、喫煙する人は男性で年齢が高めでストレスがあって飲酒をする人がとても

    [Stan] 傾向スコアを使ったモデル