タグ

statisticsに関するmanabouのブックマーク (81)

  • 📚最近弊社で買ったデータ分析入門書📚 - 弥生開発者ブログ

    はじめに こんにちは、Misoca開発チームの洋(yoshoku)です。 Nintendo Switchを自宅近くの電器屋さんに買いに行ったらなかったので、あきらめてPS Vitaを買いました。 ゲームアーカイブスにある、PC Engineの「夢幻戦士ヴァリス」に大満足です。なんで、あんな薄着で戦うのでしょうか。 の紹介 私はMisocaでは主にデータ分析を担当しています。 社内で参考書リストが欲しい!!というバイブスが上がってきました。 せっかくなので、ブログで世界に共有することにしました。 確率統計・線形代数 scikit-learnとかをたたくだけでも機械学習アルゴリズムを利用することはできますが、 アルゴリズムの特性を理解した上で適切に使う・結果を解釈するには、数学の知識があった方が良いです。 というわけで、復習・自習するために良いかなと思うモノを選びました。 高専生を対象とし

  • 「技術者のための確率統計学」が出版されます - めもめも

    www.shoeisha.co.jp 表題の書籍が翔泳社より出版されることになりました。査読に参加いただいた読者の方を含め、編集・校正・組版・イラストデザインなどなど、書の作成に関わっていただいたすべての方々に改めてお礼を申し上げます。 これでついに(!)「技術者のための基礎解析学」「技術者のための線形代数学」とあわせた三部作が完成となりました。 「昔勉強した気がするけど、もうすっかり忘れちゃった」「あのカタイ数学の世界をもう一度、真面目に振り返りたい」―― そんな読者を想定したこれらの書籍を執筆するきっかけは、やはり昨今の「機械学習ブーム」でした。2015年に出版させていただいた「ITエンジニアのための機械学習理論入門」では、細かな数式を含む計算は、すべて「数学徒の小部屋」と題したコラム枠に押し込めていたのですが、その後、読者の方から「ここに書かれている数式を理解したくて、もう一度、数

    「技術者のための確率統計学」が出版されます - めもめも
  • 超曖昧語「母集団」「標本」にケリをつける - 檜山正幸のキマイラ飼育記 (はてなBlog)

    曖昧・多義的に使われている専門用語は全然珍しくありません。確率・統計の分野でも、たくさんの曖昧語・多義語が登場します。そのなかでも、特に曖昧性がひどく、意味不明の四天王だと僕が思っている言葉は、 確率変数 分布 母集団 標 です。どれも手強くて、「四天王の中でも最弱」とか「最強」とかの順位付けは難しいです。 *1 「確率変数」については何度も話題にしています。2つだけ過去記事を選ぶなら: 「確率変数」と言うのはやめよう 「確率変数」の正体は米田埋め込み 「分布」に関しては: 確率・統計の「分布」の意味と使用法 心が安らぐ「分布の空間」を定義してみる 今回この記事では、残る2つの超曖昧語「母集団」「標」について、出来る限りの解明を試みます。中心的話題は、「標」に対するまったくかけ離れた2つの定義を結びつけることです。2つの定義を結びつけるために、「独立ベキ測度の前送り定理」を紹介します

    超曖昧語「母集団」「標本」にケリをつける - 檜山正幸のキマイラ飼育記 (はてなBlog)
  •  「統計思考の世界」 - shorebird 進化心理学中心の書評など

    統計思考の世界 ?曼荼羅で読み解くデータ解析の基礎 作者: 三中信宏出版社/メーカー: 技術評論社発売日: 2018/05/18メディア: Kindle版この商品を含むブログ (2件) を見る 書は三中信宏による「思考の体系学」「系統体系学の世界」と併せて単系統群トリロジーを構成する統計思考にかかる一冊.三中は様々な場所でリサーチャー向けに統計学の講義を担当しており,その際にカリキュラムとして話してきた内容が整理されたいわば「講義録」になる. 後の2冊が春秋社,勁草書房といういかにも文系向けの出版社から,「縦書き物理のみ」という数字アルファベット数式混じりの文章を扱う上で全くユーザーフレンドリーでない形式で出版されたのに対して,書は技術評論社から「横書き電子版同時出版」というスマートでユーザーフレンドリーな形式で出版されておりうれしい限りだ. プロローグ 冒頭ではいきなり,昨今では「

     「統計思考の世界」 - shorebird 進化心理学中心の書評など
  • 統計検定を理解せずに使っている人のために I - J-Stage

    318 化学と生物 Vol. 51, No. 5, 2013 セミナー室 研究者のためのわかりやすい統計学-1 統計検定を理解せずに使っている人のために I 池田郁男 東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.

  • #stairlab データ分析コンテスト 参加レポート – Moonshot 🚀 – Medium

    ステアラボさんはありがたいことに毎回、勉強会の動画を公開してくれてるので、少し経てばまた動画を公開してくれるのでBlogをチェックしておくのがおすすめです。 https://stair.center/archives/category/blog 以下、聴講しながらの雑文メモです。 個人的に刺さった一文(意訳)をまとめておきます。 TL;DR;コンペで勝つと、有用性の実証・知識の拡充(論文を出すため)がされるので良いサイクルが回りやすい by ikuyamada さんコンペで上位にいかないということは、なにかが足りない。スタンダードなことはみんな絶対やるので(やりきってシルバーに到達するくらいのレベル感)、そこから突き抜けましょう。 by Takuya Akiba さん最近のコンペの流れ: アンサンブルをするだけの時代から、データの特性を掴んだり発想mの飛躍が必要 by smly さん山田育

  • 統計検定 1 級に合格する方法 - Qiita

    はじめに: 統計学の重要性 NTT データ数理システムでリサーチャーをしている大槻 (通称、けんちょん) です。 今回は統計検定 1 級について記します。 統計検定とは日統計学会による公認の資格であり、統計に関する知識や活用力を評価するものです。 日常的に大量のデータが溢れている昨今、データ分析機械学習に対するニーズは最高の高まりを見せています。最近では何も考えずともただデータを入力するだけでデータ分析機械学習手法を実行してくれるツールも多数出回るようになりました。 データ分析機械学習を実際に遂行するにあたって、統計学は強力な基礎になります。確かに最近は便利なツールの発達のおかげで、統計を学ばずともデータ分析を実行できる環境が整いつつありますが、その状態でデータ分析手法や機械学習手法を実際に適用しようとすると、しばしば誤った推論をしてしまったり、複雑な状況に対してどのようなアプロー

    統計検定 1 級に合格する方法 - Qiita
  • Bayesian Methods for Hackers

    An intro to Bayesian methods and probabilistic programming from a computation/understanding-first, mathematics-second point of view. Prologue The Bayesian method is the natural approach to inference, yet it is hidden from readers behind chapters of slow, mathematical analysis. The typical text on Bayesian inference involves two to three chapters on probability theory, then enters what Bayesian inf

  • GitHub - CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers: aka "Bayesian Methods for Hackers": An introduction to Bayesian methods + probabilistic programming with a computation/understanding-first, mathematics-second point of v

    The Bayesian method is the natural approach to inference, yet it is hidden from readers behind chapters of slow, mathematical analysis. The typical text on Bayesian inference involves two to three chapters on probability theory, then enters what Bayesian inference is. Unfortunately, due to mathematical intractability of most Bayesian models, the reader is only shown simple, artificial examples. Th

    GitHub - CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers: aka "Bayesian Methods for Hackers": An introduction to Bayesian methods + probabilistic programming with a computation/understanding-first, mathematics-second point of v
  • 変分ベイズを使って変化点検知をしてみる - 作って遊ぶ機械学習。

    おつかれさまです.今回は簡単なメッセージ受信数のデータを使って,変分ベイズによる変化点検知をやってみたいと思います.なお,今回使うデータやモデルは下記のPyMCの入門書を参考にしています*1. Pythonで体験するベイズ推論-PyMCによるMCMC入門-キャメロン-デビッドソン-ピロン このでは推論にMCMCを使っていますが,今回はモデルはそのまま流用し,同じことを実現する変分ベイズによる近似推論を導いてみます. 一般的には変分ベイズの方が計算が高速なので,MCMCの性能に満足できない場合などは変分ベイズは良い代替手法になり得ます.また,今回紹介する例は,過去に紹介した混合モデルを使った例よりも比較的シンプルですので,変分ベイズの入門題材にはちょうど良いんじゃないかと思っています. MCMCによる変化点検知 ・メッセージ受信データ PyMCでは次のような「ある期間で受信したメール数」

    変分ベイズを使って変化点検知をしてみる - 作って遊ぶ機械学習。
  • 機械学習のための仮説検定 | POSTD

    統計学者は、さまざまな機械学習のモデルに関して、複雑な推論を行うべく多くの時間を費やしてきましたが、実は、これを完全に一般化できる非常に簡単で単純な方法があります。テストセットにある2つのモデルのパフォーマンスを、対応のあるt検定を使って比較するのです。 以下に詳細を記載します。 ある真の分散 $ (X,Y) $ から独立同分布で導かれた $n$ 対の $ (x,y) $ があるとしましょう。 “機械学習” は、 $ (x,y) $ の例が与えられた時、 $ x $ を使って $ y $ を推定しようとする問題です。 最終的に、 $ y $ の妥当な推定と思われる関数 $ f(x) $ を生成します。 典型的には損失関数 $ L(y,f(x)) $ を有していますが、この損失関数とは、推定がどれほど良好かを表すものです。 推定量は、期待損失 $ L(f)=E[L(Y,f(X))] $ によ

    機械学習のための仮説検定 | POSTD
  • 型安全性と統計計算 | POSTD

    私は大ざっぱに言って、統計学のコミュニティはコンピュータサイエンスの概念にもっと触れた方が恩恵を得られると考えています。その考えを基に、記事では、統計計算システムの振る舞いに関する規範論の展開に 型安全性 の概念を用いる可能性を説明します。また、そのような規範論によって、現行システムの誤用のされ方を明確にできることも論じます。それとともに、統計向けのより型安全な言語を実装しようという現実的提案に立ちはだかる数々の難題についても述べていきます。 コンピュータサイエンスにおける概念としての型安全性 Vijay Saraswat は、型安全な言語を以下のように定義しています。 ある言語内でデータに対して実行できる演算がそのデータの型に許可されたもののみであれば、その言語は型安全である。 個人的にはこの簡潔さは気に入っているのですが、いくつかの例を使って上記の定義を説明すれば多くの読者の皆さんに

    型安全性と統計計算 | POSTD
  • 経済学者がこぞって読むべき物理の本 - hiroyukikojima’s blog

    今回は、久々に物理学のの紹介をしようと思う。紹介するのは、田崎晴明『統計力学I』培風館だ。このの元となる原稿は、かなり前に入手していた。ぼくが、田崎さんにぼくの経済学の教科書を献したら、田崎さんが、お礼に(しかえしに)TeXで作った原稿を製した分厚い冊子をプレゼントして下さった(送りつけてきた)のである。そのときは、ざっと斜め見しただけだったのだけど、今年に入って、(前半だけ)真面目に読んでみたのだ。 統計力学(1) (新物理学シリーズ) [ 田崎晴明 ] ジャンル: ・雑誌・コミック > 科学・医学・技術 > 物理学ショップ: 楽天ブックス価格: 3,672円なぜ今頃読んだか、というと、それは経済学的なモチベーションからなのだ。 経済学では、「ミクロとマクロがいったいどうつながっているのか」というのは、いまだに解決されていない難題であり、突破口を見つけなければならない課題である

    経済学者がこぞって読むべき物理の本 - hiroyukikojima’s blog
  • NL20161222invited

    3. 自己紹介・バックグラウンド (1) • 在英経験6.5年 子供の頃 ロンドン 5年 2000-2001 英ケンブリッジ大学 1.5年 (Karen Sparck Jones + Stephen Robertsonに師事) • 在中経験4.5年 2009-2013 Microsoft Research Asia (北京) • 2000年に論文ドクター取得 (早稲田大学 平澤茂一先生) • 企業経験約20年 • 2013年9月より大学教員 「帰国中年」 VSL = The Virtual Sakai Lab RSL = The Real Sakai Lab sakailab.com 4. 自己紹介・バックグラウンド (2) • 帰国中年なので、なんとなく機械翻訳の仕事をしたいと思い、 (株)東芝 研究開発センターの自然言語処理グループに予約配属。 • 入社してみたら、何故か情報検索のグル

    NL20161222invited
  • 実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ

    気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。 と言うのも、色々な現場で様々なモデリング(統計学的にせよ機械学習的にせよ)が行われていることが伝わってくるようになった一方で、ともすれば「え?こんな基礎的なポイントも守ってないの?」みたいなとんでもないモデリングがまかり通る現場があると愚痴る声を業界内で聞くことが少なくないので。自戒の意も込めて重要なポイントを備忘録としてブログ記事にまとめておくのも有益かなと思った次第です。 この記事では手法選択(線形・一般化線形・ベイズ+MCMC・識別関数・識別モデル・生成モデル・樹木モデル・Deep Learning etc.)の話題は割愛しました。一般に、モ

    実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ
  • 統計について相談するときに心がけておきたい3つのこと|Colorless Green Ideas

    統計について相談する場合に心がけておきたい点について。早めに相談を行い、統計で何でもできると思わず、情報を色々と出していくことが大事になる。 はじめに 今日は、統計について相談するときに心がけておきたいことを3つ紹介したいと思う。これらのことを心がけておくと、統計についての相談がうまくいき、良い結果が得られる可能性が高くなるだろう。 今回紹介するのは以下の3点である。詳細については後ほど説明する。 相談は早めに行う 統計は魔法の杖でないと知る 情報の出し惜しみをしない これら3点は、私が統計に関する相談を通じて得た経験則である。私は統計について特に詳しいというわけではないのだが、色々な人から統計の使用について相談を持ちかけられることがある。相談の中にはうまくいったものもあれば、うまくいかなかったものもある。成功の原因あるいは失敗の原因は個別の案件ごとに違うのだが、うまくいった相談の場合、相

    統計について相談するときに心がけておきたい3つのこと|Colorless Green Ideas
  • 不等間隔の状態空間モデル - StatModeling Memorandum

    日付単位とかでデータを取ることが多いこのご時世、等間隔の状態空間モデルを使うことが多いと思います。しかし、ふと不等間隔の状態空間モデルってどうやるんだろーとつぶやいたところ、ご指導いただきました。いつも大変感謝です。 .@berobero11 細かく等間隔に切って欠測扱いにするのが基.欠測で速度のおちないブロックサンプラーが有用になる.非線形常微分方程式でデータのない部分を「解いてしまう」方法は逐次モンテカルロ限定かな? ほとんど観測がないならカーネル回帰に直す方法もありますが端が近似になる— baibai (@ibaibabaibai) 2015, 2月 19 .@berobero11 間違ってもカルマンフィルタで補間してから,別の状態空間モデルをカルマンフィルタであてはめたりしないように.— baibai (@ibaibabaibai) 2015, 2月 19 @berobero11

    不等間隔の状態空間モデル - StatModeling Memorandum
  • ゲルマン先生の「役に立つ統計用語集」 - StatModeling Memorandum

    この記事はゲルマン先生(Andrew Gelman)の許諾を得て、Handy statistical lexiconを日語訳したものです。元記事の用語集は現在も更新中です。英語に抵抗がない人はぜひ元記事を読んで下さい。訳語に関しては親しみやすさを重視し、多くの日人にあまりなじみのないと思われる言葉や地名は変え、難しい熟語は避けました。また、訳注はリンク先の要約をしばしば含みます。 ここで取り上げるものはすべて重要な手法や概念である。それらは統計学に関連しており、よく知っておくべきにもかかわらずあまり知られていないものだ。それらに名前を与えることで、そのアイデアがもっと親しみやすいものになってほしいと思う。 ミスターP: マルチレベル(階層モデル)で回帰し、事後層別化(poststratification)する手法のこと。 秘密兵器: ある統計モデルを複数の異なるデータセットに繰り返しあ

    ゲルマン先生の「役に立つ統計用語集」 - StatModeling Memorandum
  • A/Bテストと統計的検定の注意点(その1) - ほくそ笑む

    素晴らしい記事が上がっていたので言及したい。 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ この記事では、A/Bテストにおいて、意味のある差が出たかどうかを統計的検定を用いて判断する方法を説明しています。 Web上にある多くのA/Bテストの記事と異なるのは、単に検定手法にデータを突っ込んでp値を出すのではなく、 意味のある差とは何かを事前に決定する サンプルサイズを事前に決定する という統計的検定のフレームワークに則ったまともな方法で判断を行っているという点です。 よく言われる統計的検定は無意味だなどという言論の多くは、このフレームワークを使っていないだけに過ぎず、不確実な事象に対する科学的な検証方法として、統計的検定のフレームワークの強力さはいまだ健在です。 さて、統計的検定のフレームワークについては上の記事および記事中で紹介されている参考文献にお任せするとして、ここでは

    A/Bテストと統計的検定の注意点(その1) - ほくそ笑む
  • 時系列データに対するブートストラップ法(ブロック・ブートストラップ法)について - My Life as a Mock Quant

    あたまだし 検定やクロスバリデーション等への応用を企図した、サンプル数を水増しするための手法としてブートストラップ法がある。これをRで実行するにはsample関数を使って自分でリサンプリングするコードを実装するか、あるいはbootパッケージのboot関数を用いればいい。 ただ、通常このようなリサンプリングにおいては、例えば、データのレコードの行番号を一様にリサンプリングするなど、"データの順序"を考慮したものとはなっておらず、これはデータの順序に意味があるデータ、特に(時)系列データに対して問題となってくるので、通常のブートストラップ法を適用することはできない。 時系列データに対するブートストラップ法に関しては、まず、大枠としてのブロック・リサンプリング法があり、その構成要素としてブロック・ジャックナイフ法、ブロック・ブートストラップ法が研究されてきた。ブロック・ジャックナイフ法はさほどメ

    時系列データに対するブートストラップ法(ブロック・ブートストラップ法)について - My Life as a Mock Quant