タグ

statに関するhorihorioのブックマーク (598)

  • Google Colab

    Sign in

    Google Colab
  • Rでのナウなデータ分割のやり方: rsampleパッケージによる交差検証 - 株式会社ホクソエムのブログ

    前処理大全の「分割」の章では、予測モデルの評価のためのデータセット分割方法が解説されています。基礎から時系列データへ適用する際の注意まで説明されているだけでなく、awesomeなコードの例がRおよびPythonで書かれており、実践的な側面もあります(お手元にぜひ!)。 しかし今回は、Awesome例とは異なる、より新しいやり方で・簡単にRでのデータ分割を行う方法を紹介したいと思います。前処理大全でも取り上げられているcaretパッケージですが、その開発者のMax Kuhnが開発するパッケージの中に rsample を使う方法です。ここでは前処理大全で書かれている一般的なデータと時系列データの交差検証による分割をrsampleの使い方を紹介しながらやっていきます。加えて、rsampleの層化サンプリングについても最後に触れます。 1. レコードデータにおけるモデル検証用のデータ分割 zeal

    Rでのナウなデータ分割のやり方: rsampleパッケージによる交差検証 - 株式会社ホクソエムのブログ
  • ベイズ最適化とHyperbandを組み合わせた手法「BOHB」の解説 | Masahiro Nomura

    はじめに 稿では,Hyperband[Li 18]とベイズ最適化を組み合わせた手法であるBOHB[Falkner 18]について解説する. 今回実験は行わないが,実験をする場合は,著者らが公開しているOSSであるHpBandSterを利用して実験を行うのが良さそうなので,適宜そちらを参照されたい. ベイズ最適化 ベイズ最適化の概要についてはこちらの記事で解説を行っているため,稿では省略する. ベイズ最適化に用いられるsurrogate functionとしてはGaussian Processが有名だが,サンプル数$n$に対して時間計算量が$\mathcal{O}(n^3)$となるため,サンプル数を大きくすると実用的に使いづらくなるという問題点が存在する. そこでBOHBでは,サンプル数$n$に対して$\mathcal{O}(n)$で計算できるTree-structured Parzen

  • GANからWasserstein GANへ - Engineering note

    generative adversarial network(GAN)からWasserstein generative adversarial network(WGAN)への道の整理をします。 こちらを参考にしました: [1904.08994] From GAN to WGAN From GAN to WGAN 目次 Kullback–Leibler Divergence (KL divergence) と Jensen–Shannon Divergence (JS divergence) Kullback–Leibler Divergence Jensen–Shannon Divergence GAN GANの目的関数 密度比推定との関連 Discriminatorの最適解 What is global optimal? GANの目的関数が意味すること GANの問題点 Wasserste

    GANからWasserstein GANへ - Engineering note
  • What is Featuretools? — Featuretools 0.11.0 documentation

  • EconMLパッケージの紹介 (meta-learners編) - Counterfactualを知りたい

    はじめに 近年計量経済学機械学習の融合分野の研究が盛り上がりを見せています. 例えば, KDD2018やNeurIPS2018で関連のTutorialが開催されるなどしています. その流れの一つとしてMicrosoft ResearchがEconMLというパッケージを公開していて非常に有用だと思ったので簡単に紹介します. 目次 Conditional Average Treatment Effects Estimation EconMLとは Meta-Learners 用法と簡易実験 さいごに 参考 Conditional Average Treatment Effects Estimation ある特徴量で条件付けた際の介入の因果効果の期待値を Conditional Average Treatment Effects Estimation (CATE)と呼び, 次のように表されます.

  • shapper is on CRAN, it’s an R wrapper over SHAP explainer for black-box models - SmarterPoland.pl

    Written by: Alicja Gosiewska In applied machine learning, there are opinions that we need to choose between interpretability and accuracy. However in field of the Interpretable Machine Learning, there are more and more new ideas for explaining black-box models. One of the best known method for local explanations is SHapley Additive exPlanations (SHAP). The SHAP method is used to calculate influenc

    shapper is on CRAN, it’s an R wrapper over SHAP explainer for black-box models - SmarterPoland.pl
  • Baseball Geeks

    シアトルへ渡米する数日前、菊池雄星投手は近い将来野球界の新常識になるであろう最先端の取り組みを行った。 球質データを計測すると同時に、リリースの映像をハイスピードカメラで撮影。菊池投手は毎球のように感覚を伝え、実際の球質やリリースとのすり合わせを行った。 『ピッチデザイン』 投手は感覚を研ぎ澄まし、投球する度にその感覚を言語化する。アナリストは投球されたボールを数値化し、感覚にデータを乗せていく。研究者は、バイオメカニクスの知見を基に、その投手に適したフォームやボールの握り方の指針を示す。 これらを繰り返すことで、投手は新しい感覚を開拓し、球質をチューニングしていく。投球を設計していく作業、それがピッチデザインである。

    Baseball Geeks
  • 本日の懺悔:dplyrでsliceをもっと活用しようね - 盆栽日記

    懺悔です。 今まで私はある列の最小値を含む行を抽出する際、filter()を用いて以下のように書いていました。 library(dplyr) iris %>% filter(Sepal.Length == min(Sepal.Length)) しかしbaseの書き方であればwhich.min()を使って以下のように書けます。 iris[which.min(iris$Sepal.Length), ] dplyrでもwhich.minしたいな〜でもfilterにはTRUE/FALSEを返す関数しか指定できないしな〜とか独り合点していたわけです。 ですが、dplyrには行番号を入力にとるslice()があり、これを使えばwhich.min()できる。 library(dplyr) iris %>% slice(which.min(Sepal.Length)) 手癖で書ける範囲で満足し修練を怠って

    本日の懺悔:dplyrでsliceをもっと活用しようね - 盆栽日記
  • Krylov部分空間を導入して特異スペクトル変換による異常検知の処理を高速化した - Fire Engine

    1年くらい前に特異スペクトル変換法による異常検知ライブラリを作ったんですが、作ったっきり放置していたので、開発当初からやりたかった計算の高速化処理を書きました。 ずっと放置してた割にはちょいちょいGitHubのスターを押してもらえてて、データサイエンスの流行を感じた。自分ももう一回ちゃんと学び直していこうという気になったので、まずは昔書いたやつの拡張からやっていく。 【目次】 特異スペクトル変換とは? Krylov部分空間の導入 検証結果 さいごに 参考 特異スペクトル変換とは? 特異スペクトル変換法の特徴については以前のブログに書いているので、ぜひそちらも読んでください。 特異スペクトル変換法の全体像は以下のようになっています。 出典:上の図は井手剛氏の著書「入門 機械学習による異常検知―Rによる実践ガイド」のP200 図7.4を元に作成しました。 図のように過去と今のパターンを行列とし

    Krylov部分空間を導入して特異スペクトル変換による異常検知の処理を高速化した - Fire Engine
  • 状態空間モデルのれんしゅう(レストランの来客予測) - rmizutaの日記

    はじめに 時系列解析を行う上で、状態空間モデルが現状使用できる手法の中で優れているのではと自分の中で話題だったので、 使ってみることにしました。 状態空間モデルを使うことの目的 時系列解析を行う上でもモデルの種類は無数にあるのですが、 どういう場合に状態空間モデルを使うのでしょうか? この部分については以下のサイトに詳しく書かれていました。 https://logics-of-blue.com/%E3%81%AA%E3%81%9C%E7%8A%B6%E6%85%8B%E7%A9%BA%E9%96%93%E3%83%A2%E3%83%87%E3%83%AB%E3%82%92%E4%BD%BF%E3%81%86%E3%81%AE%E3%81%8B/ 状態空間モデルはデータが得られるプロセスとは何か?を重視したモデルであり、 回帰分析よりも各要因の影響が納得性の高い形で見ることができ、またその構

    状態空間モデルのれんしゅう(レストランの来客予測) - rmizutaの日記
  • underdispersion(過小分散)な場合のポアソン分布の代替 - StatModeling Memorandum

    overdispersion(過分散)なポアソン分布は個体差&ポアソン分布で説明するのがシンプルで解釈しやすくて、個人的には好みです。ただ、個体差を考慮するモデルではunderdispersion(過小分散)の場合に対応できません。そのような場合には「ほぼ確定的な値が存在し、そこから外れるメカニズムをきちんと組み入れたモデル」がよさそうと思うのですが、まだ思案中です。 この記事では、overdispersion(過分散)な場合のポアソン分布の代替として、Rから簡単に使える4つの分布を紹介したいと思います。 分布の紹介とRからの使い方 超幾何分布(Hypergeometric distribution) [1] Wikipedia 関数形は以下です(は非負の整数、以降の分布でもの値域は同じ)。 がと比べて小さくて、が大きい時にPoisson分布になります。平均と分散は以下です。 合計個のボー

    underdispersion(過小分散)な場合のポアソン分布の代替 - StatModeling Memorandum
  • 検索連動広告の因果効果とROIの推定

    ネット広告の因果効果推定について調べた時に読んだeBay*1の検索連動広告*2の因果効果推定についての論文が面白かったのでメモ。検索連動広告経由の流入のうち広告を出稿しなくとも得られた流入、つまり他の経路で流入したであろう分を差し引いた量(causal effectiveness of paid search ads)を推定しています。 Blake, Thomas, Chris Nosko, and Steven Tadelis. "Consumer heterogeneity and paid search effectiveness: A large‐scale field experiment." Econometrica 83.1 (2015): 155-174. https://www.nber.org/papers/w20171 要約 eBayはブランドキーワードとノンブランド

    検索連動広告の因果効果とROIの推定
  • 統計言語 「R」の神はなぜ無償で貢献したのか

    統計データを分析する際に使う「R」というプログラミング言語がある。無料のオープンソース・ソフトウェアで、Rを使えば、データの加工や操作、線形回帰、ランダムフォレストのような機械学習の分析、解析したデータの可視化が可能になる。「Python(パイソン)」と並び、統計分析を手がける人々に人気の言語だ。 Rはオープンソースのため世界中のエンジニアが修正や機能追加を進めている。その中で、データフレームの操作に特化した「dplyr(ディープライヤー)」やデータ可視化の「ggplot2(ジージープロット2)」など、人気のパッケージ開発で貢献した人物がいる。ソースコードの入力からコンパイルやデバッグまでが可能なRの総合開発環境を提供するRStudioのチーフ・サイエンティスト、ハドリー・ウィッカム氏だ。 ウィッカム氏が独力で作り上げたパッケージは今では大学の研究者からジャーナリストまで、数多くの人間が使

    統計言語 「R」の神はなぜ無償で貢献したのか
  • Pythonのパッケージ周りのベストプラクティスを理解する - エムスリーテックブログ

    砲撃する自走砲(PzH2000自走榴弾砲)。自走砲は戦車によく似ていますが、戦車ではありません。*編とは関係ありません。 こんにちは、エムスリー基盤開発チーム小です。 Pythonのパッケージ管理周りでは、 「setup.pyでrequirements.txtを読み込むのが普通なんですよね?」 「pipenv があれば venv はオワコンなんですね?」 「pyenvは要らないんですよね!?」 「Python歴史が古い分、Rubyなどに比べてカオス」 みたいな混乱をよく目にします。 実際、複数のツールがあって(一見)複雑です。また「なぜこうした状況にあるのか」がドキュメント化されているわけでもありません。 なので、私なりに整理してみることにしました。 ※「追伸」を追加しました。この記事では汎用プログラミング言語としてPythonを使うケース(Webアプリとか、CLIツールとか、ライブ

    Pythonのパッケージ周りのベストプラクティスを理解する - エムスリーテックブログ
  • A/Bテストと統計的検定の注意点(その1) - ほくそ笑む

    素晴らしい記事が上がっていたので言及したい。 仮説検証とサンプルサイズの基礎 - クックパッド開発者ブログ この記事では、A/Bテストにおいて、意味のある差が出たかどうかを統計的検定を用いて判断する方法を説明しています。 Web上にある多くのA/Bテストの記事と異なるのは、単に検定手法にデータを突っ込んでp値を出すのではなく、 意味のある差とは何かを事前に決定する サンプルサイズを事前に決定する という統計的検定のフレームワークに則ったまともな方法で判断を行っているという点です。 よく言われる統計的検定は無意味だなどという言論の多くは、このフレームワークを使っていないだけに過ぎず、不確実な事象に対する科学的な検証方法として、統計的検定のフレームワークの強力さはいまだ健在です。 さて、統計的検定のフレームワークについては上の記事および記事中で紹介されている参考文献にお任せするとして、ここでは

    A/Bテストと統計的検定の注意点(その1) - ほくそ笑む
  • 【データ分析の民主化】データドリブンな組織になるには何をしたらいいのか考えてみた - St_Hakky’s blog

    こんにちは。 今日は、データドリブンな組織になるために、何をしたらいいかを考えてみたので、それについて書きます。 データドリブンな組織の必要性 先日、以下の記事で「データドリブンな組織ってなんで必要なのか」と言う観点で記事を書きました。 st-hakky.hatenablog.com 上の記事を要約すると、以下のようになります。 意思決定を「早く・確実に・納得感を持って」するために、データ分析をする(アナリスト視点) データを活用して新機能の開発やコスト削減を行う(MLエンジニア視点) データ分析をベースにした組織、つまりデータドリブンな組織になるためには「データ分析の民主化」が必要(組織全体の視点) データドリブンな組織になるためには、「データ分析の民主化」って言う最近のホットワード(?)なのか知りませんが、そう言うのが必要です。 ぼんやりした言葉なので、具体的に何をすればいいのかと言う

    【データ分析の民主化】データドリブンな組織になるには何をしたらいいのか考えてみた - St_Hakky’s blog
  • カルマンフィルタを統一する - with no honorifics

    この記事は,制御工学 Advent Calendar 2018の20日目の記事です. はじめに R.E.Kalmanがカルマンフィルタ(Kalman Filter: KF)を提案して以来,数多くのフィルタが誕生してきました. 個々のフィルタは異なるバックグラウンドを持ち,それぞれに特徴があります. この記事では,それらのフィルタを統一する視点,すなわち カルマンフィルタの多くはガウシアンフィルタからの派生と見なせる という主張について解説します. 特に,拡張カルマンフィルタ(Extended KF: EKF),Unscented カルマンフィルタ(UKF)を実際にガウシアンフィルタから導出します. なお,この記事には実装コードはありません. 代わりといっては何ですが,参考文献のページ を詳しく書きました. ぜひ,ご活用ください. カルマンフィルタの問題設定 まずは,カルマンフィルタが対象と

    カルマンフィルタを統一する - with no honorifics
  • 回帰分析を使った因果推論の仮定:パラメトリックモデルを使うということ - Unboundedly

    お久しぶりです。冬休みなので、以前Twitterでとったアンケートで一番人気だった内容について書きます。 今回は統計“モデル”を使うことの意味について因果推論の視点からまとめてみようと思います。普段なんとなく回帰分析を使っている人は一読をおススメします。なぜモデルを使うのか、(多くの場合無自覚に)置かれている仮定は何かなどを中心に書いていきます。 なお、記事の内容はハーバード公衆衛生大学院でMiguel Hernan氏が教える中級因果推論の授業で教えられる内容を基にしています。来学期はこの授業のTAをしますので質問等あればご気軽に。 統計学をきちんと勉強した方であれば基的な内容になりますので悪しからず、、、 因果推論における「推定(Estimation)」とは ノンパラメトリックvsパラメトリック 超シンプルな回帰”モデル” 層別分析で条件付き期待値を計算 ノンパラメトリックな“モデル

    回帰分析を使った因果推論の仮定:パラメトリックモデルを使うということ - Unboundedly
  • なぜデータサイエンスのゼネラリストになるべきではないのか | 人工知能ニュースメディア AINOW

    著者のJeremie Harris氏は、データサイエンティスト志望者が職に就くまで助言を行うメンターシップ・サービスを提供するスタートアップSharpestMindsの共同設立者。同氏が英文長文記事メディアMediumに投稿した記事では、データサイエンティスト志望者が目指すべきキャリアパスについて論じられています。 現在「データサイエンス」という言葉で語られる内容は広範囲にわたる一方で、データサイエンスをビジネスに活用したい企業はそれぞれ個別的な問題を抱えています。こうした現状をふまえて、同氏はデータサイエンティスト志望者に「どんなデータサイエンティストになりたいのか」ということを第一に考えることをすすめています。というのも、漠然とデータサイエンスに関して何でも知っている人材より、企業が抱えている具体的な問題を解決する専門的なスキルを持っている人材のほうが雇用のチャンスに恵まれるからです。

    なぜデータサイエンスのゼネラリストになるべきではないのか | 人工知能ニュースメディア AINOW