[B! stat] slay-tのブックマーク

Krylov部分空間を導入して特異スペクトル変換による異常検知の処理を高速化した - Fire Engine

1年くらい前に特異スペクトル変換法による異常検知ライブラリを作ったんですが、作ったっきり放置していたので、開発当初からやりたかった計算の高速化処理を書きました。ずっと放置してた割にはちょいちょいGitHubのスターを押してもらえてて、データサイエンスの流行を感じた。自分ももう一回ちゃんと学び直していこうという気になったので、まずは昔書いたやつの拡張からやっていく。【目次】特異スペクトル変換とは？ Krylov部分空間の導入検証結果さいごに参考特異スペクトル変換とは？特異スペクトル変換法の特徴については以前のブログに書いているので、ぜひそちらも読んでください。特異スペクトル変換法の全体像は以下のようになっています。出典：上の図は井手剛氏の著書「入門機械学習による異常検知―Rによる実践ガイド」のP200 図7.4を元に作成しました。図のように過去と今のパターンを行列とし

slay-t 2019/02/04

リンク

検索連動広告の因果効果とROIの推定

ネット広告の因果効果推定について調べた時に読んだeBay*1の検索連動広告*2の因果効果推定についての論文が面白かったのでメモ。検索連動広告経由の流入のうち広告を出稿しなくとも得られた流入、つまり他の経路で流入したであろう分を差し引いた量(causal effectiveness of paid search ads)を推定しています。 Blake, Thomas, Chris Nosko, and Steven Tadelis. "Consumer heterogeneity and paid search effectiveness: A large‐scale field experiment." Econometrica 83.1 (2015): 155-174. https://www.nber.org/papers/w20171 要約 eBayはブランドキーワードとノンブランド

slay-t 2019/01/23

リンク

データ分析の不思議、シンプソンのパラドックスを統計的因果推論から考える - Unboundedly

今回は統計学で有名な「シンプソンのパラドックス」という問題について紹介したいと思います。簡単にいえば、同じデータでも分析の仕方によって全く矛盾したように見える結果が得られるというお話です。データだけ見ると、信じがたいような直感に反する現象がおきるので頭の体操としてとても面白いです。あまりに有名なパラドックスであるため日本語でも解説がいくつか出ていますが、人によって言っていることが違っていたり、不完全であったりします。多くはシンプソンによるオリジナルの論文を読んでないことから起因するのだと思います。例えばシンプソンのパラドックスを交絡の問題だと捉える人は多いですが、個人的に不完全だと思います（間違いではない）。このように誤解が広まった歴史的背景も含めて、詳しく書いていきたいと思います。ちなみにアニメのシンプソンズはこの問題と全く無関係です。そもそもシンプソンのパラドックスとは？シンプ

slay-t 2018/08/31

リンク

データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦 - cucumber flesh

探索的なデータ分析 (Explore Data Analysis: EDA)を行う際は、データの要約や欠損の有無の確認、可視化が欠かせない作業となります。特に可視化は、データのもつ性質や関係を表現するのに大変役立ちます。一方で、可視化に用いた図はコードとは別に保存する必要があったり、作図のためのコードを書いたりと、面倒な側面もあります。 … きちんとした作図は面倒だけどデータの性質や欠損について把握したい。そんな時にはコンソール上での可視化を試しましょう。そのためのパッケージをHadley Wickhamが開発しています。 https://github.com/hadley/precis Rにはそもそも、オブジェクトの情報を要約してくれるsummary()関数があるのですが、この precisパッケージは、それを置き換えるような設計を目指しているそうです。早速使ってみましょう。 # gi

slay-t 2017/08/10

リンク

SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました - あんちべ！

概要これまで「Hiveからデータ取得・簡単な加工→Pythonで加工・分析」という流れで作業していたのですが、 Hive→SQLite→Pythonという流れにしたところ進捗が改善されたので、 SQLiteの簡単な使い方とPythonによるSQLユーザ定義関数の組込方法についてメモを残しておきます。特にユーザ定義関数の組込を自由に出来ると、分析する際、相当楽になるということに気付きました。 SQLite挟むことで何がどう改善されたの？ Hiveはデカいデータをゴリゴリ取ってくる分には SQLちょっと書くだけで済むので大変便利ですが、初動遅いためちょこちょこ小さいデータを何度も取ろうとするとストレス溜まります。そのため、これまではある程度のデータをまとめてHiveで落としてきて Pythonで加工してから分析するという流れを取っていました。ただ加工するために似たようなコード何

slay-t 2013/12/18

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

statに関するslay-tのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス