tomoshige_nのブックマーク (27)

  • 統計的因果推論(2): 傾向スコア(Propensity Score)の初歩をRで実践してみる - 六本木で働くデータサイエンティストのブログ

    さて、統計的因果推論についてだらだらと独習していくこのシリーズですが、今回はDonald Rubinが考案したRubinの因果モデルで用いられる、傾向スコア(Propensity Score)を取り上げてみようと思います。「お前岩波DS3で事前に原稿読んで中身は知っているはずじゃないのか」とかいうツッコミはご勘弁ください(笑)。 元々は観察データ(つまりRCTを含む実験データではない)から因果関係を推定するための手法ということで、いかにして観察データに隠れた影響を与える共変量を突き止め、その共変量から及んでくる影響をバランスさせ、真の因果効果を推定するか、というのが主眼でした。つまり、RCTを実践できないような疫学データや社会科学的データに対する適用がメインだったようです。 しかしながら、最近は例えば広告やマーケティングといった「ある程度の介入(処置)*1はできても事実上RCTを徹底するこ

    統計的因果推論(2): 傾向スコア(Propensity Score)の初歩をRで実践してみる - 六本木で働くデータサイエンティストのブログ
  • Contiguity - 突然終わるかもしれないブログ

    統計にでてくるContiguityの概念についての問題(van der Vaart: Asymptotic Statistics. Chap 6.)を解いたので,そのまとめです. 問題 (1) を標準正規分布, を平均 分散1の正規分布とする.このとき と が互いにcontiguousであることと,は同値であることを示せ. (2) total variation を とすると ならば と は互いにcontiguousである. (3) 任意の に対して, と は互いにcontiguousであるが, となる例を見つけよ. (4) は に対してcontiguousであるが, は に対してcontiguousでない例を挙げよ. (5) 二つの確率測度, が互いに絶対連続であることと,確率測度の列, が互いにcontiguousであることは同値である. 証明 (1) 互いにcontiguousなら,

  • Recent Kaggle Winner Discusses Statistical Machine Learning Methods for his Winning Soil Property Predictions - Statistics Views

    Recent Kaggle Winner Discusses Statistical Machine Learning Methods for his Winning Soil Property Predictions Features Author: Lillian Pierson, P.E. Date: 05 Jan 2015 Copyright: Image appears courtesy of iStock Photo Recently, predictive modeling platform Kaggle hosted an Africa Soil Prediction Challenge. African Soil Information Service (AfSIS) sponsored this competition with the main goal that c

  • Kaggleでのデータ解析コンペの参加の仕方(備忘録) | Diary

    社会人になって早4ヶ月… 文系なのに、なぜか人工知能だとかビッグデータ関連のエンジニアになっております笑 会社の研修で使った下記の の巻末にKaggleというデータ分析のコンペサイト(賞金も出ます)に参加するとより力がつくよという文章が載っていたので、早速見てみました。 そしたら日の企業がコンペ開催しているのにサイトが完全に英語だったので、備忘録的な感じでコンペへの参加方法をまとめておきます。登録はGメールかYahooのメールを持っていれば一瞬なので特に解説はしません。 Kaggle内でやることとしては下記の通り データダウンロード 分析モデルの作成・改善 結果の提出 みたいな流れを繰り返していく感じです。 以下では、1番と3番に焦点をあてて解説していきます。2番に関してはまた別の記事で解説するかもしれません。 Topページ ログイン後のTopページからリクルートが開催しているコンペを

    Kaggleでのデータ解析コンペの参加の仕方(備忘録) | Diary
  • 中華版インスタではなかった。台湾発「17」というアプリの進撃。 - ChaIT チャイティー

    今回は備忘録的な内容。 今週木曜日米国iOS無料ランキングで1位になった「17」というアプリをご存知だろうか? 昨日は中国でも無料ランキング2位になっており、にわかに注目が集まっている。 ※2015年9月28日の発表でDAUは70〜90万。 17 - Your Life's Moments on the App Store 私が「17」をダウンロードした時は3ヶ月ほど前でその時はアイコンもUIも今とは違い中華圏版インスタといった印象だった。 その当時はインスタとの違いは2つで「Likeボタン」がDountsの「mixchannel」のように連打できることと、トラフィックに応じたフィーがユーザーに支払われること。 しかしリリース直後は思うようにダウンロード数が増えず、最近ある機能を拡張することで一気にブレイクしたのだ。 それは「ライブ配信(ストリーミング)機能」だ。 日も学ぶ中国のライブ配

    中華版インスタではなかった。台湾発「17」というアプリの進撃。 - ChaIT チャイティー
  • 確率変数とは何か - 初級Mathマニアの寝言

    確率の議論で超重要な概念である確率変数というものを説明します. ●確率変数は確率と関連付いた写像である 確率変数は写像です。では、どの集合からどの集合への写像かというと標空間から実数の空間への写像です。イメージとしてはこんな感じです。 しかし、上の図だけでは確率変数はただの写像ということになってしまい、わざわざ「確率」変数という名前を付ける必要はありません。実際には、次のような制約のついた写像を確率変数というのです。 加法族については を参照してください。 ●確率変数の確率分布 加法族の要素を確率測度で写したものが確率でした。このことを利用すると、次のように確率変数の確率分布というものが定義できます。 この確率分布という概念を通して、確率分布関数や確率密度関数というものが定義されます。 ●確率分布関数と確率密度関数 色々な応用の場面で確率変数の「確率分布関数」や「確率密度関数」が使われま

    確率変数とは何か - 初級Mathマニアの寝言
    tomoshige_n
    tomoshige_n 2016/02/26
    わかりやすい!
  • SappoRoR#5に行ってきました&LT資料 - 次元の海で溺れる

    先日SappoRoRに行ってきました。 年2回目開催!!! めでたい!!!!! 楽しかったです。みなさん大変お世話になってます。。。 広島関西の先生方ありがとうございました。 @R_beginnerさんのカルテどんどん進化しててわくわくするなあ。。すごいなあ。。 札幌のみなさんごはんに行きましょう...ともだち..トモダチホシイ 今回はうっかりLTをしてしまったので遅ればせながら資料を載せて逃げます。 しゃべる用 SappoRoR#5 Leafletでボロノイ図を描く from Wakana_kudo コード RPubs - SappoRoR#5 voronoimap おわり 許して。ころさないで。

    SappoRoR#5に行ってきました&LT資料 - 次元の海で溺れる
    tomoshige_n
    tomoshige_n 2016/01/01
    Thank you for your reference in your slide!
  • 【2日目】統計を学ぶ人のための測度論(1週間限定独りリレーブログ) - Data Science by R and Python

    こんにちは,2日目の記事はいろいろ悩みましたが,「統計のための測度論」ということで書いてみようかと.最初に断っておきますが,「理論的厳密さ」よりも,「直感的理解」を優先して書きますので,その辺り気持ち悪い人は,Wikipedia数学書(最後の参考文献)などを参照ください. さて,測度論といえば,Twitterをみている限り,勉強会で統計を勉強し始めた人が「格的に避けたい」分野になっているような気がします.その実情が垣間見えるのは,こちら(※逆に,統計やってるのに測度知らないとか...みたいなことを書いてる人もいて,gkgkbrbrしました(´・ω・`)). twitter.com 数学を専攻していた学部時代の僕でさえ正直なところ,統計やるんだからなんで必要なんだ?と思っていた時期があるぐらいですから,統計を知っておきたい/勉強を始めたい!という方に取って,これほど負担になっている分野は

  • 【ggplot2,formattable,DiagrammeR】新年なので大豆と向き合ってみた(1) - 次元の海で溺れる

    明けまして、おめでとうございます。 気付いたら年が明けていました。恐ろしい話です。 さて、正月なので実家では煮豆が卓に並ぶなどしているのですが、 そこでそういえば大豆について真剣に考えたこと無いな、と箸が止まりました。 大豆からの加工品ってやたらたくさんあるよね? 大豆たくさん作ってるとこと加工品たくさん作ってるとこって一致する?の? もう煮豆をつまんでいる場合ではありません。 気になったことはすぐ調べろってえらい人も言ってた。 大豆のデータ集を発見 普通にググって終わろうと思ってたらなんか大豆データが芋づる式に出てきた。 農林水産省/大豆関連データ集 PDFだけど謎の充実度である。何か色々できそう。 今回のテーマ ・取り急ぎ大豆加工品についてのデータ集めつつ、今まであまりやってなかった系の可視化の操作をしてみる。 次回以降は地図と組み合わせて色々見てみたい。今回はその前段階として。

    【ggplot2,formattable,DiagrammeR】新年なので大豆と向き合ってみた(1) - 次元の海で溺れる
    tomoshige_n
    tomoshige_n 2016/01/01
    おもしろい!!!新年初ハテブ!
  • Stackingに関して (1) - 東京に棲む日々

    予測モデルのコンペで使われているStackingという手法に関して。 モデルをEnsembleしまくって、マルチステージモデルにして予測精度を高めるときに使われる手法とのこと。 実務家な私も、業務でマルチステージモデル(2ステージ)を組む必要があったので、そのためのメモ。 kaggleなどで発明され、まだ教科書にはなっていない方法論のようで、以下を参照。 KAGGLE ENSEMBLING GUIDE 具体的には以下のような課題(データ)があった。 目的変数y(0,1のBinomial)、説明変数rとXでモデルを作りたい。 rは個々のセールスマンを示すようなカテゴリカルデータで、変量効果として扱いたい。 Xは営業日誌のようなテキストデータから単語抽出して、TF-IDF変換した横長なデータ。 混合モデル(Logistic GLMM)を作成したいが、横長なXをそのままロジスティックモデルの変数

    Stackingに関して (1) - 東京に棲む日々
  • stringiで輝く☆テキストショリスト - Qiita

    @kohske 2015年2月25日 はじめに テキスト処理を制する者は世界を制す Rのテキスト処理、ショボイと思ってませんか? 実際、ショボイです。 「統計処理はRでやるけど前処理でのテキスト処理はアウトソーシング」これRあるあるのひとつです。 ですが、stringiパッケージによってRは立派なテキスト処理ツールになります。 特に大量のテキストをサバく必要がある場合、stringiはチョッパヤです。 テキストショリストの皆様に於かれましてはこれを使わない手はありません。 テキスト処理のアウトソージングはもう終わり、stringiで今日から楽々テキストショリスト生活。 ちなみに読み方は「ストリンジィ(IPA [STRINɡI])」です。 stringiパッケージとは Fast, correct, consistent and convenient string/text processin

    stringiで輝く☆テキストショリスト - Qiita
  • utilsパッケージより小ネタ集(R Advent Calendar 2011 7日目) - はやしのブログ Rev.3

    alarm ではみなさん,おもむろに下のスクリプトを実行してください。 alarm() 音が出ましたね。それだけです。 R Advent Calendar 2011のレベルが高すぎて泣きそうです。でも開き直って,しょーもない小ネタでお茶を濁したいと思います! ということで,utilsパッケージをざーっと眺めて,目に付いたものを紹介していきたいと思います。 ちなみにさきほどのalarm関数ですが,関数を使わなくとも,文字列で実現できます。alarmの中身を見れば分かりますが, cat("\a") これだけで音が出ます。これをcolnamesとかに仕込んでいたずらを…と思ったんですがうまくいきませんでした。 apropos 知ってる人が多いと思いますが。aproposはオブジェクトを検索する関数です。うろ覚えの関数を探すのに便利です。 apropos("sum") いろいろ合計する関数がありま

    utilsパッケージより小ネタ集(R Advent Calendar 2011 7日目) - はやしのブログ Rev.3
  • Juliaのカレンダー | Advent Calendar 2014 - Qiita

    Julia Advent CalendarはJuliaに関するあれこれを書くAdvent Calendarです。 細かいTipsから、面白issueのwatch、速度を維持する書き方、Python, Rと比較した話まで、なんでもどうぞ。

    Juliaのカレンダー | Advent Calendar 2014 - Qiita
    tomoshige_n
    tomoshige_n 2014/12/15
    Julia!!!
  • 初心者だけどヘビ年だしPythonでWEBサービス作ってみた - ニート・アンド・カンパニー

    僕、プログラムはあまり書けないんですが、 「WEBサービスを作ってみたい」と以前から思っていた所、 正月実家に帰ってヒマが出来たので、ずっと気になってたプログラミング言語「Python」を勉強しがてら、 簡単なWEBサービスを作ってみたので、その過程を報告したいと思います。 あまり経験のない人間に言われても。。。という感じかもしれませんが、 僕の中の結論としては、 「今年こそはプログラミングできるようになりたい!」と言う人に、 個人的に一番オススメなのはPythonです。 この記事がこれからプログラミング始めたい / Pythonやってみたいと思ってる人のために、何かの足しになれば嬉しいです! 作ったサイト 2chまとめ番付 2chまとめブログからRSSを引っ張って来てまとめて表示する、 いわゆるアンテナサイトなんですが、ポイントとして、 1. はてブ順に見れる 2. 日間、週間、月間ラン

    初心者だけどヘビ年だしPythonでWEBサービス作ってみた - ニート・アンド・カンパニー
  • 不均衡データをSVMでクラス分類するにはどうすれば良いか - 渋谷駅前で働くデータサイエンティストのブログ

    今年のKDD cupが絵に描いたような不均衡データ(正例と負例との数的比率が極端に偏っているデータ)で苦労させられたので、ちょっと調べたら色々と良い方法があるなぁと気が付きましたよということで備忘録的に紹介しておきます。 ちなみにググったら普通に@sfchaosさんのslideshareが出てきたので、僕なんぞの解説よりそちらをどうぞw 不均衡データのクラス分類 なおこちらのスライドの方がSVM以外にもランダムフォレストなどでの対処法も載っているので、汎用的だと思います。。。 クラス重み付けを調整してサンプルサイズが小さい方のクラスの影響力を上げてやる これはRのsvm{e1071}の説明だと割とあっさりとしか書かれてないので、どちらかというとPythonのsklearn.svm.SVCの説明を見た方が分かりやすいかもしれません。 SVM: Separating hyperplane fo

    不均衡データをSVMでクラス分類するにはどうすれば良いか - 渋谷駅前で働くデータサイエンティストのブログ
    tomoshige_n
    tomoshige_n 2014/10/10
    なるほど。これは、いいアイデアだ!ちゃんと読もう。
  • Rでベイジアン動的線形モデルを学ぶ(2):まずは状態空間のコンセプトと基本のローカルレベル・モデルから - 渋谷駅前で働くデータサイエンティストのブログ

    前回からだいぶ間が空いた上に、要は{dlm}パッケージで遊ぼう!という大袈裟なタイトルの割に中身のないこのシリーズ記事ですが(笑)、取るものもとりあえずちょっと例題をやってみようと思います。参考文献はまずこちらのPetris。 Rによるベイジアン動的線形モデル (統計ライブラリー) 作者: G.ペトリス,S.ペトローネ,P.カンパニョーリ,和合肇,萩原淳一郎出版社/メーカー: 朝倉書店発売日: 2013/05/08メディア: 単行この商品を含むブログを見る あと、以前買ったけどまだ全部読み切ってないこちらのCommandeur*1も。 状態空間時系列分析入門 作者: J.J.F.コマンダー,S.J.クープマン,Jacques J.F. Commandeur,Sime Jan Koopman,和合肇出版社/メーカー: シーエーピー出版発売日: 2008/09メディア: 単行購入: 2

    Rでベイジアン動的線形モデルを学ぶ(2):まずは状態空間のコンセプトと基本のローカルレベル・モデルから - 渋谷駅前で働くデータサイエンティストのブログ
  • Rの基本グラフィックス機能またはggplot2を使って地図を描くには - verum ipsum factum

    Rに元から備わっているグラフィックス機能とその機能を拡張するggplot2で日地図を表示する方法について説明します。 地図データの準備 日地図のシェープファイルを入手します。入手先は2ヶ所(Global Administrative AreasおよびESRIジャパン株式会社)ありますので、順に説明します。なお、両者のデータの中身は異なるようなので注意してください。 Global Administrative Areasからダウンロードするには、Downloadにアクセスして、プルダウンメニューの「Country」で「Japan」を選択(「File format」メニューは「Shapefile」のままで)すると日地図のシェープファイルのダウンロードページにジャンプします。 ちなみに、「File format」メニューで「R (SpatialPolygonsDataFrame)」を選択す

    Rの基本グラフィックス機能またはggplot2を使って地図を描くには - verum ipsum factum
  • PyCon JP 2014 2日目が終わりました - White scenery @showyou, hatena

    終わりました。 1日目の終わりにも書きましたが、「英語ができない、勘と経験と度胸に頼る」というイメージどこいったんだって感じの、今までとは違う感じのPyCon JPだったかと思います。スタッフすらやってないのに私がPyConの理想像あげてしまうのも申し訳ないですが、Web関係だけでなく学術関係の方も参加しやすい会になるといいのかなと考えています。ただ一方で今までに比べ違う系統の発表であり、人によって前提知識がばらばらで全くわからなかったり既に知ってるよってのもあったりしたでしょう。来年は今年の発表で+1された発表があるとうれしいです。・・って自分も待ってるだけじゃなくて出さないとですね(今年は転職活動中でした)。 発表中に出てきた単語おさらい。自分の知ってる範囲で書いてみるけどいろんな方向から刺されそうですね・・ Numpy ベクトル・行列の計算を簡単に扱えるようにするライブラリ Scip

    PyCon JP 2014 2日目が終わりました - White scenery @showyou, hatena
    tomoshige_n
    tomoshige_n 2014/09/15
    こんな内容だったのか。でも面白そうだ。来年は行きたい。それから、python3.4からのStatisticは使ってみたい。残りは定番っぽいなー。
  • プログラミング学習サイトCodeAcademyが楽しすぎて今夜も眠れない | kirakira インドネシアライフ

    プログラミング学習サイトCodeAcademyでプログラミングを勉強をするすすめです。CodeAcademyがなぜ優れているのか力説します。プログラミングの学習ならCodeAcademy 毎日ちょっとずつプログラミングの勉強を続けているたんこま(@zenryokukankou)です。 photo credit: hackNY via photopin cc 今日はそのプログラミングを学ぶためのWebサイトCodeAcademy(コードアカデミー)についてご紹介します。 昨日、ハマコーさん(@hamako9999)に教えていただき使ってみたら。 松田優作もびっくりなくらい 「なんじゃこらー!!!!」 叫んでしまいそうになるすんばらしいサイトでした。 @zenryokukankou すいません、情報が中途半端で。http://t.co/qiS36vlX4Z こちらになります。実際に打つとなん

    プログラミング学習サイトCodeAcademyが楽しすぎて今夜も眠れない | kirakira インドネシアライフ
  • 欠測データの補完(調査観察データの統計科学 2.2節) - subrecurrent blog

    「調査観察データの統計科学」 http://www.amazon.co.jp/dp/4000069721/ の2.2節「欠測のメカニズム」にあった、例2.3「ランダムな欠測としての選抜効果」の例をRで試してみた。 書P31の定数の決め方だと、P32のグラフのようにならないので、を求めるときの切片は無視してみた。 ソースは以下の通り。 # データの設定 N <- 1000 theta1 <- 50 theta2 <- 0.8 sigma <- 49 C <- 60 set.seed(1) y1 <- theta1 + rnorm(N, 0, sqrt(100)) y2 <- theta2 * y1 + rnorm(N, 0, sqrt(sigma)) pcol <- ifelse(y1 >= C, "navy", "grey") data <- data.frame("y1" = y1,

    欠測データの補完(調査観察データの統計科学 2.2節) - subrecurrent blog