サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Wikipedia
www.housecat442.com
最近の投稿 「施策デザインのための機械学習入門」というデータサイエンスの起爆剤 データ分析との出会い 5 色々挑戦した2019年だった いったい何のためのモデルなのか? 「サルたちの狂宴」を読みました。 アーカイブ 2021年8月 (1) 2020年2月 (1) 2019年12月 (1) 2018年12月 (1) 2018年9月 (1) 2018年2月 (1) 2017年6月 (2) 2017年5月 (1) 2017年3月 (1) 2017年2月 (1) 2017年1月 (2) 2016年10月 (1) 2016年8月 (1) 2016年7月 (2) 2016年2月 (3) 2016年1月 (3) 2015年12月 (1) 2015年11月 (2) 2015年9月 (2) 2015年8月 (2) 2015年7月 (2) 2015年3月 (2) 2015年2月 (2) 2015年1月 (2)
色々因果推論と機械学習の論文を漁っていたら(自分的に)すごいものを見つけてしまいました。。。 AAAI2016に出ていた論文で「Online Instrumental Variable Regression with Applications to Online Linear System Identification」という代物です。 http://www.cc.gatech.edu/~bboots3/files/OIVR_AAAI.pdf 中身は非常にシンプルで、計量経済学でよく使われるInstrumental Variable Method(操作変数法)をオンライン学習の設定で学習できるようにしたというものです。 従来のIVは、データがすでに完全にそろっている状態で全部をメモリにのっけてOLSを二段階で解くというものでした。 が、これをオンライン学習にすると、データが1サンプルずつ都
アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。 いや、何をいまさらっていう感じなのですが書いておきます。 list.filesとlapply使う内容です。 あるディレクトリ内のcsvを一括で読み込みタイとします。 最初にlist.filesを使ってファイル名を取得します。 例えばlogというディレクトリ内のすべてのファイル名は以下で取得できます。 list.files(path = “log”, full.names = T) この時full.names = Tにすると、ファイル名にディレクトリの名前も付けてくれます。 これを適当な名前を付けた変数に突っ込んでおきます。 lf <- list.files(path = “log”, full.names = T) そしてlapplyを使ってまとめて読み込みます。 lapply(l
アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。 こんばんは。 数学ができなくて悩む今日この頃です。 が、データ分析は数学そのものでは無いので気にせずコツコツやっていこうと思う今日でもあります。 さて、 Japan.Rで発表してまいりました。 内容は「機械学習を使って広告の効果を推定する」という予測モデルを使って因果推論を試みる内容でした。 今回は内容の補足と解説を書きます。 発表した資料はこちらです。 1. Hal Varianのアプローチ そもそもこのトピックに興味を持ったのは Varianの書いた Big Data: New Tricks for Econometricsというペーパーと、 それに影響を受けたNBERのDemand Estimation with Machine Learning and Model Comb
アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。 さびびさにRの話です。 仕事でこの先AWSから逃げれないなと思ったので、生活に取り入れようと決心した今日この頃。 とりあえず自分のPCのメモリに載らないデータを扱う決心をすれば必要性が生じるのでkaggleのclick-through competitionのデータを使って何かしてみようと決めた訳です。 という事でこの辺を参考にしながらやってみました。 1. AWSのアカウントを取る。 とってくださいw 2. AMIがあるので見つける。 こちらのサイトへ行くと右側にrstudioのAMIを利用してAWSを立ち上げる画面へのリンクが置いてあるので、立てたいリージョンのリンクをクリックする。 あとは、ポチポチやっていけばr-studioがインストールされた状態のものが立ち上がる。 ちな
アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。 多重共線性について色々調べ物をしたのでちょっとまとめておきます。 結構マルチコマルチコ言われてるんですけど、何がそんな問題なんだっけ?起きちゃったときは何しちゃだめで、何していいんだっけ?というのをちゃんとまとめておきたかったので良い機会化と。 基本的に重回帰分析での話がベースです。 1. 多重共線性とは。 説明変数同士が強く相関してしまっているケースで発生する問題の事です。 例えば以下の様なモデルを推定したいとします。 y = a + b*x_1 + c*x_2 + d*x_3 + u この時cor(x_2, x_3)が高すぎると、多重共線性の問題が発生します。 結果x_2,x_3のパラメーターであるcとdの標準誤差が大きくなり、cとdの推定結果の正負も大きさも信頼のできないもの
Gradient Boosting Decision Tree(GBDT)を勉強したので、その概要とRでのパッケージの簡単な使い方を乗っけておきます。 1. そもそもGBDTってなんだよっていう話。 単純に言えば、複数の決定木を作成して、集団で学習させる方法の事です。 1本決定木を作り、上手くモデルで説明が出来なかったobservationに対して重みを付け、重みのついた状態で次の木を作り、また重みを付けて・・・ というステップを指定した本数分だけ繰り返します。 誤差に対して学習しなおしてくれるので、決定木よりもっと良いモデルが出来上がります。 理論の詳細はこちらの本を参考にしていただければと。 英語版は著者サイトで無料公開されています。英語大丈夫な人はこちらを参照するとよいかと。 http://statweb.stanford.edu/~tibs/ElemStatLearn/ あとこのイ
アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。 最近位置情報のデータを仕事でもプライベートでも扱ってます。 そんな中国土交通省の「国土数値情報 ダウンロードサービス」から落とせるデータの扱いで色々困ったのでまとめておきます。 さて、上記のサイトでは基本的にダウンロードできるデータがshape fileになっています。 csvにまとまっているものも存在するのですが、すべてのデータがcsvになっているわけではないのでshapeを扱えないと困ってしまう可能性があります。 1. shape fileからのデータの読み込み 色々調べましたが、基本的にはmaptoolsパッケージのreadShapeXXXXを使うのが良さそうです。XXXXにはshapeファイルの中に入っているデータの種類で違います。 ポリゴンデータならPolyが入るといった
アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。 (R Advent Calendar @ Qiita 16日目) こんにちは、16日目担当のサーモンさんです。 突然なんですが、僕Linear Programming好きなんですよ。 というか多分Operations ResearchとかSupply Chain Managementが好きなんですよ。 なんなんすかね、ビジネスのフローをモデル化する部分が好きなんでしょう。 卒論でもサーモン養殖の線形計画法とかやろうか悩んでたくらいですよ。(収穫船と餌の輸送と生産の組合せ計画とかがあるんすよ) で、大学院にいた時はAMPLっていう言語でCPLEXとかNEOSとかっていったソルバーを使って問題を解いていたのですが、ソルバーはお高い訳です。 まぁ早い話がRでやりたい訳です。 で、探してみ
取り敢えず時間がないけどブログ更新したいと思ったらdplyr書いておけば良いやって思っているサーモン安井です。 最近DFP使って自分のブログに自社広告して自分の広告出してるんですけど全然表示されません・・・ impは計測されてるのに・・・ さて、今回はmutate使ってデータをカテゴライズしてーぞって話です。 mutateで変数を追加出来るんですけど、その際にifelseを使うと条件によってその変数の値を定義する事が出来ます。 例えば曜日の有る時系列データなんかを扱っている場合、 mutate( mon = ifelse(youbi == “月曜日”, 1, 0 ) とかってやれば月曜日の時だけ1でそれ以外の曜日では0が入る変数を追加する事が出来ます。 もう結果をいちいちコピペするの面倒なのでknitr使ってみました。 irismutate irisのデータにSpeciesを元にしてカテゴ
アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。 Tokyo.Rに行くたびにdplyrの話が話題に上がっていて、数か月前は完全に「なんすか、それ?意味あるんすか?」みたいな感じだったんですが、最近データの前処理で使いまくりです。 もうね、便利すぎてヤヴァイ。 という事で使い方をまとめておこうかと。 library自体はCRANからtidyverseをインストールするか、そのままdplyrをインストールすれば大丈夫です。 どちらの場合も library(dplyr)で呼び出せます。 twoyp, area, ku, matiの4つの変数のある賃貸物件のサンプルデータがあるとしましょう。 それぞれ家賃二年分・面積・23区・市町というデータです。 この発表で使われたものですね。 頭の10行を取り出してみます。 > head(sample
世間ではビッグデータが云々言われていて、そろそろ日本でもちゃんと計量経済学が評価される日が来るのではないかなと思っている今日このごろです。 ただ今のアルゴリズムと時系列一辺倒な感じを見ると、誰かがちゃんと「機械学習だけじゃなくて経済学で仮説作って統計解析って手も使えるよ」といううことを証明して宣伝しなければそんな未来は来そうにないですね。 僕は大学4年生になるまで、数学も統計も全く勉強して来ませんでした。けれども、アメリカで計量経済学の授業を取ってその有用性に気が付き、これを勉強して使えるように成ろうと決心しました。 なので、統計学も数学も最初に関しては独学でこなして来ました。 自分のレベルでどの教科書を使えば良いのか?という問に答えられるといいです。 そもそも計量経済学について(追記 2018/12/24) 計量経済学がそもそもどんな分析をするものなのか?という事を知らない状態で勉強を進
えー偶には留学の話も書きましょう。 日本に帰ってきて相当な回数「なんでノルウェーに留学したんですか?」と聞かれました。 毎回答えるのに結構疲れましたw 答えは単純。 学費が無料だったからです アメリカから帰ってきて大学院の学費は出ないよと言われた僕には3つの選択肢がありました。 1.今は諦めて就職する。数年後に大学院へ行く。 2.奨学金を得る。 3.学費が無料な学校へ行く。 3つの選択肢というかは、自分で準備できる経済力という制約条件下に置いて大学院に行かなければ成りませんでした。 多分この悩みに直面する人はかなり多いと思います。 僕にとって1つ目の選択肢は論外でした。この選択肢を取っても、本当に将来大学院に行くとは思えなかったからです。 なので、僕はまず2を選択。 小さい奨学金を得ることは出来たものの、2年の生活費と学費をペイできる程の物を得ることはできませんでした。 そうなると今度は大
アメリカへの交換留学とノルウェーへの大学院留学を経た後に、データサイエンティストを目指そうとする人の戯れ言。 えー説明の正確性については勘弁して下さいw 内容もとてつもなく初歩的なものです。 マルコフ連鎖って聞いた時に「あーこんなことしてるんだな」というアイデアが解るように・・・なるといいなw 以下の地点ABCを行き来するすごろくみたいなものをしてると思いましょう。 矢印の上にはその移動が起きる確率が書いてあります。 つまり、Aなら AからB:1/3 AからC:1/3 AからA:1/3 という確率で移動します。 これを一覧表(マトリックス)にするとこんなかんじです。 で、まぁとりあえず何が知りたいの?って話になるわけです。 ここで知りたいことはx回移動させた時にコマがA,B,Cのそれぞれにいる確率です。 この確率を知るにはx回移動させる事を10万回位実験してみればいい訳ですが、 マルコフさ
このページを最初にブックマークしてみませんか?
『分析のおはなし。 | アメリカへの交換留学とノルウェーへの大学院留学を経た後に、...』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く