SpotifyのWebAPIから取得できるデータを使い、国ごとに流行っている曲の傾向やグループ分けを行ってみた。 #muana #R言語 #rstats
Rでエコノメトリクス 一行だけ修正したような場合,「タイムスタンプを変更しない」をチェックのこと Rで計量経済分析を行いたい人向けの情報です。 まずはEconometrics in R (pdf)を. Rを使って計量経済分析も参考にどうぞ。 パッケージの一括インストール† 詳しくは CRAN Task View を参照していただきたいが、簡単には、 install.packages("ctv") library(ctv) install.views("Econometrics") install.views("Finance") で、必要なものはほぼすべて入ります。 個別のパッケージについては、 CRAN Task View: Computational Econometrics CRAN Task View: Empirical Finance を参照されたい。 ↑ 例(1)† Haya
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
データサイエンスブームもひと段落しつつあるこの頃であるが、統計解析や機械学習を行なうために、どのプログラミング言語を学習すべきかと言う質問はずっと頻出の質問だ。候補や推奨を見るとPython、R、Matlab、Juliaあたりが人気の候補だが、なぜかRは学習困難な言語と言う話がされることがあり*1、醜悪と言っている人もいる。しかし、人気のプログラミング言語の中ではシンプルな文法を持っているのがRなので、これは違和感のある主張だ。 1. Rの文法はとても簡素 他のプログラミング言語にそこそこ習熟*2してからRの文法を学ぶと、あれも無い、これも無いと、潔さに感服する。 変数が値渡しのみ C/C++で言うポインターや、PythonやJuliaにある参照渡しと値渡しの違い*3に悩む必要がない。 動的型付けのみ あらかじめ型宣言する必要がない。 変数にならないオブジェクトが無い 関数や環境(name
はじめに 研究開発部の小松です。 本記事は Sansan Advent Calendar 2022 の17日目の記事になります。 adventar.org 普段こちらのブログではネットワーク経済学をテーマに細々と書いています。今回は少し話題を変えて、日頃の分析でお世話になっている R のパッケージ {targets} に (半年ぐらい前になりますけれど) OSSコントリビュートした話をします。 普段の業務では Python と R 両方使っていますが、素早い対応が求められる分析業務では私は R を使っています。{tidyverse} によるデータハンドリングに慣れた身からすると、pandas での処理はまどろっこしく感じられて未だに慣れません。*1 その R を用いた分析の生産性を向上に大きく寄与しているのが、1年程前に使い始めた {targets} です。以下の記事にも、研究開発部の R
前のページではデータフレーム、data.tableの列(変数)の処理について解説したが、今度は行の抽出、並べ替え、サンプリング、分割といった行の処理についてまとめる。 行の削除(抽出) データフレーム adlog <- adlog[adlog$imp>1000 & adlog$click<10, , drop=F] adlog <- with(adlog, adlog[imp>1000 & click<10, , drop=F]) 上下は同じ。with()関数はバッチの中でも使えるので便利。 データフレームの抽出・絞り込みでは第3添字にdrop=FALSEを付けること! 行列の添え字にdrop=FALSEを付けないと1行(列)のみマッチの場合にベクトルとして返す。そうなるとデータフレームを想定してその後の処理にrbind()をしていたのができなくなるなど、行列処理に思わぬ不具合をきたすこと
Commandeur & Koopman「状態空間時系列分析入門」をRで再現する 仕事の都合で仕方なく状態空間モデルについて勉強していたのだけれど(なぜ私がこんな目に)、仕事で使うためには自分で計算できるようにならなければならない。 参考にしているCommandeur & Koopman 「状態空間時系列分析入門」(以下「CK本」)の著者らは、すべての事例についてデータとプログラムを公開している。ありがたいことであります。しかし、ssfpackという耳慣れないソフトを使わなければならない。わざわざ新しいソフトの使い方を覚えるのは大変に面倒だ。できれば普段使っているソフトで済ませたい。 というわけで、勉強かたがた、CK本に出てくる計算例を片っ端から R で再現してみた。汗と涙の甲斐あって、すべての章についていちおう再現できたので、ここに載せておくことにする。 もくじ: Rプログラム紹介 全体
因果推論のための分析手法は様々ありますが、回帰モデルを使った主なアプローチのRでの実装方法とその推定結果の比較をします。 モチベーション的な部分は以下をご参照ください。 シミュレーションデータを使って、各手法がどのような(主にモデリングに関する)仮定に基づいているのか、それが結果の違いにどのように影響しているのかをみていきます。 なお、Rマークダウンで書いたものをコピペしただけなのであまり見た目は美しくないですが、予め ご了承ください。 そのうち書籍化予定ですので、そのときにはもっと見やすく&詳しく説明します・・・ シナリオ 擬似データの概要: 重回帰分析 正しく設定されたモデル 調整なしモデル 調整あり&モデルの誤設定1 調整あり&モデルの誤設定2 標準化(G-formula/G-computation) 正しく設定されたモデル モデルの誤設定 傾向スコア(PS) 層化 回帰モデルでの調
さて、気紛れから始まったこのシリーズですが。今回は第2章を取り上げます。 入門 機械学習による異常検知―Rによる実践ガイド 作者: 井手剛出版社/メーカー: コロナ社発売日: 2015/02/19メディア: 単行本この商品を含むブログ (4件) を見る 多変量かつ非正規データの異常検知は少し後の方になるので、例のwater treatment plantのデータセットを持ち出すのは後回しにして、今回は適当に生成したデータセットを使うことにしました。 ちなみに、今回のシリーズではあまりあれこれ引用しまくると引用の範囲を超えてしまいそうな気がしたので(笑)、要点をちろっとまとめてRスクリプトを並べるだけに留めておきます。故に、皆さんご自身がお手元で試される場合には必ず井手先生のテキストをご用意下さい、ということで。 ホテリングの(1次元) これはオーソドックスに正規分布する1次元のデータの中か
はじめに この記事は、「R Advent Calendar 2020」の10日目の記事です。 『ベイズ推論による機械学習入門』の学習時のノートです。基本的な内容は「数式の行間を読んでみた」とそれを「RとPythonで組んでみた」になります。「数式」と「プログラム」から理解するのが目標です。 この記事は、4.4.3項の内容です。「観測モデルを多次元ガウス混合分布(多変量正規混合分布)」、「事前分布をガウス・ウィシャート分布とディリクレ分布」とするガウス混合モデルに対する変分推論(変分ベイズ)をRで実装します。 省略してある内容等ありますので、本とあわせて読んでください。初学者な自分が理解できるレベルまで落として書き下していますので、分かる人にはかなりくどくなっています。同じような立場の人のお役に立てれば幸いです。 【数式読解編】 www.anarchive-beta.com 【他の節一覧】
以下の論文が弊で紹介されていたので、挙げられているauto-EDAライブラリーのうちのひとつ、dlookrを触ってみた。 The Landscape of R Packages for Automated Exploratory Data Analysis Rのauto-EDAに関しては他にもlibraryが色々出ている。Pythonだと最近sweetvizが話題になっていた。他のlibraryも触ってみたいけど、ここで紹介されているものの中では比較的新しく、機能を整理した表によるとできることも多いようなのでまずはdlookr。tutorialがあるのでそれやるのがいいんだけど、この辺面白そうというところをまとめてみる。 https://github.com/choonghyunryu/dlookr テストデータはkaggleのHousePricesから拝借。 データの概観ますは基本の関数
先日の西浦先生のニコ生の発表を聞いていない人はぜひ聞いてください。 モデルとデータを以下のリポジトリでオープンにしていただいたので、モデルについて僕が分かる範囲内で少し解説を加えたいと思います。 github.com 実効再生産数を推定するコードが2種類ありまして、最尤推定(Maximum Likelihood Estimation, MLE)を使ったMLE版(Sungmok Jungさん作成)と 、ベイズ推定版(Andrei Akhmetzhanovさん作成)があります。どちらもコンセプトはほぼ同じで、実装が若干異なります。この記事では、ベイズ推定版(以降、元コードと呼びます)の流れを簡単に説明し、その後でその拡張を試みます。 ベイズ推定版の流れ 大きく分けて「データの集計」「back projection」「実効再生産数の推定」の3つの部分からなります。 データの集計 まずは日付ごとの
西浦先生が日本の実効再生産数を推定した。 コードはrstanで下記から取れる。 https://nbviewer.jupyter.org/github/contactmodel/COVID19-Japan-Reff/tree/master/ 解説動画を見逃したのでコードと関連論文からのお勉強になるが、肝としては、 ・知りたいのは「感染した日」である。 ・診断日もしくは報告日は、データを収集して統計を取っているのでわかる。 ・診断されるには検査される必要があるから、だいたい症状か接触歴があって、発症日はそこそこデータがある。 ・感染した瞬間、はもちろん発病(はほとんど)していないのでわからない。 という前提がある。PDFの「患者」の観測データについて、の項。 (誰からから感染させられる)ー感染日ー発症日ー診断日/報告日という一連の流れについて、まったく情報がないわけではなく、いままでの数理モ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く