[B! r] xiangzeのブックマーク

「国と音楽」～spotifyrを用いて～ #muana

SpotifyのWebAPIから取得できるデータを使い、国ごとに流行っている曲の傾向やグループ分けを行ってみた。 #muana #R言語 #rstats

xiangze 2023/10/28

音楽
r

リンク

Rでエコノメトリクス一行だけ修正したような場合，「タイムスタンプを変更しない」をチェックのこと Rで計量経済分析を行いたい人向けの情報です。まずはEconometrics in R (pdf)を． Rを使って計量経済分析も参考にどうぞ。パッケージの一括インストール† 詳しくは CRAN Task View を参照していただきたいが、簡単には、 install.packages("ctv") library(ctv) install.views("Econometrics") install.views("Finance") で、必要なものはほぼすべて入ります。個別のパッケージについては、 CRAN Task View: Computational Econometrics CRAN Task View: Empirical Finance を参照されたい。 ↑ 例(1)† Haya

xiangze 2023/06/05

リンク

大規模テンソルデータに適用可能なeinsumの開発

[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP

xiangze 2023/03/09

r

リンク

Cédric Scherer

xiangze 2023/01/22

R
可視化

リンク

Rは簡単なプログラミング言語だよ、独特だけれどもね

データサイエンスブームもひと段落しつつあるこの頃であるが、統計解析や機械学習を行なうために、どのプログラミング言語を学習すべきかと言う質問はずっと頻出の質問だ。候補や推奨を見るとPython、R、Matlab、Juliaあたりが人気の候補だが、なぜかRは学習困難な言語と言う話がされることがあり*1、醜悪と言っている人もいる。しかし、人気のプログラミング言語の中ではシンプルな文法を持っているのがRなので、これは違和感のある主張だ。 1. Rの文法はとても簡素他のプログラミング言語にそこそこ習熟*2してからRの文法を学ぶと、あれも無い、これも無いと、潔さに感服する。変数が値渡しのみ C/C++で言うポインターや、PythonやJuliaにある参照渡しと値渡しの違い*3に悩む必要がない。動的型付けのみあらかじめ型宣言する必要がない。変数にならないオブジェクトが無い関数や環境（name

xiangze 2023/01/08

リンク

R のパッケージ {targets} にコントリビュートした話 - Sansan Tech Blog

はじめに研究開発部の小松です。本記事は Sansan Advent Calendar 2022 の17日目の記事になります。 adventar.org 普段こちらのブログではネットワーク経済学をテーマに細々と書いています。今回は少し話題を変えて、日頃の分析でお世話になっている R のパッケージ {targets} に (半年ぐらい前になりますけれど) OSSコントリビュートした話をします。普段の業務では Python と R 両方使っていますが、素早い対応が求められる分析業務では私は R を使っています。{tidyverse} によるデータハンドリングに慣れた身からすると、pandas での処理はまどろっこしく感じられて未だに慣れません。*1 その R を用いた分析の生産性を向上に大きく寄与しているのが、1年程前に使い始めた {targets} です。以下の記事にも、研究開発部の R

xiangze 2022/12/29

r
可視化

リンク

Rでデータセットの抽出（行の抽出、並べ替え、サンプリング、分割） – marketechlabo

前のページではデータフレーム、data.tableの列（変数）の処理について解説したが、今度は行の抽出、並べ替え、サンプリング、分割といった行の処理についてまとめる。行の削除（抽出）データフレーム adlog <- adlog[adlog$imp>1000 & adlog$click<10, , drop=F] adlog <- with(adlog, adlog[imp>1000 & click<10, , drop=F]) 上下は同じ。with()関数はバッチの中でも使えるので便利。データフレームの抽出・絞り込みでは第3添字にdrop=FALSEを付けること！行列の添え字にdrop=FALSEを付けないと1行（列）のみマッチの場合にベクトルとして返す。そうなるとデータフレームを想定してその後の処理にrbind()をしていたのができなくなるなど、行列処理に思わぬ不具合をきたすこと

xiangze 2022/12/10

R
dplyr

リンク

R for Data Analysis

xiangze 2022/11/15

R

リンク

CZI – Essential Open Source Software for Science

xiangze 2022/11/11

リンク

Snowflake R/RStudio Integration: How to Connect & Analyze Data? | Hevo

xiangze 2022/09/24

snowflake
R

リンク

101st TokyoR Meetup Roundup: Palmer penguins, fractal analysis, and more!

xiangze 2022/09/23

R

リンク

「状態空間時系列分析入門」をRで再現する

Commandeur & Koopman「状態空間時系列分析入門」をRで再現する仕事の都合で仕方なく状態空間モデルについて勉強していたのだけれど(なぜ私がこんな目に)、仕事で使うためには自分で計算できるようにならなければならない。参考にしているCommandeur & Koopman 「状態空間時系列分析入門」（以下「CK本」）の著者らは、すべての事例についてデータとプログラムを公開している。ありがたいことであります。しかし、ssfpackという耳慣れないソフトを使わなければならない。わざわざ新しいソフトの使い方を覚えるのは大変に面倒だ。できれば普段使っているソフトで済ませたい。というわけで、勉強かたがた、CK本に出てくる計算例を片っ端から R で再現してみた。汗と涙の甲斐あって、すべての章についていちおう再現できたので、ここに載せておくことにする。もくじ: Rプログラム紹介全体

xiangze 2021/11/29

時系列
r

リンク

モデルに基づく因果推論の各種手法をRで実装＆結果を比較してみた - Unboundedly

因果推論のための分析手法は様々ありますが、回帰モデルを使った主なアプローチのRでの実装方法とその推定結果の比較をします。モチベーション的な部分は以下をご参照ください。シミュレーションデータを使って、各手法がどのような（主にモデリングに関する）仮定に基づいているのか、それが結果の違いにどのように影響しているのかをみていきます。なお、Rマークダウンで書いたものをコピペしただけなのであまり見た目は美しくないですが、予めご了承ください。そのうち書籍化予定ですので、そのときにはもっと見やすく＆詳しく説明します・・・シナリオ擬似データの概要: 重回帰分析正しく設定されたモデル調整なしモデル調整あり&モデルの誤設定1 調整あり＆モデルの誤設定2 標準化(G-formula/G-computation) 正しく設定されたモデルモデルの誤設定傾向スコア(PS) 層化回帰モデルでの調

xiangze 2021/02/02

リンク

Yuta Kanzawa, Data Scientist

xiangze 2021/01/01

R
python

リンク

Rで異常検知(2): 正規分布に従うデータからの異常検知（ホテリング理論・MT法） - 渋谷駅前で働くデータサイエンティストのブログ

さて、気紛れから始まったこのシリーズですが。今回は第2章を取り上げます。入門機械学習による異常検知―Rによる実践ガイド作者: 井手剛出版社/メーカー: コロナ社発売日: 2015/02/19メディア: 単行本この商品を含むブログ (4件) を見る多変量かつ非正規データの異常検知は少し後の方になるので、例のwater treatment plantのデータセットを持ち出すのは後回しにして、今回は適当に生成したデータセットを使うことにしました。ちなみに、今回のシリーズではあまりあれこれ引用しまくると引用の範囲を超えてしまいそうな気がしたので（笑）、要点をちろっとまとめてRスクリプトを並べるだけに留めておきます。故に、皆さんご自身がお手元で試される場合には必ず井手先生のテキストをご用意下さい、ということで。ホテリングの（1次元）これはオーソドックスに正規分布する1次元のデータの中か

xiangze 2020/12/30

リンク

【R】4.4.3：ガウス混合モデルにおける推論：変分推論【緑ベイズ入門のノート】 - からっぽのしょこ

はじめにこの記事は、「R Advent Calendar 2020」の10日目の記事です。『ベイズ推論による機械学習入門』の学習時のノートです。基本的な内容は「数式の行間を読んでみた」とそれを「RとPythonで組んでみた」になります。「数式」と「プログラム」から理解するのが目標です。この記事は、4.4.3項の内容です。「観測モデルを多次元ガウス混合分布(多変量正規混合分布)」、「事前分布をガウス・ウィシャート分布とディリクレ分布」とするガウス混合モデルに対する変分推論(変分ベイズ)をRで実装します。省略してある内容等ありますので、本とあわせて読んでください。初学者な自分が理解できるレベルまで落として書き下していますので、分かる人にはかなりくどくなっています。同じような立場の人のお役に立てれば幸いです。【数式読解編】 www.anarchive-beta.com 【他の節一覧】

xiangze 2020/12/11

リンク

自動でEDAレポートを作成してくれるdlookrを触ってみた｜watagusa｜note

以下の論文が弊で紹介されていたので、挙げられているauto-EDAライブラリーのうちのひとつ、dlookrを触ってみた。 The Landscape of R Packages for Automated Exploratory Data Analysis Rのauto-EDAに関しては他にもlibraryが色々出ている。Pythonだと最近sweetvizが話題になっていた。他のlibraryも触ってみたいけど、ここで紹介されているものの中では比較的新しく、機能を整理した表によるとできることも多いようなのでまずはdlookr。tutorialがあるのでそれやるのがいいんだけど、この辺面白そうというところをまとめてみる。 https://github.com/choonghyunryu/dlookr テストデータはkaggleのHousePricesから拝借。データの概観ますは基本の関数

xiangze 2020/09/06

R

リンク

西浦先生らによる実効再生産数の統計モデルを解説＆拡張する試み - StatModeling Memorandum

先日の西浦先生のニコ生の発表を聞いていない人はぜひ聞いてください。モデルとデータを以下のリポジトリでオープンにしていただいたので、モデルについて僕が分かる範囲内で少し解説を加えたいと思います。 github.com 実効再生産数を推定するコードが2種類ありまして、最尤推定（Maximum Likelihood Estimation, MLE）を使ったMLE版（Sungmok Jungさん作成）と、ベイズ推定版（Andrei Akhmetzhanovさん作成）があります。どちらもコンセプトはほぼ同じで、実装が若干異なります。この記事では、ベイズ推定版（以降、元コードと呼びます）の流れを簡単に説明し、その後でその拡張を試みます。ベイズ推定版の流れ大きく分けて「データの集計」「back projection」「実効再生産数の推定」の3つの部分からなります。データの集計まずは日付ごとの

xiangze 2020/05/17

リンク

新型肺炎COVID-19の日本の実効再生産数を推定したrstanのコードを解説してみる - 驚異のアニヲタ社会復帰の予備

西浦先生が日本の実効再生産数を推定した。コードはrstanで下記から取れる。 https://nbviewer.jupyter.org/github/contactmodel/COVID19-Japan-Reff/tree/master/ 解説動画を見逃したのでコードと関連論文からのお勉強になるが、肝としては、・知りたいのは「感染した日」である。・診断日もしくは報告日は、データを収集して統計を取っているのでわかる。・診断されるには検査される必要があるから、だいたい症状か接触歴があって、発症日はそこそこデータがある。・感染した瞬間、はもちろん発病（はほとんど）していないのでわからない。という前提がある。PDFの「患者」の観測データについて、の項。（誰からから感染させられる）ー感染日ー発症日ー診断日/報告日という一連の流れについて、まったく情報がないわけではなく、いままでの数理モ

xiangze 2020/05/14

リンク

はてなブックマーク

タグ

関連タグで絞り込む (114)

rに関するxiangzeのブックマーク (331)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス