本文「nrow r」を検索 - はてなブックマーク

1 - 40 件 / 40件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

nrow rの検索結果1 - 40 件 / 40件

おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary
- 193 users
- ill-identified.hatenablog.com
- テクノロジー
- 2020/10/03
2021/9/10 追記: 改めて更新された話を統合して整理して書き直しました. 以降はこちらを参考にしてください: ill-identified.hatenablog.com 2021/1/15 追記: RStudio 1.4 がリリースされたのでなるべくアップデートしましょう 2020/12/06 追記: Japan.R で今回の話の要約+新情報を『Mac でも Windows でも, PNG でも PDF でもRのグラフに好きなフォントで日本語を表示したい (2020年最終版)/Display-CJK-Font-in-Any-Gpraphic-Device-and-Platform-2020 - Speaker Deck』として発表した. ハイライトは「近々出るRStudio 1.4 があれば fontregisterer はほぼいらなくなる」 2020/10/31 追記: geom
- R
- あとで読む
- ggplot2
- グラフ
- ggplot
- 統計
- フォント
- 文字コード
- 日本語
- 統計学
一般的な時系列のモデリング＆予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた（追記あり） - 渋谷駅前で働くデータサイエンティストのブログ
- 103 users
- tjo.hatenablog.com
- テクノロジー
- 2019/09/18
この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予測精度の向上ではないことも実験で示している。機械学習の研究では統計モデルとの比較も入れるべきという提言をしている。 https://t.co/jboGhYSX6E— piqcy (@icoxfog417) September 16, 2019 この点について僕はこんなコメントをしたのですが。だいぶ以前から「一般的な時系列データ予測の問題は単位根過程や季節調整など非定常過程との戦いなので、本質的に定常過程を想定する機械学習手法での予測は計量時系列分析など非定常過程も考慮した古典的なモデルによる予測には及ばない」と言い続けてきたけど、やっ
- 機械学習
- 時系列
- あとで読む
- 深層学習
- データ
- 分析
- techfeed
- 学習
- GitHub
傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常
- 57 users
- pira-nino.hatenablog.com
- テクノロジー
- 2019/08/04
0. はじめに 1. 対象データ 2. 先に各手法の結果を確認 3.準備 4. 基礎集計~CMを見た人と見ていない人での目的変数の差~ 5. 因果推論の流れのおさらい 6. 傾向スコアモデリング 6.1 モデリング 6.2 テスト / コントロールの傾向スコアの可視化 6.3Rでの傾向スコアモデリングの実装 7. 傾向スコアマッチング 7.1 結構面倒なpython 7.2 R (Matchingライブラリ) 7.3マッチングの評価 8.IPW 9. ダブルロバスト 9.1 回帰モデル 9.2ダブルロバスト 10.Proximityマッチング 11.改めて、各種手法による推定因果効果のまとめ 12.まとめ 0. はじめに理論編に引き続き、実装を行なっていきます。 pira-nino.hatenablog.com 実装はpythonとRの両方で行いました。作業用のコードは以下のgithu
- 因果推論
- R
- あとで読む
- データ
- Python
不動産価格データを使って相場を推測する｜komeya
- 40 users
- note.com/komeyaukon
- 暮らし
- 2022/03/31
以前の記事で、せっかく日本全国の不動産取引価格データが取れたので、もう少し不動産価格モデルについて詳しくやってみる。また、ちょっと進んだ手法についても触れてみたい（これは別記事にしました。詳細はこちら。不動産価格データを使った相場分析ー世田谷区一棟マンション）。価格データの加工と可視化以前紹介した通り、国土交通省の不動産価格取引情報検索からデータがダウンロードできる。これは全国をカバーしていて、2005年以降の20年近くのデータがある。サイトから一気に全国全期間のデータがダウンロードできる。全国のデータは取れるが一気に全国データを扱うのは大変なので、簡単なモデルから徐々に複雑にしていく。こないだ世田谷のデータを使ったので、まずは世田谷区のデータを使う。こないだは過去１年に取引されたデータだけだったので、データが存在する１０年以上前の取引データも全部使ってみる。前回説明した通り、築年が元
- 不動産
- R
- データ
- あとで読む
- twitter
データ分割
- 32 users
- uribo.github.io
- テクノロジー
- 2019/06/30
class: center, middle, inverse, title-slide # データ分割 ## Part of 📖Data Preprocessing Cookbook 👨‍🍳 ### Uryu Shinya ### uribo u_ribo ### 2019-06-30 (updated: 2019-06-30) --- # 概要 - 予測モデルの性能を評価、過学習を防ぐためにデータ分割の処理が必要となる - データセットをモデル構築用と評価用のデータに分ける - データセットの大きさ、特性（クラスやグループが存在するか、時系列かどうか）に応じてリサンプリングの方法を変え
平均への回帰：愚かな誤謬を惹き起こす美しきrandomness - 渋谷駅前で働くデータサイエンティストのブログ
- 31 users
- tjo.hatenablog.com
- 学び
- 2019/11/27
元々はQuoraでこういうアンサーを書いたのがきっかけです。本文中では「厳密性を一切考慮しない平易な説明で良ければ（※僕自身も数理統計学的な意味での確率論に関してはど素人なのでそもそも厳密な説明はできませんが）」と断り書きを入れましたが、厳密でないどころか間違っていたらそれはそれで悲しいので、詳しい方*1からツッコミをいただくべくブログ記事にもう少し細かく書いてみようかと思ったのでした。ということで、Quoraアンサーの補足説明も兼ねて自分なりの理解を以下に書いておきます。誤っている点や不足している点などあれば、何かしらの形でツッコミを入れて下さると有難いですm(_ _)m 人口に膾炙した説明実験1：本来の平均回帰数学的説明実験2：純粋に運が試されるギャンブル結果から見えるもの余談追記人口に膾炙した説明一般には平均への回帰 (Regression toward the
- 考え方
- あとで読む
Rで機械学習モデルの解釈手法たちを試してみる - 渋谷駅前で働くデータサイエンティストのブログ
- 28 users
- tjo.hatenablog.com
- テクノロジー
- 2020/09/07
この記事の前段として、まず事前に昨年書いた機械学習モデルの解釈性についての記事をご覧ください。僕が知る限り、機械学習実践のデファクトスタンダードたるPython側ではLIMEやSHAPといった解釈手法については既に良く知られたOSS実装が出回っており、相応に実際に使ってみたというレポートも見かける状況です。一方、R側ではそこまでメインに機械学習を回す人が多くないせいか、あまりこれまで実践例を見かけないなぁと思っていました。そんなことを考えながら先日ふと思い立ってググってみたら、意外にも幾つかの解釈手法については既にOSS実装があり、中にはCRANに上がっているものもあるのだと今更ながら知ったのでした。ということで、二番煎じなのか何番煎じなのか分かりませんが、これらのRによる機械学習モデルの解釈法実装を今更ながら僕も試してみることにします。検証に使うデータセットは統一してUCI ML
- 機械学習
- R
- あとで読む
- データ
- techfeed
多重共線性のシミュレーション - 井出草平の研究ノート
- 26 users
- ides.hatenablog.com
- 学び
- 2022/07/17
下記エントリーの続き。 ides.hatenablog.com こちらの教科書から多重共線性について Statistical Rethinking: A Bayesian Course with Examples in R and STAN (Chapman & Hall/CRC Texts in Statistical Science) 作者:McElreath, RichardChapman and Hall/CRCAmazon Richard McElreath - Statistical Rethinking_ A Bayesian Course with Examples in R and STAN 6.1. 多重共線性一般に、回帰モデルに追加する潜在的な予測変数が多くあることは事実である。たとえば、霊長類のミルク・データの場合、我々が結果として選ぶどの列も予測するために利用可
- 論文
- あとで読む
- 統計
- 勉強
Text2Landscape: Visualize a Text in Multiple Spaces with R — Force-directed networks, Biofabric, Word Embeddings, Principal Component Analysis and Self-Organizing Maps
- 25 users
- ourednik.info
- テクノロジー
- 2023/07/02
First Visualizations: Frequencies Let us first visualize word frequencies. We can get these frequencies with the quanteda package, which implies transforming the column of lemmas (text.lemmas$lemma) into a quanteda tokens object, then to a document-feature matrix. Doing so, we only retain significant parts of phrases (nous, proper nouns, verbs and adjectives). This only partially spares us the tas
毎月勤労統計調査、2018年の集計方法変更で何か間違えた模様 - remcat: 研究資料集
- 21 users
- remcat.hatenadiary.jp
- 政治と経済
- 2021/10/10
前々回記事で、毎月勤労統計調査の母集団労働者数推計がセンサスの数値から乖離している問題をとりあげた。 5-29人規模と500-999人規模事業所では、推計母集団労働者数が増加することにより、センサスからの乖離が生じている 30-99人規模事業所では、推計母集団労働者数が減少することにより、センサスからの乖離が生じているさらに、前回記事では、母集団労働者推計をふたつの段階にわけて、どこでセンサスとの乖離が生じているかを検討した。調査対象事業所の労働者数の月間の変動データによる推計が第1段階であり (「毎勤推計」と呼ぶ)、事業所新設・廃止等による変動 (雇用保険事業所データによる) と事業所規模の変化などで別の層に事業所が移動したことによる変動 (毎月勤労統計調査による) の推計をおこなうのが第2段階である (「雇用保険等補正」と呼ぶ)。 5-29人規模事業所の推計母集団労働者数の増加
時系列モデリングのおさらい：季節調整とトレンド抽出 - 渋谷駅前で働くデータサイエンティストのブログ
- 18 users
- tjo.hatenablog.com
- 世の中
- 2020/04/29
COVID-19が世界中に感染拡大し、日本含め多くの国で外出や集会の制限（自粛）措置が取られて久しい昨今ですが、これに伴って多くのところでCOVID-19に関連したオープンデータが公開されるようになっており、データ分析を生業とする人間が実データを扱う良い機会ともなっているように見受けられます。ということで、今回の記事では東京都が公開している日次のCOVID-19感染者（PCR検査陽性者）報告数のデータを題材として、時系列モデリングのおさらいをしてみようと思います。なお、この記事における時系列モデリング結果は今後のCOVID-19の感染拡大状況について何かしらの解釈や予測をするためのものでは全くありません*1ので、悪しからずご了承ください。また、この記事で公開しているコードは以前書いたクソコードをそのまま転用しているので、端的に言ってただのクソコードです。皆さん自身がお試しになる際は是非
RにTorchとLightGBMがやってきた - 渋谷駅前で働くデータサイエンティストのブログ
- 17 users
- tjo.hatenablog.com
- テクノロジー
- 2020/10/06
これまで、RとPythonは両方使える人が少なくないながらも開発陣やコミュニティの思想が違うせいもあってか、「Rは統計学向け」「Pythonは機械学習向け」的な住み分けが年々進み、特に機械学習関連の重要なフレームワーク・ライブラリ類はPython向けのみがリリースされることが多く、R向けにはリリースされないということが常態化している印象がありました。そんな中、この9月にPythonの機械学習OSSを代表する2つのライブラリが相次いでR版パッケージを発表したので、個人的にはなかなか驚きました。中には「この2つがRに来たからにはもうPythonは触らない」と豪語する過激派の方もいらっしゃるようですが（笑）、それはさておき個人的な備忘録としてこの2つのR版パッケージを試してみた記録を記事として残しておこうと思います。なお、以下のモデリングはほぼ何もチューニングを行っておりません。あくまでも「
- R
- data
- python
- it
毎月勤労統計調査、今後のベンチマーク更新で大きなギャップ発生のおそれ - remcat: 研究資料集
- 17 users
- remcat.hatenadiary.jp
- 政治と経済
- 2021/09/12
8月26日、毎月勤労統計調査の改善に関するワーキンググループの第2回会議があった。オンラインで傍聴できるとのことだったので、申し込んで傍聴してみた。この第2回会議の主たる議題は、毎月勤労統計調査の「ベンチマーク更新」について。2016年の経済センサス-活動調査の情報または事業所母集団データベース2019年次フレームの情報を利用して2022年1月にベンチマーク更新をおこなう、という方針に基づいて作成した試算の検討がおこなわれた。この方針は第1回会議 (2021-07-09) において提案されていたが、これらのふたつの情報源のどちらも精確さを欠くため、試算を作成しての対応を検討することになったものである (第1回会議の議事録を参照)。第2回会議に提出されたこの試算結果をみると、500-999人規模事業所の労働者数が2割近く減ったり、「きまって支給する給与」平均が1000円
- 統計
- あとで読む
- 調査
- Japan
- 労働
RでK-meansの最適なクラスタ数をAIC / BICに基づいて求める - 渋谷駅前で働くデータサイエンティストのブログ
- 17 users
- tjo.hatenablog.com
- テクノロジー
- 2021/04/21
これはただの備忘録です。既知の話題ばかりが並べられているので、特に新鮮味のない内容である点予めご容赦ください。クラスタリング手法として広く知られるK-meansは、その簡便さから非常に広汎に使われていますが、一方で「クラスタ数を恣意的に決め打ちせざるを得ない」という難点があり、「最適なクラスタ数をどうやって決めるか」という課題が長年に渡ってあります。この課題の解決策についてちょっと調べてみたので、以下にまとめてみました。 K-meansにおける「最適なクラスタ数の決め方」として、こちらの記事では伝統的な手法ということでエルボー法シルエット分析 X-means（K-meansに情報量規準を適用して再帰的に最適クラスタ数を決める）の3種類が紹介されています。これらは僕も以前から聞いたことがあるもので、実際K-meansの実装の中には最初からエルボー法などを含んでいるものもあったりします
- R
- 機械学習
- あとで読む
- HotEntry
- データ
蔓延防止等重点措置（まん防）の効果検証を「あえて」DID＋TSclustによる時系列クラスタリング＋CausalImpactでやってみた - 渋谷駅前で働くデータサイエンティストのブログ
- 15 users
- tjo.hatenablog.com
- テクノロジー
- 2022/03/16
少し前の話ですが、現在COVID-19の感染が拡大している地域で実施される「蔓延防止等重点措置（まん防）」に効果があったかどうかについて、計量経済学的な観点に基づいた政策評価レポートが公開されて話題になっていました。追記本日午前中に元のレポート自体が更新されていたようで*1、今回の記事はその更新を反映していない点悪しからずご了承ください。で、結論はともかくその手法とアプローチについては色々と議論が起きているようです。例えば、上記のブログ記事では実際に東京都のデータで追試をしてみて、もう少し異なるやり方があるのではないかと指摘しています。この辺は僕にとっても同様で、普段から同様のデータ分析を広告・マーケティング分野で手掛けている身としては「自分ならこうしたい」と思われるポイントが幾つかあり、折角データソースや背景となる行政措置の詳細などがレポート中で明記されているのだから、いっそ自分
[Latent Diffusion] AIでテキストから画像を生成する
- 14 users
- www.12-technology.com
- テクノロジー
- 2022/08/10
初めに、論文発表元のGithubからソースコードを取得します %cd /content !git clone https://github.com/CompVis/latent-diffusion.git 次にライブラリをインストールします。 %cd /content !git clone https://github.com/CompVis/taming-transformers !pip install -e ./taming-transformers !pip install omegaconf>=2.0.0 pytorch-lightning>=1.0.8 torch-fidelity einops import sys sys.path.append(".") sys.path.append('./taming-transformers') from taming.models
Rでのナウなデータ分割のやり方: rsampleパッケージによる交差検証 - 株式会社ホクソエムのブログ
- 13 users
- blog.hoxo-m.com
- テクノロジー
- 2019/06/08
前処理大全の「分割」の章では、予測モデルの評価のためのデータセット分割方法が解説されています。基礎から時系列データへ適用する際の注意まで説明されているだけでなく、awesomeなコードの例がRおよびPythonで書かれており、実践的な側面もあります（お手元にぜひ！）。しかし今回は、Awesome例とは異なる、より新しいやり方で・簡単にRでのデータ分割を行う方法を紹介したいと思います。前処理大全でも取り上げられているcaretパッケージですが、その開発者のMax Kuhnが開発するパッケージの中に rsample を使う方法です。ここでは前処理大全で書かれている一般的なデータと時系列データの交差検証による分割をrsampleの使い方を紹介しながらやっていきます。加えて、rsampleの層化サンプリングについても最後に触れます。 1. レコードデータにおけるモデル検証用のデータ分割 zeal
Dispersion vs. Control
- 9 users
- hopkinsidd.github.io
- 世の中
- 2020/03/04
Dispersion vs. Control Kyra Grantz C. Jessica E. Metcalf Justin Lessler NOTE (2020-15-2): Update at bottom based on numbers as of February 15 2020. Despite introductions of the novel coronavirus into 27 countries, as of February 11, 2020, there has been little documented onward transmission outside of China. At the start of the outbreak, the basic reproductive number, $R_0$, was estimated to be
- COVID-19
- あとで読む
Fashion-MNIST: 簡単になり過ぎたMNISTに代わる初心者向け画像認識ベンチマーク - 渋谷駅前で働くデータサイエンティストのブログ
- 8 users
- tjo.hatenablog.com
- テクノロジー
- 2020/01/08
(MNIST database - Wikipedia) 僕は画像認識分野は門外漢なのですが、ここ最近初心者向けにCNNのトレーニングを行うことを企画していて、その目的に適した画像認識のオープンデータセットを探していたのでした。というと誰しも思いつくのがMNISTではないかと思うのですが、Kaggleのベンチマークにも出ているように、実はMNISTはチューニングなしのデフォルトのランダムフォレストで回しても97%以上のACCが出てしまいます。そしてちょっとチューニングしたCNNなら99.7%を叩き出せてしまう上に、そういったノウハウがネットのあちこちにHello World並みのイージーハウツーコンテンツとして溢れ返っていて、初心者向け教材という意味では全く参考になりません。そこで、ちょっとサーベイして探してみることにしました。 MNIST以外のMNIST的なデータセットを探す実は、以
一般線形モデルから一般化線形混合モデルにたどり着くまで - と。
- 7 users
- socinuit.hatenablog.com
- テクノロジー
- 2019/12/22
この記事こそが！ R Advent Calendar 22日目の記事です！このノリがわからない人は前の記事を読んでください。この前の記事が知る人ぞ知るRおじさんのAtsusyさんなのでこの記事では上がったハードルをくぐっていきます。皆さん読んできました？省略できちゃうんですよ……これでRとPythonでのギャップが埋まり、世界はデータドリブンに動きますね…… しかも明日はSendaiRの運営をされてる茶畑さん、あさってはがspoanaの運営をされてるtsuyuponさんの投稿です。誰？みなさんご存知きぬいとさんです。私は学生時代からRを使ってかれこれ8年になりますが、その人生の大半を線形回帰モデルに費やしてきました。例えば学部時代にはDobsonの一般化線形モデル入門を読んだり、ベイズモデリングに入門したり、 Stanの可能性に触れたりと、統計モデルの理論を学び、Rで実装
正則化項付き線形回帰は真の偏回帰係数を推定しているのか？ - bob3’s blog
- 6 users
- bob3.hatenablog.com
- 学び
- 2023/10/07
最近、正則化項付き線形回帰についてちょっと調べてます。それで以下の記事が気になりました。 qiita.com dropout009.hatenablog.com どちらも人工データを用いて、真の偏回帰係数を正則化項付き線形回帰で推定できるか？というシミュレーションをされています。これは非常に興味深いので自分でもやってみようと思います。先の記事はどちらもPythonを使われてましたが、私はR言語でやってみます。試すのは以下の5つの手法です。線形回帰 Ridge回帰 LASSO回帰適応的LASSO回帰 Elastic net回帰確認したいのは真の偏回帰係数に対する推定された偏回帰係数の分布です、準備まず下準備として、必要なパッケージの呼び出しと、必要な関数の定義をします。パッケージの呼び出し。 if (!require("pacman")) {install.package
- モデル
- あとで読む
The Annotated Diffusion Model
- 5 users
- huggingface.co
- テクノロジー
- 2022/08/09
In this blog post, we'll take a deeper look into Denoising Diffusion Probabilistic Models (also known as DDPMs, diffusion models, score-based generative models or simply autoencoders) as researchers have been able to achieve remarkable results with them for (un)conditional image/audio/video generation. Popular examples (at the time of writing) include GLIDE and DALL-E 2 by OpenAI, Latent Diffusion
xgboostで小さいカテゴリもちゃんと分類するテクニック「sample weights」 - Qiita
- 5 users
- qiita.com/makotu1208
- テクノロジー
- 2019/09/19
はじめに今お仕事でカテゴリ分類の予測モデルを構築しています。例えば、ビールのような多ブランド展開をしているような商品において「今Aブランドを好んで飲んでいる人が、半年後はどのブランドを飲んでいそうか？」ということを当てるようなことをやっています。で、この予測モデル、ただ単に精度が高ければ良いわけではなく「マイナーなブランドの分類精度もある程度担保してほしい」というビジネス上のオーダーがありました。不均衡データでそのまま分類モデルを作ると、どうしてもメジャーなブランドへの予測確率が高くなるように予測されやすくなるので、それは避けてほしい、ということでした。手法はあまり複雑なことや色々な手法を試している暇が無いので、コンペでお馴染みのxgboostでやるとして、その際に上記のオーダーを満たすために使っているテクニックとして「sample weights」を使用しています。実際のkagg
コレスポンデンス分析の同時布置図は本当に使えないのか？ - bob3’s blog
- 4 users
- bob3.hatenablog.com
- テクノロジー
- 2022/01/15
はじめに結論解説サンプルデータコレポンの実行指標化残差コレポンにおける指標化残差の表現注意！まとめさいごに参考リンクはじめに松本健太郎さんの「マーケティングリサーチで使われるコレスポンデンス分析について調べてみた」という記事が書かれたころからでしょうか、コレスポンデンス分析（以下、コレポン）の同時布置図に対する否定的な意見をよく目にするようになりました。松本さんの議論はどの年代で見ても20代の購入量は圧倒的なのです。そのような見方は、数量で見れば違和感を覚えます。という疑問をきっかけにコレスポンデンス分析は、それぞれ行得点・列得点を算出しているだけで、それらを重ね合わせたに過ぎません。つまり列要素と行要素との距離は、数理的に定義されず「近い」「似ている」のように解釈できないのです。というところからコレスポンデンス分析は行・列をごっちゃにして分析しない。
- マーケティング
ある座標からの指定半径に含まれるメッシュコードを知る - cucumber flesh
- 4 users
- uribo.hatenablog.com
- テクノロジー
- 2020/05/05
新型コロナウイルスのデータを扱う際に、メッシュコード（標準地域メッシュ）が利用されることがあります。特にNTTドコモ「モバイル空間統計」分析レポートのデータは、内閣官房の新型コロナウイルス感染症対策のページにも掲載されているように全国各地の人口変動を分析するのに欠かせないデータとなっています。人流データを使った分析は、先日発表された「新型コロナウイルス感染症対策の状況分析・提言」（2020年5月1日） (PDF)の中でも行われており、本文中に以下の記述があります。渋谷駅周辺と難波駅周辺から半径 1 ㎞圏内においては、10 歳台および 20 歳台の若者を中心として昼夜問わず接触頻度が 80％以上、減少したことがうかがえる。また、GitHubにアップロードされているこの結果の補足資料を見るとモバイル空間統計のメッシュデータを使った分析と可視化の事例が確認できます（3. 各エリアの
Rで連立方程式を解く練習（例：超小型の日本経済マクロ計量モデル） - StatsBeginner: 初学者の統計学習ノート
- 4 users
- blog.statsbeginner.net
- 政治と経済
- 2019/08/08
先日、『gretlで計量経済分析』という本に載っている二段階最小二乗法の演習をRでやってみるエントリ（リンク）を書いたのですが、同じ本の次の章は「マクロ計量モデル入門」となっていて、1980年から2009年までの日本経済のデータを用い、5本の構造方程式と2本の定義式、7つの内生変数と9つの外生変数からなる超小型のマクロ計量モデルをつくるというものでした。 Rで連立方程式を解く方法の確認がてら、Rで実行してみます。最近、研究室の学生にRの使い方をイチから教えてるのですが、これをさらに単純化して練習問題に使えるかも……？データは本のサポートページからダウンロードできるものですが、「model.gdt」というファイルをgretlで読み込んでcsvで書き出したものを、Rに読み込ませて使いました。準備データは↓のようなイメージです（画像は一部です）。 library(lmtest) libr
とある実験の記録 - 渋谷駅前で働くデータサイエンティストのブログ
- 4 users
- tjo.hatenablog.com
- テクノロジー
- 2020/05/11
先日書いたこの記事ですが、「トイデータとは言え乱数シードを一つに決めて発生させたランダムウォークに対して実験をしているので、乱数シードを複数通りに変えてみたら結果は変わってくる（再現しない）のではないか？」という指摘を何人かの友人知人から貰いました。正直言って多項式フィッティングには何の思い入れもないのですが、再現性があるかどうかについては単純に気になるところです。ちなみに、以前沖本本で勉強した際にあった「ランダムウォークには平均回帰性がなく時間と共に不確実性が増すため事実上予測不可能（特に長期予測）」という議論の通りで、本来ならランダムウォークに対して「予測」を行うのはそもそも適切ではありません。ただし、短期予測なら例えば状態空間モデルやBSTS的な方法で多少は精度を改善できるのでは？と考えていたのは事実で、同じことが無根拠でナンセンスな多項式フィッティングでも出来たら面白いかもと思っ
コレスキー分解を利用した相関係数のベイズ推定 - LIVESENSE Data Analytics Blog
- 4 users
- analytics.livesense.co.jp
- テクノロジー
- 2022/12/21
こんにちは、リブセンスでデータサイエンティストをしている北原です。今回は、多変量正規分布の分散共分散行列を扱うときに有用であることが知られているコレスキー分解を取り上げます。多変量正規分布を使ったモデリングをしたいことはよくありますが、複雑な分布であるため計算時間が長くなりやすかったり不安定になりやすかったりします。コレスキー分解を利用することで、この問題が緩和されます。今回は、コレスキー分解を利用した具体的な例として相関係数の推定を扱います。コードはRとStanです。相関係数相関係数のベイズ推定コレスキー分解コレスキー分解を利用した相関係数のベイズ推定まとめ相関係数まず、基本の確認のため、簡単に相関係数について説明します。相関係数は二変量の線形な関係性を定量的に示す指標です。実際には相関係数と呼ばれるものはいろいろありますが、ここで扱うのは最も基本的なピアソンの積率相関
R言語でトピックモデルとクラスタリング - からっぽのしょこ
- 3 users
- www.anarchive-beta.com
- 暮らし
- 2019/09/07
はじめに複数のテキストを対象に、トピックモデル(LDA:Latent Dirichlet Allocation)によるテキスト分析を行います。その分析結果を基にクラスタリングを行い、デンドログラム(樹形図)による可視化を行います。この記事の内容は『テキストアナリティクス』著：金明哲を参考にしています。参考書の通りだと可視化の段階でトピックとタームにズレが生じるため、目・手作業での修正が必要でした。そこで、LDA()によるトピックのナンバリングとhclust(dist())によるナンバリングが自動で調整されるようにしました。なお、理論面の解説はありません(勉強中)。 www.anarchive-beta.com www.anarchive-beta.com 理論面の記事も書きました。(追記) 図1：調整前図1は手作業での修正を行わなかった場合の出力結果です。図1上部の樹形図の各テキス
JavaScriptでリアルタイムに顔認識して顔にモザイク風マスクをかぶせる／pico.js（３） - SE_BOKUのまとめノート的ブログ
- 3 users
- arakan-pgm-ai.hatenablog.com
- テクノロジー
- 2021/12/06
目次 pico.jsでリアルタイム顔認識 pico.js：HTMLファイル側のポイント pico.js：JavaScript側の概要 pico.js：事前準備＿顔認識カスケードダウンロード pico.js：事前準備＿Canvasとマスク画像のロード pico.js：認識処理＿コールバック関数の定義コールバック関数 processfncのソース全体 pico.js：認識処理＿コールバック関数：パラメータ設定 pico.js：認識処理＿コールバック関数：顔認識の実行 pico.js：認識処理＿コールバック関数：認識した顔にマスクする実行したイメージ JavaScriptソース全体関連：第一回・第二回のリンク pico.jsでリアルタイム顔認識高速に顔認識ができるJavaScriptライブラリ「pico.js」を使って、WEBカメラに映った自分の顔にリアルタイムでモザイク風のマスクをかぶ
- あとで読む
Rプログラミング入門の入門
- 3 users
- www.jaysong.net
- 世の中
- 2021/11/23
ここでは統計ソフトウェアではなく、プログラミング言語としてのRについて解説します。プログラミングとは難しそうなイメージがありますが、実は難しいです (?!?!)。ただし、プログラミングにおける重要概念は「代入」、「条件分岐」、「反復」この3つだけです。実はこの3つだけでほとんどのプログラムは作れます。しかし、この単純さがプログラミングの難しさでもあります。たとえば、ある数字列を小さいものから大きい順へ並び替えることを考えてみましょう。c(6, 3, 7, 2, 5, 1, 8, 4)の場合、人間ならあまり苦労することなく、c(1, 2, 3, 4, 5, 6, 7, 8)に並び替えるでしょう。しかし、「代入」、「条件分岐」、「反復」のみでこれを具現化できるでしょうか1。もちろんですが、できます。たしかに、Rにはこのためのsort()関数やorder()関数などが用意されていますし、これを
- R
【R言語】Tweetデータをワードクラウドで可視化してみた - Qiita
- 3 users
- qiita.com/taro_9674
- テクノロジー
- 2020/04/30
概要 R言語でtwitterからデータを取得してテキストマイニングにより可視化を行ってみましたので、手法を共有します。タイトルにもあるワードクラウドとはテキストマイニング手法の一つです。読み込まれた文章を解析して、使用頻度の高い単語を大きく表示することで、テーマや内容を視覚的・直感的に表すことができる表現手法を指します。今回、やってみることをイメージでお伝えすると下記のような感じです。いや本来はTwitterからデータを取得して軽く分析っぽいことして終わりのはずだったんですけどね。どうしてこうなった。前準備文章を分析する前には事前に文章を形態素（単語）に分解する必要があります。そのためにご使用のPCに「RMecab」と呼ばれるパッケージをインストールする必要があるのですが、色々と準備が面倒でして、設定の方法につきましては過去に偉人が詳しく解説してくださっているので、そちらをご
データフレーム上の緯度と経度を空間オブジェクトに変換する-🦉sfと🐍geopandasの例- - cucumber flesh
- 3 users
- uribo.hatenablog.com
- テクノロジー
- 2020/03/11
地理空間データを取り扱う際は、はじめにgeojsonやshapeファイルで受け取ることが一般的かと思います。あるいはポイントデータの場合には、緯度と経度の値が各列に記録されるcsvなどの表形式のテキストファイルを起点とすることもあります。前者のような地理空間データであれば、 R等のアプリケーションで読み込めば自動的に地理空間データとみなしてくれますが、後者の場合はそうではありません。座標の値はあくまでも数値です。なのでこうしたデータを地理空間データとして扱えるようにするには変換作業が必要となります。今回の記事では、RおよびPythonでのデータフレームに記録された緯度経度の列を変換し、空間オブジェクトとして扱えるようにする方法を紹介します。空間オブジェクトの形式としてRではsf、Pythonではgeopandasを対象にします。地理空間データに変換しておくと、データの空間的な配
- python
プロダクトの戦略立案に役立つ仮説検証ケーススタディ - BASEプロダクトチームブログ
- 3 users
- devblog.thebase.in
- テクノロジー
- 2019/12/09
この記事はBASE Advent Calendar 2019の5日目の記事です。 devblog.thebase.in こんにちは。BASE株式会社でOwners Growthチームのマネージャーをしている遠藤です。 Owners Growthチームのミッションは、「BASE」に登録しているショップの成長を支援したり、運営のサポートを行うことで「BASE」でのショップの開設・運営の体験を向上させ、ショップさんに継続的にご利用いただくことです。今回はアドベントカレンダーということで、このミッションを遂行するために普段どんなことを行なっているのか、特にOwners Growthチームで行なっている戦略や戦術を決めるための仮説検証プロセスを簡単にご紹介したいと思います。そもそもOwners Growthってどんなことを考えながら仕事をしているの？とか、どうやって仮説を検証しながら戦略を作るの
母集団労働者数推計の謎：毎月勤労統計調査とセンサスはなぜ乖離しているのか - remcat: 研究資料集
- 3 users
- remcat.hatenadiary.jp
- 政治と経済
- 2021/09/22
前回記事にひきつづき、毎月勤労統計調査が推計する母集団労働者数がセンサスの労働者数から乖離している件について。センサスとの乖離の方向と度合いは、事業所規模と時期によってちがっていることがわかる。5-29人規模事業所では、2004年以降ずっと、センサス結果を上回る増加がつづき、このために大きなギャップが継続して生じている。一方で、30-99人規模事業所では、推計される労働者数が減少したために、増加気味であったセンサス結果との間に乖離があるが、この傾向は2012-2015年の間に集中している。100-499人規模事業所や1000人以上規模の事業所では、毎月勤労統計調査の月々の労働者数推計はセンサスの数値とほとんどずれておらず、ずっと高い精度で追尾できている。このようなちがいが出てくる原因を突き止められれば、毎月勤労統計調査とセンサスのどこにまずい点があり、どのように修正するべきであるかにつ
- あとで読む
株式会社ホクソエムのブログ
- 3 users
- blog.hoxo-m.com
- テクノロジー
- 2019/11/19
監修させていただいている評価指標入門なんですが、株式会社ホクソエムの代表取締役CEOである私、牧山幸史（以下、コージー牧山）、はじめてこの企画を聞いた時は「その特徴は単に評価指標をまとめた辞書やないかい！そういう”売れそうだから書く”みたいな商業的なマインドが学術界の価値を貶め云々」と思ったのですが、上梓された高柳さん（タカヤナギ=サン）の壮大なるお話を聞いているうちに「これはひょっとして数理モデリングとしても奥深い世界が広がっているの？面白いかも！」と思い監修社として名乗りを上げた次第です。一方、本書の内容と皆様の期待値がややズレているのではないか？と不安には思っておりまして、これは監修社として一肌脱いでおかなければいかんなと、自然界に存在する第５の力「期待値調整力」を見せなければならないなと思い筆を取った次第です。以下、私、コージー牧山の視点で「書いてあること・書いてないこと・書き
RでCQT（Constant-Q変換）をやってみる - 株式会社ホクソエムのブログ
- 3 users
- blog.hoxo-m.com
- エンタメ
- 2022/03/31
ホクソエムサポーターの松本です。音楽を作ったり聴いたりするのが趣味なので、音楽分析に興味があります。音データの分析にはPythonだとlibrosaというとても便利なパッケージがあるのですが、Rにはそういった汎用的なパッケージがなくてちょっと不便です。最近ふとRでCQT（Constant-Q変換）をしてみたいと思い、既存のパッケージを使ってできないか探してみたところ特に見つからなかったので、どのように実装すればいいのか調べてみました。スペクトログラムについて音声や音楽データの分析を行う際には生の波形をそのまま扱うのではなく、スペクトログラム（時間周波数表現）に変換したものを特徴量として利用することがあります。下の画像は「あいうえお」という音声を録音したデータを表したものです。左図の波形データは横軸は時間、縦軸は振幅を表します。右図のスペクトログラムは横軸は時間、縦軸は周波数、色はそ
- R
- 音楽
コレポンは何をやっているのか①数理の概要 - 統計学といくつかのよしなしごと
- 3 users
- yanbow221.hatenablog.com
- テクノロジー
- 2019/12/18
告解ここ数か月とても忙しく仕事をしていて*1、前の投稿から半年以上経ってしまった。とはいえ何よりも自分の知識や経験の定着を一番の目的にブログを書いているので、これだけ空いたのは怠慢でしかないんだよなぁ。。もう少し頑張ろうと思います。マーケティングリサーチでよくやるいわゆるコレポン気を取り直して。マーケティングリサーチではコレスポンデンス分析*2、いわゆるコレポンがよく用いられる。マーケティングはもちろん、戦略や戦術を考えるといった際に僕たちは二軸に切ったマップを頻繁に利用する。会社であれ製品・サービスであれ顧客ニーズであれ、切れ味の良さそうな軸を定義してその上にそれらを置いてやれば、何となく洞察が得られた気になる。実際関心のある状況を簡略化、可視化することは思考の大きな助けになるし、その点マッピングはとても有用である。しかし経験的直感だけでマッピングするのは心許ないから、データに基づ
- 分析
- 統計
新型肺炎COVID-19の無症状感染者の割合をrstanで推定しようとしたが断念した - 驚異のアニヲタ社会復帰の予備
- 3 users
- mikuhatsune.hatenadiary.com
- 世の中
- 2020/04/13
読んだ。 Estimating the asymptomatic proportion of coronavirus disease 2019 (COVID-19) cases on board the Diamond Princess cruise ship, Yokohama, Japan, 2020. - PubMed - NCBI COI：なしダイヤモンド・プリンセス号のPCR検査と陽性数および症状のある・なしのデータから、無症状でPCR陽性となる患者の割合を推定しようという試み。 The asymptomatic proportion was defined as the proportion of asymptomatically infected individuals among the total number of infected individuals. とあるよ
状態を持つループ処理を accumulate() でシンプルに書く - ほくそ笑む
- 3 users
- hoxo-m.hatenablog.com
- 学び
- 2023/11/03
R言語のコミュニティ https://r-wakalang.slack.com で回答したのでメモ。質問はこんな感じ（意訳しています）。次のようなデータを以下のルールで処理したい。データを上から下に見ていき、 (1) before に TRUE が出たら、それ以降は after を TRUE にする。 (2) ただし、condition が FALSE になったら after を FALSE にして状態をリセットする。これを、for を使わないやり方で書きたい。（データにすでにある after は答えあわせ用） before condition after 1 FALSE FALSE FALSE 2 FALSE TRUE FALSE 3 TRUE TRUE TRUE 4 FALSE TRUE TRUE 5 FALSE TRUE TRUE 6 FALSE FALSE FALSE 7