並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 40件

新着順 人気順

nrow rの検索結果1 - 40 件 / 40件

  • おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary

    2021/9/10 追記: 改めて更新された話を統合して整理して書き直しました. 以降はこちらを参考にしてください: ill-identified.hatenablog.com 2021/1/15 追記: RStudio 1.4 がリリースされたのでなるべくアップデートしましょう 2020/12/06 追記: Japan.R で今回の話の要約+新情報を『Mac でも Windows でも, PNG でも PDF でもRのグラフに好きなフォントで日本語を表示したい (2020年最終版)/Display-CJK-Font-in-Any-Gpraphic-Device-and-Platform-2020 - Speaker Deck』として発表した. ハイライトは「近々出るRStudio 1.4 があれば fontregisterer はほぼいらなくなる」 2020/10/31 追記: geom

      おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary
    • 一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ

      この記事は、以下の@icoxfog417さんによる問題提起に合わせたちょっとした実験をまとめたものです。 時系列予測の問題において、機械学習のモデルより既存の統計モデル(ARMAモデルなど)の方が予測精度において優良な結果が出るという研究。データへの適合=予測精度の向上ではないことも実験で示している。機械学習の研究では統計モデルとの比較も入れるべきという提言をしている。 https://t.co/jboGhYSX6E— piqcy (@icoxfog417) September 16, 2019 この点について僕はこんなコメントをしたのですが。 だいぶ以前から「一般的な時系列データ予測の問題は単位根過程や季節調整など非定常過程との戦いなので、本質的に定常過程を想定する機械学習手法での予測は計量時系列分析など非定常過程も考慮した古典的なモデルによる予測には及ばない」と言い続けてきたけど、やっ

        一般的な時系列のモデリング&予測に、機械学習系の手法よりも古典的な計量時系列分析の方が向いている理由を考えてみた(追記あり) - 渋谷駅前で働くデータサイエンティストのブログ
      • 傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常

        0. はじめに 1. 対象データ 2. 先に各手法の結果を確認 3.準備 4. 基礎集計~CMを見た人と見ていない人での目的変数の差~ 5. 因果推論の流れのおさらい 6. 傾向スコアモデリング 6.1 モデリング 6.2 テスト / コントロールの傾向スコアの可視化 6.3Rでの傾向スコアモデリングの実装 7. 傾向スコアマッチング 7.1 結構面倒なpython 7.2 R (Matchingライブラリ) 7.3マッチングの評価 8.IPW 9. ダブルロバスト 9.1 回帰モデル 9.2ダブルロバスト 10.Proximityマッチング 11.改めて、各種手法による推定因果効果のまとめ 12.まとめ 0. はじめに 理論編に引き続き、実装を行なっていきます。 pira-nino.hatenablog.com 実装はpythonとRの両方で行いました。 作業用のコードは以下のgithu

          傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常
        • 不動産価格データを使って相場を推測する|komeya

          以前の記事で、せっかく日本全国の不動産取引価格データが取れたので、もう少し不動産価格モデルについて詳しくやってみる。また、ちょっと進んだ手法についても触れてみたい(これは別記事にしました。詳細はこちら。不動産価格データを使った相場分析ー世田谷区一棟マンション)。 価格データの加工と可視化以前紹介した通り、国土交通省の不動産価格取引情報検索からデータがダウンロードできる。これは全国をカバーしていて、2005年以降の20年近くのデータがある。サイトから一気に全国全期間のデータがダウンロードできる。 全国のデータは取れるが一気に全国データを扱うのは大変なので、簡単なモデルから徐々に複雑にしていく。こないだ世田谷のデータを使ったので、まずは世田谷区のデータを使う。こないだは過去1年に取引されたデータだけだったので、データが存在する10年以上前の取引データも全部使ってみる。前回説明した通り、築年が元

            不動産価格データを使って相場を推測する|komeya
          • データ分割

            class: center, middle, inverse, title-slide # データ分割 ## Part of 📖Data Preprocessing Cookbook 👨‍🍳 ### Uryu Shinya ### <span style="font-size: 70%;"><i class="fab fa-github "></i> uribo <i class="fab fa-twitter "></i> u_ribo</span> ### 2019-06-30 (updated: 2019-06-30) --- # 概要 - 予測モデルの性能を評価、過学習を防ぐためにデータ分割の処理が必要となる - データセットをモデル構築用と評価用のデータに分ける - データセットの大きさ、特性(クラスやグループが存在するか、時系列かどうか)に応じてリサンプリングの方法を変え

            • 平均への回帰:愚かな誤謬を惹き起こす美しきrandomness - 渋谷駅前で働くデータサイエンティストのブログ

              元々はQuoraでこういうアンサーを書いたのがきっかけです。 本文中では「厳密性を一切考慮しない平易な説明で良ければ(※僕自身も数理統計学的な意味での確率論に関してはど素人なのでそもそも厳密な説明はできませんが)」と断り書きを入れましたが、厳密でないどころか間違っていたらそれはそれで悲しいので、詳しい方*1からツッコミをいただくべくブログ記事にもう少し細かく書いてみようかと思ったのでした。 ということで、Quoraアンサーの補足説明も兼ねて自分なりの理解を以下に書いておきます。誤っている点や不足している点などあれば、何かしらの形でツッコミを入れて下さると有難いですm(_ _)m 人口に膾炙した説明 実験1:本来の平均回帰 数学的説明 実験2:純粋に運が試されるギャンブル 結果から見えるもの 余談 追記 人口に膾炙した説明 一般には平均への回帰 (Regression toward the

                平均への回帰:愚かな誤謬を惹き起こす美しきrandomness - 渋谷駅前で働くデータサイエンティストのブログ
              • Rで機械学習モデルの解釈手法たちを試してみる - 渋谷駅前で働くデータサイエンティストのブログ

                この記事の前段として、まず事前に昨年書いた機械学習モデルの解釈性についての記事をご覧ください。 僕が知る限り、機械学習実践のデファクトスタンダードたるPython側ではLIMEやSHAPといった解釈手法については既に良く知られたOSS実装が出回っており、相応に実際に使ってみたというレポートも見かける状況です。一方、R側ではそこまでメインに機械学習を回す人が多くないせいか、あまりこれまで実践例を見かけないなぁと思っていました。 そんなことを考えながら先日ふと思い立ってググってみたら、意外にも幾つかの解釈手法については既にOSS実装があり、中にはCRANに上がっているものもあるのだと今更ながら知ったのでした。 ということで、二番煎じなのか何番煎じなのか分かりませんが、これらのRによる機械学習モデルの解釈法実装を今更ながら僕も試してみることにします。検証に使うデータセットは統一してUCI ML

                  Rで機械学習モデルの解釈手法たちを試してみる - 渋谷駅前で働くデータサイエンティストのブログ
                • 多重共線性のシミュレーション - 井出草平の研究ノート

                  下記エントリーの続き。 ides.hatenablog.com こちらの教科書から多重共線性について Statistical Rethinking: A Bayesian Course with Examples in R and STAN (Chapman & Hall/CRC Texts in Statistical Science) 作者:McElreath, RichardChapman and Hall/CRCAmazon Richard McElreath - Statistical Rethinking_ A Bayesian Course with Examples in R and STAN 6.1. 多重共線性 一般に、回帰モデルに追加する潜在的な予測変数が多くあることは事実である。たとえば、霊長類のミルク・データの場合、我々が結果として選ぶどの列も予測するために利用可

                    多重共線性のシミュレーション - 井出草平の研究ノート
                  • Text2Landscape: Visualize a Text in Multiple Spaces with R — Force-directed networks, Biofabric, Word Embeddings, Principal Component Analysis and Self-Organizing Maps

                    First Visualizations: Frequencies Let us first visualize word frequencies. We can get these frequencies with the quanteda package, which implies transforming the column of lemmas (text.lemmas$lemma) into a quanteda tokens object, then to a document-feature matrix. Doing so, we only retain significant parts of phrases (nous, proper nouns, verbs and adjectives). This only partially spares us the tas

                      Text2Landscape: Visualize a Text in Multiple Spaces with R — Force-directed networks, Biofabric, Word Embeddings, Principal Component Analysis and Self-Organizing Maps
                    • 毎月勤労統計調査、2018年の集計方法変更で何か間違えた模様 - remcat: 研究資料集

                      前々回記事 で、毎月勤労統計調査の母集団労働者数推計がセンサスの数値から乖離している問題をとりあげた。 5-29人規模と500-999人規模事業所では、推計母集団労働者数が増加することにより、センサスからの乖離が生じている 30-99人規模事業所では、推計母集団労働者数が減少することにより、センサスからの乖離が生じている さらに、 前回記事 では、母集団労働者推計をふたつの段階にわけて、どこでセンサスとの乖離が生じているかを検討した。調査対象事業所の労働者数の月間の変動データによる推計が第1段階であり (「毎勤推計」と呼ぶ)、事業所新設・廃止等による変動 (雇用保険事業所データによる) と事業所規模の変化などで別の層に事業所が移動したことによる変動 (毎月勤労統計調査による) の推計をおこなうのが第2段階である (「雇用保険等補正」と呼ぶ)。 5-29人規模事業所の推計母集団労働者数の増加

                        毎月勤労統計調査、2018年の集計方法変更で何か間違えた模様 - remcat: 研究資料集
                      • 時系列モデリングのおさらい:季節調整とトレンド抽出 - 渋谷駅前で働くデータサイエンティストのブログ

                        COVID-19が世界中に感染拡大し、日本含め多くの国で外出や集会の制限(自粛)措置が取られて久しい昨今ですが、これに伴って多くのところでCOVID-19に関連したオープンデータが公開されるようになっており、データ分析を生業とする人間が実データを扱う良い機会ともなっているように見受けられます。 ということで、今回の記事では東京都が公開している日次のCOVID-19感染者(PCR検査陽性者)報告数のデータを題材として、時系列モデリングのおさらいをしてみようと思います。なお、この記事における時系列モデリング結果は今後のCOVID-19の感染拡大状況について何かしらの解釈や予測をするためのものでは全くありません*1ので、悪しからずご了承ください。 また、この記事で公開しているコードは以前書いたクソコードをそのまま転用しているので、端的に言ってただのクソコードです。皆さん自身がお試しになる際は是非

                          時系列モデリングのおさらい:季節調整とトレンド抽出 - 渋谷駅前で働くデータサイエンティストのブログ
                        • RにTorchとLightGBMがやってきた - 渋谷駅前で働くデータサイエンティストのブログ

                          これまで、RとPythonは両方使える人が少なくないながらも開発陣やコミュニティの思想が違うせいもあってか、「Rは統計学向け」「Pythonは機械学習向け」的な住み分けが年々進み、特に機械学習関連の重要なフレームワーク・ライブラリ類はPython向けのみがリリースされることが多く、R向けにはリリースされないということが常態化している印象がありました。 そんな中、この9月にPythonの機械学習OSSを代表する2つのライブラリが相次いでR版パッケージを発表したので、個人的にはなかなか驚きました。中には「この2つがRに来たからにはもうPythonは触らない」と豪語する過激派の方もいらっしゃるようですが(笑)、それはさておき個人的な備忘録としてこの2つのR版パッケージを試してみた記録を記事として残しておこうと思います。 なお、以下のモデリングはほぼ何もチューニングを行っておりません。あくまでも「

                            RにTorchとLightGBMがやってきた - 渋谷駅前で働くデータサイエンティストのブログ
                          • 毎月勤労統計調査、今後のベンチマーク更新で大きなギャップ発生のおそれ - remcat: 研究資料集

                            8月26日、 毎月勤労統計調査の改善に関するワーキンググループ の 第2回会議 があった。 オンラインで傍聴できる とのことだったので、申し込んで傍聴してみた。 この第2回会議の主たる議題は、毎月勤労統計調査の「ベンチマーク更新」について。2016年の経済センサス-活動調査の情報または事業所母集団データベース2019年次フレームの情報を利用して2022年1月にベンチマーク更新をおこなう、という方針に基づいて作成した試算の検討がおこなわれた。この方針は 第1回会議 (2021-07-09) において提案されていたが、これらのふたつの情報源のどちらも精確さを欠くため、試算を作成しての対応を検討することになったものである (第1回会議の 議事録 を参照)。 第2回会議に提出されたこの試算結果をみると、500-999人規模事業所の労働者数が2割近く減ったり、「きまって支給する給与」平均が1000円

                              毎月勤労統計調査、今後のベンチマーク更新で大きなギャップ発生のおそれ - remcat: 研究資料集
                            • RでK-meansの最適なクラスタ数をAIC / BICに基づいて求める - 渋谷駅前で働くデータサイエンティストのブログ

                              これはただの備忘録です。既知の話題ばかりが並べられているので、特に新鮮味のない内容である点予めご容赦ください。 クラスタリング手法として広く知られるK-meansは、その簡便さから非常に広汎に使われていますが、一方で「クラスタ数を恣意的に決め打ちせざるを得ない」という難点があり、「最適なクラスタ数をどうやって決めるか」という課題が長年に渡ってあります。この課題の解決策についてちょっと調べてみたので、以下にまとめてみました。 K-meansにおける「最適なクラスタ数の決め方」として、こちらの記事では伝統的な手法ということで エルボー法 シルエット分析 X-means(K-meansに情報量規準を適用して再帰的に最適クラスタ数を決める) の3種類が紹介されています。これらは僕も以前から聞いたことがあるもので、実際K-meansの実装の中には最初からエルボー法などを含んでいるものもあったりします

                                RでK-meansの最適なクラスタ数をAIC / BICに基づいて求める - 渋谷駅前で働くデータサイエンティストのブログ
                              • 蔓延防止等重点措置(まん防)の効果検証を「あえて」DID+TSclustによる時系列クラスタリング+CausalImpactでやってみた - 渋谷駅前で働くデータサイエンティストのブログ

                                少し前の話ですが、現在COVID-19の感染が拡大している地域で実施される「蔓延防止等重点措置(まん防)」に効果があったかどうかについて、計量経済学的な観点に基づいた政策評価レポートが公開されて話題になっていました。 追記 本日午前中に元のレポート自体が更新されていたようで*1、今回の記事はその更新を反映していない点悪しからずご了承ください。 で、結論はともかくその手法とアプローチについては色々と議論が起きているようです。例えば、上記のブログ記事では実際に東京都のデータで追試をしてみて、もう少し異なるやり方があるのではないかと指摘しています。 この辺は僕にとっても同様で、普段から同様のデータ分析を広告・マーケティング分野で手掛けている身としては「自分ならこうしたい」と思われるポイントが幾つかあり、折角データソースや背景となる行政措置の詳細などがレポート中で明記されているのだから、いっそ自分

                                  蔓延防止等重点措置(まん防)の効果検証を「あえて」DID+TSclustによる時系列クラスタリング+CausalImpactでやってみた - 渋谷駅前で働くデータサイエンティストのブログ
                                • [Latent Diffusion] AIでテキストから画像を生成する

                                  初めに、論文発表元のGithubからソースコードを取得します %cd /content !git clone https://github.com/CompVis/latent-diffusion.git 次にライブラリをインストールします。 %cd /content !git clone https://github.com/CompVis/taming-transformers !pip install -e ./taming-transformers !pip install omegaconf>=2.0.0 pytorch-lightning>=1.0.8 torch-fidelity einops import sys sys.path.append(".") sys.path.append('./taming-transformers') from taming.models

                                    [Latent Diffusion] AIでテキストから画像を生成する
                                  • Rでのナウなデータ分割のやり方: rsampleパッケージによる交差検証 - 株式会社ホクソエムのブログ

                                    前処理大全の「分割」の章では、予測モデルの評価のためのデータセット分割方法が解説されています。基礎から時系列データへ適用する際の注意まで説明されているだけでなく、awesomeなコードの例がRおよびPythonで書かれており、実践的な側面もあります(お手元にぜひ!)。 しかし今回は、Awesome例とは異なる、より新しいやり方で・簡単にRでのデータ分割を行う方法を紹介したいと思います。前処理大全でも取り上げられているcaretパッケージですが、その開発者のMax Kuhnが開発するパッケージの中に rsample を使う方法です。ここでは前処理大全で書かれている一般的なデータと時系列データの交差検証による分割をrsampleの使い方を紹介しながらやっていきます。加えて、rsampleの層化サンプリングについても最後に触れます。 1. レコードデータにおけるモデル検証用のデータ分割 zeal

                                      Rでのナウなデータ分割のやり方: rsampleパッケージによる交差検証 - 株式会社ホクソエムのブログ
                                    • Dispersion vs. Control

                                      Dispersion vs. Control Kyra Grantz C. Jessica E. Metcalf Justin Lessler NOTE (2020-15-2): Update at bottom based on numbers as of February 15 2020. Despite introductions of the novel coronavirus into 27 countries, as of February 11, 2020, there has been little documented onward transmission outside of China. At the start of the outbreak, the basic reproductive number, \(R_0\), was estimated to be

                                      • Fashion-MNIST: 簡単になり過ぎたMNISTに代わる初心者向け画像認識ベンチマーク - 渋谷駅前で働くデータサイエンティストのブログ

                                        (MNIST database - Wikipedia) 僕は画像認識分野は門外漢なのですが、ここ最近初心者向けにCNNのトレーニングを行うことを企画していて、その目的に適した画像認識のオープンデータセットを探していたのでした。 というと誰しも思いつくのがMNISTではないかと思うのですが、Kaggleのベンチマークにも出ているように、実はMNISTはチューニングなしのデフォルトのランダムフォレストで回しても97%以上のACCが出てしまいます。そしてちょっとチューニングしたCNNなら99.7%を叩き出せてしまう上に、そういったノウハウがネットのあちこちにHello World並みのイージーハウツーコンテンツとして溢れ返っていて、初心者向け教材という意味では全く参考になりません。そこで、ちょっとサーベイして探してみることにしました。 MNIST以外のMNIST的なデータセットを探す 実は、以

                                          Fashion-MNIST: 簡単になり過ぎたMNISTに代わる初心者向け画像認識ベンチマーク - 渋谷駅前で働くデータサイエンティストのブログ
                                        • 一般線形モデルから一般化線形混合モデルにたどり着くまで - と。

                                          この記事こそが! R Advent Calendar 22日目の記事です! このノリがわからない人は前の記事を読んでください。 この前の記事が知る人ぞ知るRおじさんのAtsusyさんなのでこの記事では上がったハードルをくぐっていきます。 皆さん読んできました?省略できちゃうんですよ……これでRとPythonでのギャップが埋まり、世界はデータドリブンに動きますね…… しかも明日はSendaiRの運営をされてる茶畑さん、 あさってはがspoanaの運営をされてるtsuyuponさんの投稿です。 誰? みなさんご存知きぬいとさんです。 私は学生時代からRを使ってかれこれ8年になりますが、その人生の大半を線形回帰モデルに費やしてきました。 例えば学部時代にはDobsonの一般化線形モデル入門を読んだり、 ベイズモデリングに入門したり、 Stanの可能性に触れたりと、統計モデルの理論を学び、Rで実装

                                            一般線形モデルから一般化線形混合モデルにたどり着くまで - と。
                                          • 正則化項付き線形回帰は真の偏回帰係数を推定しているのか? - bob3’s blog

                                            最近、正則化項付き線形回帰についてちょっと調べてます。 それで以下の記事が気になりました。 qiita.com dropout009.hatenablog.com どちらも人工データを用いて、真の偏回帰係数を正則化項付き線形回帰で推定できるか?というシミュレーションをされています。 これは非常に興味深いので自分でもやってみようと思います。 先の記事はどちらもPythonを使われてましたが、私はR言語でやってみます。 試すのは以下の5つの手法です。 線形回帰 Ridge回帰 LASSO回帰 適応的LASSO回帰 Elastic net回帰 確認したいのは真の偏回帰係数に対する推定された偏回帰係数の分布です、 準備 まず下準備として、必要なパッケージの呼び出しと、必要な関数の定義をします。 パッケージの呼び出し。 if (!require("pacman")) {install.package

                                              正則化項付き線形回帰は真の偏回帰係数を推定しているのか? - bob3’s blog
                                            • The Annotated Diffusion Model

                                              In this blog post, we'll take a deeper look into Denoising Diffusion Probabilistic Models (also known as DDPMs, diffusion models, score-based generative models or simply autoencoders) as researchers have been able to achieve remarkable results with them for (un)conditional image/audio/video generation. Popular examples (at the time of writing) include GLIDE and DALL-E 2 by OpenAI, Latent Diffusion

                                                The Annotated Diffusion Model
                                              • xgboostで小さいカテゴリもちゃんと分類するテクニック「sample weights」 - Qiita

                                                はじめに 今お仕事でカテゴリ分類の予測モデルを構築しています。 例えば、ビールのような多ブランド展開をしているような商品において「今Aブランドを好んで飲んでいる人が、半年後はどのブランドを飲んでいそうか?」ということを当てるようなことをやっています。 で、この予測モデル、ただ単に精度が高ければ良いわけではなく「マイナーなブランドの分類精度もある程度担保してほしい」というビジネス上のオーダーがありました。不均衡データでそのまま分類モデルを作ると、どうしてもメジャーなブランドへの予測確率が高くなるように予測されやすくなるので、それは避けてほしい、ということでした。 手法はあまり複雑なことや色々な手法を試している暇が無いので、コンペでお馴染みのxgboostでやるとして、その際に上記のオーダーを満たすために使っているテクニックとして「sample weights」を使用しています。実際のkagg

                                                  xgboostで小さいカテゴリもちゃんと分類するテクニック「sample weights」 - Qiita
                                                • コレスポンデンス分析の同時布置図は本当に使えないのか? - bob3’s blog

                                                  はじめに 結論 解説 サンプルデータ コレポンの実行 指標化残差 コレポンにおける指標化残差の表現 注意! まとめ さいごに 参考リンク はじめに 松本健太郎さんの「マーケティングリサーチで使われるコレスポンデンス分析について調べてみた」という記事が書かれたころからでしょうか、コレスポンデンス分析(以下、コレポン)の同時布置図に対する否定的な意見をよく目にするようになりました。 松本さんの議論は どの年代で見ても20代の購入量は圧倒的なのです。そのような見方は、数量で見れば違和感を覚えます。 という疑問をきっかけに コレスポンデンス分析は、それぞれ行得点・列得点を算出しているだけで、それらを重ね合わせたに過ぎません。 つまり列要素と行要素との距離は、数理的に定義されず「近い」「似ている」のように解釈できないのです。 というところから コレスポンデンス分析は行・列をごっちゃにして分析しない。

                                                    コレスポンデンス分析の同時布置図は本当に使えないのか? - bob3’s blog
                                                  • ある座標からの指定半径に含まれるメッシュコードを知る - cucumber flesh

                                                    新型コロナウイルスのデータを扱う際に、メッシュコード(標準地域メッシュ)が利用されることがあります。 特にNTTドコモ「モバイル空間統計」分析レポートのデータは、内閣官房の新型コロナウイルス感染症対策のページにも掲載されているように 全国各地の人口変動を分析するのに欠かせないデータとなっています。 人流データを使った分析は、先日発表された「新型コロナウイルス感染症対策の状況分析・提言」(2020年5月1日) (PDF)の中でも 行われており、本文中に以下の記述があります。 渋谷駅周辺と難波駅周辺から半径 1 ㎞圏内においては、10 歳台および 20 歳台の若者を中心として昼夜問わず接触頻度が 80%以上、減少したことがうかがえる。 また、GitHubにアップロードされている この結果の補足資料を見るとモバイル空間統計のメッシュデータを使った分析と可視化の事例が確認できます(3. 各エリアの

                                                      ある座標からの指定半径に含まれるメッシュコードを知る - cucumber flesh
                                                    • Rで連立方程式を解く練習(例:超小型の日本経済マクロ計量モデル) - StatsBeginner: 初学者の統計学習ノート

                                                      先日、『gretlで計量経済分析』という本に載っている二段階最小二乗法の演習をRでやってみるエントリ(リンク)を書いたのですが、同じ本の次の章は「マクロ計量モデル入門」となっていて、1980年から2009年までの日本経済のデータを用い、5本の構造方程式と2本の定義式、7つの内生変数と9つの外生変数からなる超小型のマクロ計量モデルをつくるというものでした。 Rで連立方程式を解く方法の確認がてら、Rで実行してみます。 最近、研究室の学生にRの使い方をイチから教えてるのですが、これをさらに単純化して練習問題に使えるかも……? データは本のサポートページからダウンロードできるものですが、「model.gdt」というファイルをgretlで読み込んでcsvで書き出したものを、Rに読み込ませて使いました。 準備 データは↓のようなイメージです(画像は一部です)。 library(lmtest) libr

                                                        Rで連立方程式を解く練習(例:超小型の日本経済マクロ計量モデル) - StatsBeginner: 初学者の統計学習ノート
                                                      • とある実験の記録 - 渋谷駅前で働くデータサイエンティストのブログ

                                                        先日書いたこの記事ですが、「トイデータとは言え乱数シードを一つに決めて発生させたランダムウォークに対して実験をしているので、乱数シードを複数通りに変えてみたら結果は変わってくる(再現しない)のではないか?」という指摘を何人かの友人知人から貰いました。正直言って多項式フィッティングには何の思い入れもないのですが、再現性があるかどうかについては単純に気になるところです。 ちなみに、以前沖本本で勉強した際にあった「ランダムウォークには平均回帰性がなく時間と共に不確実性が増すため事実上予測不可能(特に長期予測)」という議論の通りで、本来ならランダムウォークに対して「予測」を行うのはそもそも適切ではありません。ただし、短期予測なら例えば状態空間モデルやBSTS的な方法で多少は精度を改善できるのでは?と考えていたのは事実で、同じことが無根拠でナンセンスな多項式フィッティングでも出来たら面白いかもと思っ

                                                          とある実験の記録 - 渋谷駅前で働くデータサイエンティストのブログ
                                                        • コレスキー分解を利用した相関係数のベイズ推定 - LIVESENSE Data Analytics Blog

                                                          こんにちは、リブセンスでデータサイエンティストをしている北原です。今回は、多変量正規分布の分散共分散行列を扱うときに有用であることが知られているコレスキー分解を取り上げます。 多変量正規分布を使ったモデリングをしたいことはよくありますが、複雑な分布であるため計算時間が長くなりやすかったり不安定になりやすかったりします。コレスキー分解を利用することで、この問題が緩和されます。今回は、コレスキー分解を利用した具体的な例として相関係数の推定を扱います。コードはRとStanです。 相関係数 相関係数のベイズ推定 コレスキー分解 コレスキー分解を利用した相関係数のベイズ推定 まとめ 相関係数 まず、基本の確認のため、簡単に相関係数について説明します。 相関係数は二変量の線形な関係性を定量的に示す指標です。実際には相関係数と呼ばれるものはいろいろありますが、ここで扱うのは最も基本的なピアソンの積率相関

                                                            コレスキー分解を利用した相関係数のベイズ推定 - LIVESENSE Data Analytics Blog
                                                          • R言語でトピックモデルとクラスタリング - からっぽのしょこ

                                                            はじめに 複数のテキストを対象に、トピックモデル(LDA:Latent Dirichlet Allocation)によるテキスト分析を行います。その分析結果を基にクラスタリングを行い、デンドログラム(樹形図)による可視化を行います。 この記事の内容は『テキストアナリティクス』著:金明哲を参考にしています。参考書の通りだと可視化の段階でトピックとタームにズレが生じるため、目・手作業での修正が必要でした。そこで、LDA()によるトピックのナンバリングとhclust(dist())によるナンバリングが自動で調整されるようにしました。なお、理論面の解説はありません(勉強中)。 www.anarchive-beta.com www.anarchive-beta.com 理論面の記事も書きました。(追記) 図1:調整前 図1は手作業での修正を行わなかった場合の出力結果です。 図1上部の樹形図の各テキス

                                                              R言語でトピックモデルとクラスタリング - からっぽのしょこ
                                                            • JavaScriptでリアルタイムに顔認識して顔にモザイク風マスクをかぶせる/pico.js(3) - SE_BOKUのまとめノート的ブログ

                                                              目次 pico.jsでリアルタイム顔認識 pico.js:HTMLファイル側のポイント pico.js:JavaScript側の概要 pico.js:事前準備_顔認識カスケードダウンロード pico.js:事前準備_Canvasとマスク画像のロード pico.js:認識処理_コールバック関数の定義 コールバック関数 processfncのソース全体 pico.js:認識処理_コールバック関数:パラメータ設定 pico.js:認識処理_コールバック関数:顔認識の実行 pico.js:認識処理_コールバック関数:認識した顔にマスクする 実行したイメージ JavaScriptソース全体 関連:第一回・第二回のリンク pico.jsでリアルタイム顔認識 高速に顔認識ができるJavaScriptライブラリ「pico.js」を使って、WEBカメラに映った自分の顔にリアルタイムでモザイク風のマスクをかぶ

                                                                JavaScriptでリアルタイムに顔認識して顔にモザイク風マスクをかぶせる/pico.js(3) - SE_BOKUのまとめノート的ブログ
                                                              • Rプログラミング入門の入門

                                                                ここでは統計ソフトウェアではなく、プログラミング言語としてのRについて解説します。プログラミングとは難しそうなイメージがありますが、実は難しいです (?!?!)。ただし、プログラミングにおける重要概念は「代入」、「条件分岐」、「反復」この3つだけです。実はこの3つだけでほとんどのプログラムは作れます。しかし、この単純さがプログラミングの難しさでもあります。 たとえば、ある数字列を小さいものから大きい順へ並び替えることを考えてみましょう。c(6, 3, 7, 2, 5, 1, 8, 4)の場合、人間ならあまり苦労することなく、c(1, 2, 3, 4, 5, 6, 7, 8)に並び替えるでしょう。しかし、「代入」、「条件分岐」、「反復」のみでこれを具現化できるでしょうか1。もちろんですが、できます。たしかに、Rにはこのためのsort()関数やorder()関数などが用意されていますし、これを

                                                                • 【R言語】Tweetデータをワードクラウドで可視化してみた - Qiita

                                                                  概要 R言語でtwitterからデータを取得してテキストマイニングにより可視化を行ってみましたので、手法を共有します。 タイトルにもあるワードクラウドとはテキストマイニング手法の一つです。 読み込まれた文章を解析して、使用頻度の高い単語を大きく表示することで、テーマや内容を視覚的・直感的に表すことができる表現手法を指します。 今回、やってみることをイメージでお伝えすると下記のような感じです。 いや本来はTwitterからデータを取得して軽く分析っぽいことして終わりのはずだったんですけどね。どうしてこうなった。 前準備 文章を分析する前には事前に文章を形態素(単語)に分解する必要があります。 そのためにご使用のPCに「RMecab」と呼ばれるパッケージをインストールする必要があるのですが、色々と準備が面倒でして、設定の方法につきましては過去に偉人が詳しく解説してくださっているので、そちらをご

                                                                    【R言語】Tweetデータをワードクラウドで可視化してみた - Qiita
                                                                  • データフレーム上の緯度と経度を空間オブジェクトに変換する-🦉sfと🐍geopandasの例- - cucumber flesh

                                                                    地理空間データを取り扱う際は、はじめにgeojsonやshapeファイルで受け取ることが一般的かと思います。 あるいはポイントデータの場合には、緯度と経度の値が各列に記録されるcsvなどの表形式のテキストファイルを起点とすることもあります。 前者のような地理空間データであれば、 R等のアプリケーションで読み込めば自動的に地理空間データとみなしてくれますが、 後者の場合はそうではありません。 座標の値はあくまでも数値です。なのでこうしたデータを地理空間データとして扱えるようにするには変換作業が必要となります。 今回の記事では、RおよびPythonでのデータフレームに記録された緯度経度の列を変換し、空間オブジェクトとして扱えるようにする方法を紹介します。 空間オブジェクトの形式としてRではsf、Pythonではgeopandasを対象にします。地理空間データに変換しておくと、データの空間的な配

                                                                      データフレーム上の緯度と経度を空間オブジェクトに変換する-🦉sfと🐍geopandasの例- - cucumber flesh
                                                                    • プロダクトの戦略立案に役立つ仮説検証ケーススタディ - BASEプロダクトチームブログ

                                                                      この記事はBASE Advent Calendar 2019の5日目の記事です。 devblog.thebase.in こんにちは。BASE株式会社でOwners Growthチームのマネージャーをしている遠藤です。 Owners Growthチームのミッションは、「BASE」に登録しているショップの成長を支援したり、運営のサポートを行うことで「BASE」でのショップの開設・運営の体験を向上させ、ショップさんに継続的にご利用いただくことです。 今回はアドベントカレンダーということで、このミッションを遂行するために普段どんなことを行なっているのか、特にOwners Growthチームで行なっている戦略や戦術を決めるための仮説検証プロセスを簡単にご紹介したいと思います。 そもそもOwners Growthってどんなことを考えながら仕事をしているの?とか、どうやって仮説を検証しながら戦略を作るの

                                                                        プロダクトの戦略立案に役立つ仮説検証ケーススタディ - BASEプロダクトチームブログ
                                                                      • 母集団労働者数推計の謎:毎月勤労統計調査とセンサスはなぜ乖離しているのか - remcat: 研究資料集

                                                                        前回記事 にひきつづき、毎月勤労統計調査が推計する母集団労働者数がセンサスの労働者数から乖離している件について。 センサスとの乖離の方向と度合いは、事業所規模と時期によってちがっていることがわかる。5-29人規模事業所では、2004年以降ずっと、センサス結果を上回る増加がつづき、このために大きなギャップが継続して生じている。一方で、30-99人規模事業所では、推計される労働者数が減少したために、増加気味であったセンサス結果との間に乖離があるが、この傾向は2012-2015年の間に集中している。100-499人規模事業所や1000人以上規模の事業所では、毎月勤労統計調査の月々の労働者数推計はセンサスの数値とほとんどずれておらず、ずっと高い精度で追尾できている。このようなちがいが出てくる原因を突き止められれば、毎月勤労統計調査とセンサスのどこにまずい点があり、どのように修正するべきであるかにつ

                                                                          母集団労働者数推計の謎:毎月勤労統計調査とセンサスはなぜ乖離しているのか - remcat: 研究資料集
                                                                        • 株式会社ホクソエムのブログ

                                                                          監修させていただいている評価指標入門なんですが、株式会社ホクソエムの代表取締役CEOである私、牧山幸史(以下、コージー牧山)、はじめてこの企画を聞いた時は「その特徴は単に評価指標をまとめた辞書やないかい!そういう”売れそうだから書く”みたいな商業的なマインドが学術界の価値を貶め云々」と思ったのですが、上梓された高柳さん(タカヤナギ=サン)の壮大なるお話を聞いているうちに「これはひょっとして数理モデリングとしても奥深い世界が広がっているの?面白いかも!」と思い監修社として名乗りを上げた次第です。 一方、本書の内容と皆様の期待値がややズレているのではないか?と不安には思っておりまして、これは監修社として一肌脱いでおかなければいかんなと、自然界に存在する第5の力「期待値調整力」を見せなければならないなと思い筆を取った次第です。 以下、私、コージー牧山の視点で「書いてあること・書いてないこと・書き

                                                                            株式会社ホクソエムのブログ
                                                                          • RでCQT(Constant-Q変換)をやってみる - 株式会社ホクソエムのブログ

                                                                            ホクソエムサポーターの松本です。音楽を作ったり聴いたりするのが趣味なので、音楽分析に興味があります。音データの分析にはPythonだとlibrosaというとても便利なパッケージがあるのですが、Rにはそういった汎用的なパッケージがなくてちょっと不便です。 最近ふとRでCQT(Constant-Q変換)をしてみたいと思い、既存のパッケージを使ってできないか探してみたところ特に見つからなかったので、どのように実装すればいいのか調べてみました。 スペクトログラムについて 音声や音楽データの分析を行う際には生の波形をそのまま扱うのではなく、スペクトログラム(時間周波数表現)に変換したものを特徴量として利用することがあります。下の画像は「あいうえお」という音声を録音したデータを表したものです。 左図の波形データは横軸は時間、縦軸は振幅を表します。右図のスペクトログラムは横軸は時間、縦軸は周波数、色はそ

                                                                              RでCQT(Constant-Q変換)をやってみる - 株式会社ホクソエムのブログ
                                                                            • コレポンは何をやっているのか①数理の概要 - 統計学といくつかのよしなしごと

                                                                              告解 ここ数か月とても忙しく仕事をしていて*1、前の投稿から半年以上経ってしまった。とはいえ何よりも自分の知識や経験の定着を一番の目的にブログを書いているので、これだけ空いたのは怠慢でしかないんだよなぁ。。もう少し頑張ろうと思います。 マーケティングリサーチでよくやるいわゆるコレポン 気を取り直して。マーケティングリサーチではコレスポンデンス分析*2、いわゆるコレポンがよく用いられる。マーケティングはもちろん、戦略や戦術を考えるといった際に僕たちは二軸に切ったマップを頻繁に利用する。会社であれ製品・サービスであれ顧客ニーズであれ、切れ味の良さそうな軸を定義してその上にそれらを置いてやれば、何となく洞察が得られた気になる。実際関心のある状況を簡略化、可視化することは思考の大きな助けになるし、その点マッピングはとても有用である。しかし経験的直感だけでマッピングするのは心許ないから、データに基づ

                                                                                コレポンは何をやっているのか①数理の概要 - 統計学といくつかのよしなしごと
                                                                              • 新型肺炎COVID-19の無症状感染者の割合をrstanで推定しようとしたが断念した - 驚異のアニヲタ社会復帰の予備

                                                                                読んだ。 Estimating the asymptomatic proportion of coronavirus disease 2019 (COVID-19) cases on board the Diamond Princess cruise ship, Yokohama, Japan, 2020. - PubMed - NCBI COI:なし ダイヤモンド・プリンセス号のPCR検査と陽性数および症状のある・なしのデータから、無症状でPCR陽性となる患者の割合を推定しようという試み。 The asymptomatic proportion was defined as the proportion of asymptomatically infected individuals among the total number of infected individuals. とあるよ

                                                                                  新型肺炎COVID-19の無症状感染者の割合をrstanで推定しようとしたが断念した - 驚異のアニヲタ社会復帰の予備
                                                                                • 状態を持つループ処理を accumulate() でシンプルに書く - ほくそ笑む

                                                                                  R言語のコミュニティ https://r-wakalang.slack.com で回答したのでメモ。 質問はこんな感じ(意訳しています)。 次のようなデータを以下のルールで処理したい。 データを上から下に見ていき、 (1) before に TRUE が出たら、それ以降は after を TRUE にする。 (2) ただし、condition が FALSE になったら after を FALSE にして状態をリセットする。 これを、for を使わないやり方で書きたい。(データにすでにある after は答えあわせ用) before condition after 1 FALSE FALSE FALSE 2 FALSE TRUE FALSE 3 TRUE TRUE TRUE 4 FALSE TRUE TRUE 5 FALSE TRUE TRUE 6 FALSE FALSE FALSE 7

                                                                                    状態を持つループ処理を accumulate() でシンプルに書く - ほくそ笑む
                                                                                  1