タグ

分析と統計に関するAobeiのブックマーク (38)

  • フリーで使えるエクセル統計ツールの出力結果が間違っているかもしれないという話(コレスポンデンス分析について) - Qiita

    1.はじめに 最近、職場のN氏からコレスポンデンス分析に関することでコメントを求められ、色々と試行錯誤した。その際、後述するエクセルの統計アドインツールの結果が、SASやRなどの統計パッケージの結果と一致しないことに気がついた。 2.問題の所在 まずは数字を適当に入力したデータテーブルを作って、SASのcorrespプロシジャを試してみる。 proc sql; create table df (brands CHAR(5) NOT NULL, attr1 float NOT NULL, attr2 float NOT NULL, attr3 float NOT NULL, attr4 float NOT NULL, attr5 float NOT NULL, attr6 float NOT NULL, attr7 float NOT NULL, constraint prim_key pr

    フリーで使えるエクセル統計ツールの出力結果が間違っているかもしれないという話(コレスポンデンス分析について) - Qiita
  • 因子負荷量と固有ベクトル - Qiita

    library(tidyverse) dat <- iris %>% select_at(1:4) %>% prcomp(scale = T) biplot(dat, xpd = T) これ自体はいいんですが。 時々、この図の、例えばSepal.Widthの赤い矢印を指して、「平面中のプロットにおいて、このパラメータは、この矢印の方向に行くに従って大きくなります(なると期待されます)。」と解説する方がいらっしゃいます。 これは、アウトです。 確かめてみましょう。 Q. 「この平面内で、Sepal.Widthが大きくなって行く(と期待される)方向(線)」を求めたい。 A. Sepal.Widthに対して、主成分PC1とPC2を重回帰します。 # パラメータの整理 y <- iris$Sepal.Width %>% scale(center = mean(.), scale = sd(.))

    因子負荷量と固有ベクトル - Qiita
  • 読了:Gao et al.(2019) MRP(マルチレベル回帰・層化)に構造化事前分布をいれる | 読書日記

    Gao, Y., Kennedy, L., Simpson, D., Gelman, A. (2019) Improving multilevel regression and poststratification with structured priors. arXiv:1908.06716v2. 30 Sep 2019. しばらく前に読んだ奴。たしか勉強のつもりで読んだのだと思う。 最近の選挙予測でブイブイいわせているらしき、Mr.P こと Multilevel Regression and Poststratification (日語ではなんていうんだろう? マルチレベル回帰・層化?) に、構造を持つ事前分布をいれるという論文。Mr.Pの生みの親 Andrew Gelman さんも著者に入っている。たぶん未公刊。 いまみたらarXivに改訂版があがっていた。なんか内容が大幅改善さ

  • コレポンは何をやっているのか①数理の概要 - 統計学といくつかのよしなしごと

    告解 ここ数か月とても忙しく仕事をしていて*1、前の投稿から半年以上経ってしまった。とはいえ何よりも自分の知識や経験の定着を一番の目的にブログを書いているので、これだけ空いたのは怠慢でしかないんだよなぁ。。もう少し頑張ろうと思います。 マーケティングリサーチでよくやるいわゆるコレポン 気を取り直して。マーケティングリサーチではコレスポンデンス分析*2、いわゆるコレポンがよく用いられる。マーケティングはもちろん、戦略や戦術を考えるといった際に僕たちは二軸に切ったマップを頻繁に利用する。会社であれ製品・サービスであれ顧客ニーズであれ、切れ味の良さそうな軸を定義してその上にそれらを置いてやれば、何となく洞察が得られた気になる。実際関心のある状況を簡略化、可視化することは思考の大きな助けになるし、その点マッピングはとても有用である。しかし経験的直感だけでマッピングするのは心許ないから、データに基づ

    コレポンは何をやっているのか①数理の概要 - 統計学といくつかのよしなしごと
    Aobei
    Aobei 2023/03/29
    コレスポンデンス分析、対応分析。
  • K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ

    クラスタリングに用いられるK-meansのクラスタ数決定方法については長く議論されてきた歴史があり、このブログでも以前ちょろっと取り上げたことがあります。 で、Twitterを眺めていたらタイムラインに面白い論文が流れてきました。それがこちらです。 タイトルを読んで字の如く「K-meansのクラスタ数を決めるのにエルボー法を使うのはやめろ」という論文なんですね。全体で7ページと非常にコンパクトで読みやすい内容なので、簡単にまとめて紹介してみようと思います。なおいつもながらですが、僕の技術的理解が不足しているが故の誤りなどが混じる可能性がありますので、その際はコメント欄などでご指摘くださると幸いです。 あるtoy dataに対するK-meansの結果 目検に頼らないエルボー法について考える ならば、既存のクラスタ数決定法の中では何を選ぶべきか そもそもK-meansが有効でないケースもあるこ

    K-meansのクラスタ数を決めるのにエルボー法を使うのはやめよう、という論文 - 渋谷駅前で働くデータサイエンティストのブログ
  • 覚え書き: 離散選択モデルの識別性 (Train, 2009) | 読書日記

    2022年の秋から冬にかけて、仕事の都合で延々と一対比較課題の分析のことを考えていたのだけれど(官能評価みたいな伝統的モデルじゃなくて、個人レベル効用を推定したい場合の話)、とにかくややこしいのは識別性の話である。何か論文を読んだり、あれこれ考えたりはしたんだけれど、どうも俺は選択モデルの基礎がわかってないな… という後ろめたさがある。 毎度の疑問ですが、こういうのって皆さんどこで習ってんですかね、いったい。巷のデータサイエンティスト養成コースとかで教えてくれるんでしょうか。そんならぜひ習いたい。実践演習とかいいからさ、基礎を教えてくださいよ、基礎を。 というわけで、手元の教科書を読み直し、弱気になってメモまでとった。最初に読んだときは目からウロコだと思った箇所なんだけど、読み返してみたら、どういうウロコを落としたのか思い出せない。学ぶことの意味とは。 Train, K.E. (2009

  • 若者論を研究するブログ

    匿名掲示板が瀕死の状態で避難所の過去ログも残りそうにないのでこれからはレスバトルの記録をブログに保存しておこうと思います。最終的にクッソ長大になりそうなので各レスバは折りたたんでいます。 2023_10_29_日人の知能について再び レスバをする気は全く無かったのですが>>71を見て「なんかこれって俺と勘違いされてねぇ?」という意味不明な妄想が頭をもたげてつい…なんか前回もスレ見返したら唐突にレスバ判定士さんが現れて勝ち名乗りを上げてくれてたんですが私もしかして監視されてますか…?アルミホイル巻かなきゃ… 64 エッヂの名無し 2023/10/29(日) 21:57:09.101 ID:4S5QVQUXA >>47 このランキングの元データになってる調査をしてるのがRichard Lynnっていう研究者なんだけどそいつがどんなやつかちょっと調べてみるとこのデータの性質が分かると思う まあ

    若者論を研究するブログ
  • ”美しい仮定”は精度を向上させる――「回帰分析」には対数(log)変換が有用な理由

    AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す連載『「AIエンジニアになるための「基礎数学」再入門』。前回は最小二乗法および回帰分析について解説しました。 今回のテーマは、有用なケースが多いのでぜひ覚えてほしいテクニック「対数変換」です。前回の回帰分析に使えるものですが、「なぜ有用なのか?」についても解説します。 回帰分析の復習 前回学んだ単回帰分析について簡単に復習します。単回帰分析は、「y = ax + b」という数式である値を予測するものでした。例として、以下のような課題を与えられたとします。 課題:年収からその人の資産額を推測せよ 目的変数yが資産額 説明変数xが年収 使用するデータのイメージ Name y:資産額(万円) x:年収(万円) A

    ”美しい仮定”は精度を向上させる――「回帰分析」には対数(log)変換が有用な理由
  • なぜあなたのA/Bテストはうまくいくのか?A/Bテストの分析で注意すること | CyberAgent Developers Blog

    概要 同じ介入を比較するA/Aテストで統計的に有意な差が出てしまうケースがある その原因は、A/Bテストの指標の設計に失敗していることかもしれない この問題の対処法としてユーザベースCTR、デルタメソッド、クラスターロバスト標準誤差を紹介する これらの手法は実務で運用する上では一長一短 はじめに AI事業部Dynalystの伊藤、小売セクターの藤田(@6km6km)です。 DynalystはReal Time Biddingと呼ばれる広告オークションにおいて広告枠の買付を行うプラットフォーム(DSP: Demand Side Platform)です。DSPでは、ユーザに広告を表示する際に複数あるクリエイティブの候補からひとつクリエイティブを選ぶ必要があり、その選択ロジックにバンディットアルゴリズムを用いています。(参考リンク1, 2) 以下では、バンディットアルゴリズムのA/Bテストをす

    なぜあなたのA/Bテストはうまくいくのか?A/Bテストの分析で注意すること | CyberAgent Developers Blog
  • 検索エンジンのABテストで発生するユーザー内相関を突破する - エムスリーテックブログ

    この記事はエムスリー Advent Calendar 2021 1日目の記事です。 明日からも面白い記事が続々投稿されるので、ぜひ購読・拡散お願いします! qiita.com エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。好きな言語はGo。情報検索系の話が好物です。 最近検索エンジンの改善やアルゴリズムの変更などの効果を分析する機会が多くなってきたのですが、ABテストの効果検証でやらかしてしまい、改めてABテストについて復習しています。そこで「A/Bテスト実践ガイド」というを読みました。 A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは (アスキードワンゴ) 作者:Ron Kohavi,Diane Tang,Ya Xu,大杉 直也ドワンゴAmazon こので、私が陥った大量にクリックするユーザー

    検索エンジンのABテストで発生するユーザー内相関を突破する - エムスリーテックブログ
  • @saltcookyのマイページ - Qiita

    posted articles:R:94%統計学:64%データ分析:58%機械学習:24%因果推論:9%

    @saltcookyのマイページ - Qiita
  • データえっせい

    日,大腸内視鏡検査を受けてきました。そのいきさつの記録です。 私は毎年,横須賀市の成人特定健康診断を受けています。会社員なら強制的に健診は受けさせられますが,私のような在野人は,自分で手配しないといけません。まあ市から送られてくる受診券を持って,近くのかかりつけ医に行くだけですが。 有料のオプションとして,胸部検査や大腸がん検診もついています。後者については躊躇する人も多いでしょうが,私は毎年受けることにしています。お肉をバクバクべますのでね。 昨年の11月半ば,渡された検査キットを使って,自宅にて便を採取しました。正確さを期すため2回行うのですが,2回目は,お尻を拭いたトイレットペーパーに血がついていました。排便の時に,肛門が切れるような感覚があり,おそらく痔だなと思いました。しかし便に血が混ざってしまった可能性が高く,これは陽性と出るな,と覚悟を決めました。 1か月経った12月半ば

  • LTV prediction for a recurring subscription with R - AnalyzeCore by Sergii Bryl' - data is beautiful, data is a story

    Aobei
    Aobei 2019/01/05
    文末にエクセルのリンクあり有用。
  • How to project customer retention

    Aobei
    Aobei 2019/01/05
    peter fader先生、エクセルの解説もあり有用。
  • 色々な確率分布とその応用

    5. よく紹介されている確率分布 離散分布 連続分布 • 離散一様分布 • 二項分布(ベルヌーイ分布) • ポアソン分布 • 超幾何分布 • 幾何分布 • 負の二項分布 • 多項分布 • 連続一様分布 • 正規分布 • 指数分布 • ガンマ分布 • ベータ分布 • コーシー分布 • 対数正規分布 • ワイブル分布 • ロジスティック分布 • 多変量正規分布 • χ2分布 • t分布 • F分布 © 2017 Retrieva, Inc. 5 6. 今回紹介する確率分布間の関係 © 2017 Retrieva, Inc. 6 幾何分布 指数分布 負の二項分布 ガンマ分布 複数化 連続化 連続化 複数化 ワイブル 分布 一般化 ポアソン 分布 二項分布 (ベルヌー イ分布) 反転 反転 無限 無限混合 ベータ分布 ディリクレ 分布 変数変換 複数化 多項分布 複数化 ベイズ共役 変数の変更 ベ

    色々な確率分布とその応用
    Aobei
    Aobei 2018/08/14
    応用で確率思考の戦略論を取り上げている。
  • 統数研での講演『バックドア基準入門』をアプします - Take a Risk:林岳彦の研究メモ

    おひさしぶりです。林岳彦です。夜、自宅で少しだけお酒を飲みたいときがありますよね。少しだけリラックスしたいけど酔っ払いたくはないみたいなときです。そんなとき、アサヒスーパードライの小さな135ml缶はたいへんありがたい存在です。しかし、この135ml缶の欠点は、お酒が少ししか飲めないことです。アズスーンアズ飲むや否やですぐ終わってしまうのです。実はもう飲む前に既に終わっているのではないかと思うほどです。ケンシロウに秘孔でも突かれたのかと、夜中に台所でぼくはきみ(135ml缶)に話しかけたくなります。「スーパードライの135ml缶」とはそんな存在です。 最近、その欠点を克服する方法を発見したのでお知らせします。スーパードライ135mlとポッカのキレートレモン155mlを1:1くらいで混ぜながらちびちび飲みます。これだとすぐ終わらずに飲めます。ビール感も消えてしまわず、爽やかなレモン感もあり、

    統数研での講演『バックドア基準入門』をアプします - Take a Risk:林岳彦の研究メモ
  • バイアスとバリアンス | Nana-Korobi

    統計モデルを作製するアルゴリズムの評価 統計モデルを作製する(学習する)アルゴリズムの良し悪しを測る指標としてバイアス (Bias)とバリアンス (Variance)がある。参考ページにも記載されているが、”モデルそのものの性能” を評価するための指標ではないことに注意する。 以下の図に示すように、モデル精度の悪さをバイアス、モデル作製の不安定さ(再現性の悪さ)をバリアンスと定義する。 理想的なモデル作製アルゴリズムは、低いバイアス・低バリアンスなもの。 バイアスとバリアンスはトレードオフ 直感的には、 モデルが単純 ⇒ 性能は良くないが、教師データに対して安定 ⇒ 高バイアス・低バリアンス モデルが複雑 ⇒ 性能は良いが、教師データに対して不安定(過学習など) ⇒ 低バイアス・高バリアンス であるため、両者はトレードオフの関係にあると言える。回帰モデルの正則化手法と絡めて考えると、 L1

    バイアスとバリアンス | Nana-Korobi
  • rearrange() your correlations with corrr • blogR

    July 20, 2016 rearrange() your correlations with corrr Don’t stare at your correlations in search of variable clusters when you can rearrange() them: library(corrr) mtcars %>% correlate() %>% rearrange() %>% fashion() #> rowname am gear drat wt disp mpg cyl vs hp carb qsec #> 1 am .79 .71 -.69 -.59 .60 -.52 .17 -.24 .06 -.23 #> 2 gear .79 .70 -.58 -.56 .48 -.49 .21 -.13 .27 -.21 #> 3 drat .71 .70

    rearrange() your correlations with corrr • blogR
    Aobei
    Aobei 2016/07/23
    相関行列
  • 『同時方程式と広告とInstrumental Variable Method』

    始めまして、第2回を担当させていただきます、安井です。 @housecat442 でツイッターの投稿も行っているので、データ分析等に興味がある方はフォローしていただけたらなと思います。 初めてなので、ちょっと自己紹介を。 今年7月にノルウェーの大学院で修士号を経済学で取得し、現在はサイバーエージェントの広告事業部でデータアナリストとして働いています。ノルウェーでは、計量経済学の手法を用いてサーモンの養殖の分析をする研究をしていたり、環境税の税率を設定するプロジェクトデータ分析要因として参加していたので、その経験で得た統計学・計量経済学の知識を生かしてインターネット広告の分析をしています。 さて、好きな事を書いて良いという事なので、今回は僕がインターネット広告業界で実はとても重要なんじゃないかと考えているInstrumental Variable Methodという手法について解説したい

    『同時方程式と広告とInstrumental Variable Method』
  • 第4回 主成分への回帰の不思議

    1.要因のウェイトを知りたい 随想の第1回で、何の因果か私がマーケティングの世界で働くことになった話をしました。今回はその続きです。 【ウェイトを知りたいという欲求】 企業を回って御用聞きをしていた頃のことです。複数の要因があって、それぞれの重みを知りたいのだがどうしたらよいのか?というご質問をよく受けました。ウェイトとか重要度とか呼び方は様々ですが、その解釈は一緒です。企業の方は自社品が売れればそれでいいと言います。誠にその通りですが、現実には企業が満足するほど売れることなどめったにありません。むしろ期待を裏切ってしまうことが多いものです。すると企業としては、その理由を知りたくなります。つまり販売実績を知っただけでは何の情報価値もないわけで、不振の原因が何かが分からなければ打つべき対策が見えてきません。 質問をする側もデータ解析の素人ですが、答える私も素人です。どうしたらいいのだろう?重

    第4回 主成分への回帰の不思議