タグ

qiitaとstatisticsに関するnabinnoのブックマーク (50)

  • 【アンケートなんてするな】効果検証のためのアンケート分析本10冊読んだので書評書く。 - Qiita

    アンケート(questionnaire)って多数決とるものだと思ってました。(小並感) アンケート調査して、そこからエビデンスになるものを見つけて、意思決定に使う。というところまでやりたいと考えた時に、「とりあえず多数決とりました」ってだけではあまりにもパンチ(説得力)が弱すぎると思って勉強し始めたのが始まりでした。 勉強してみるとアンケートって 質問文の聞き方だけで回答が偏る 質問で聞いたことしか収集できない 集めたいように設計することもできる などなど気にするべきところがたくさんありました。 中にはこのような注意点を「知らないor知っていて政治的に利用」する事に対して(正しく使えないなら)アンケートなんてするなと書いてあるもありました。 アンケートはPDCAのどの段階でも使うことができ、(結果に対応する因果に当たる)ユーザーの気持ち部分を定量化できるので、使いこなせるとかなり役立つデ

    【アンケートなんてするな】効果検証のためのアンケート分析本10冊読んだので書評書く。 - Qiita
  • リッジ回帰とラッソ回帰の理論と実装を初めから丁寧に - Qiita

    はじめに 前回の記事で重回帰分析の導入をしてみたので、今回はその続きということで、2つ同時にやってみたいと思います。 ベクトルの微分公式については下記のブログが参考になります。 もしこの記事がお役に立てた時はQiitaのイイねボタンを押していただけると励みになります。 参考記事 「ベクトルで微分・行列で微分」公式まとめ 重回帰分析 リッジ回帰について考える際に、重回帰分析の理解はマストになるのでここでも見ていこうと思います。式変形については、前回の記事で詳しく導入したので少しだけ端折っていきます。 準備 説明変数$x_1, x_2, x_3, \cdots, x_m$を$\boldsymbol{x}$($x$のベクトル)とする 予測値を$\hat{y}$とする($\hat{y}$はスカラー) 回帰係数を$w_1, w_2, w_3, \cdots, w_m$を$\boldsymbol{w}

    リッジ回帰とラッソ回帰の理論と実装を初めから丁寧に - Qiita
  • 【ブートストラップ法】経験分布関数について数値計算を通して理解を深める - Qiita

    背景 「現代数理統計学」(竹村彰通)(以後、教科書)はさらっと興味ある所は読みました。第11章第2節の、回帰モデルを十分統計量の観点から考察しているところが面白かったです。 2週目は細かい証明も追う予定ですが、それと同時に他の興味ある話題も追いたい、ということでブートストラップ法です。区間推定も出来るので、教科書で勉強した方法との比較もしたいと思っていますが、今回は準備として経験分布関数について、手計算と数値計算で理解を深めます。 経験分布関数とは 累積度数分布と言った方が馴染みがあるかもしれません。経験分布関数は標に依存しますので、統計量であり、累積分布関数の推定量です。定義は

    【ブートストラップ法】経験分布関数について数値計算を通して理解を深める - Qiita
  • 初学者からの統計学10冊(社会科学向き) - Qiita

    はじめに 千葉大学・株式会社Nospareの川久保です. 今回は,初学者レベルから学部上級レベルの統計学関連の教科書を,順を追って紹介していきます.普段,経済学をはじめとする社会科学(経済学・経営学や政治学など)を学ぶ学生に教えているので,タイトルに「社会科学向き」と入れてみましたが,これから紹介する多くのは,他の応用でも役に立つものが多いはずです. 入門書 大屋幸輔『コア・テキスト統計学』 厳密さと初学者に対する分かりやすさのバランスのとれたです.演習問題を集めた副読もあるので,こちらと併せて学習すると効果的だと思います. 久保川達也・国友直人『統計学』 入門書としては,やや硬派な教科書ですが,しっかり学びたい人にはお勧めの教科書です.「1.記述統計」「2.確率」「3.推測統計」と標準的な構成をしている中,最後の第4部では社会・経済データとして標調査や時系列分析の話題にも触れてい

    初学者からの統計学10冊(社会科学向き) - Qiita
  • 統計初心者が統計モデリング力を鍛えるための勉強法 - Qiita

    以前、『結局、統計モデリングとは何なのか』という記事を書きました。 この記事は、その名の通り、「そもそも」何が統計モデリングで、何が統計モデリングではないのかということを扱った記事です。 今回は、「統計モデリングとは何か」を理解した方に向けて、実際に「統計モデリング力」を鍛えるためにはどうするかを書いていきたいと思います。 この記事の目的と対象者 上記でも述べたようにこの記事の目的は、どのように「統計モデリング力」を鍛えるかを書くことです。 統計学に入門するところから、高度な統計モデルを扱えるようになるまでの勉強法について書いています。 したがって、統計初心者からそれなりに理解している人までの幅広い層が想定読者となります。 ところどころで、プログラム言語で実際に手を動かしながら学ぶタイプのを紹介することもありますので、そういったを読むためにはPythonまたはRの知識が必要になります。

    統計初心者が統計モデリング力を鍛えるための勉強法 - Qiita
  • 可視化や統計でデータに『恣意的なストーリーを語らせる』16の闇の魔術【bad charts】 - Qiita

    闇の魔術に対する防衛術 Advent Calendar 2020の三日目 はじめに データの可視化は非常に難しい。 まずデータの抽出が難しい ・データソースごとの整合性が取れているか ・取得したデータとソースデータに欠損が生じていないか ・SQL文を実行したサマリの結果が部分的に抜け落ちていないか。 その確認は時間的にも精神的にも苦痛。 しかし、苦労して抽出したデータも使い方で全くの無駄になる その例として「可視化や統計」部分に着目してお話をしようと考えた。 データの背景を知らない人には、データ可視化が歩み寄る手段になるし、伝えたい事をインパクトを伴って伝えられるなど非常にメリットである。 ※ただし 「可視化」の使い方によっては誤った理解をさせることも可能。 伝えたい事だけを正しいように見せる方法もあり、 可視化に詳しくない人に誤解を与えて自分の主張を通すこともできるかもしれない。 これは

    可視化や統計でデータに『恣意的なストーリーを語らせる』16の闇の魔術【bad charts】 - Qiita
  • ゼロからのディープラーニング(フォワードプロパゲーション編) - Qiita

    はじめに DeepLearningを学び出してから2週間ほど経ちました。そろそろ学んだことが頭から零れ落ちる音がしてきたので、整理がてらにアウトプットしたいと思います。今回から複数回に渡ってDNNを構築していきます。今回はフォワードプロパゲーション編です。 作成するDNNについて 画像がである(1)かそれ以外である(0)かを判定するネットワークを構築します。 使用するデータ 209枚の画像をトレーニングデータとし、50枚の画像をテストデータとして使用します。それぞれの画像のサイズは64 * 64です。 Number of training examples : 209 Number of testing examples : 50 Each image is of size : 64 * 64

    ゼロからのディープラーニング(フォワードプロパゲーション編) - Qiita
  • 正則化項(LASSO)を理解する - Qiita

    $d=2$ の場合、$a_1+a_2\le r$なので、$a_1,a_2$の取り得る値は四角の範囲内に制限される。 最小二乗解が赤線で求められる場合、$a_2=0$となり、次元が一つ減ることになる。 *$L_2$正則化の場合、制約条件は $||a||^2\le r $ なので、取り得る値は円形の範囲に制限される。 *L2正則化とは違い、L1正則化では|w|がw=0で微分できない。 L2正則化のように簡単に計算できず、数値的に求める必要がある。 1.求めてみる ここでは、数学的な証明は割愛し、L1正則化の効果の確認に焦点を当てる。 なんで、可能な限りscikit-learnのライブラリを使用した。 データセットは、diabetes(糖尿病患者の検査数値と 1 年後の疾患進行状況)を使用。 from sklearn.datasets import load_diabetes from skle

    正則化項(LASSO)を理解する - Qiita
  • 欠損値の出現パターンを簡単に可視化する - Qiita

    (An English translation is available here.) Pythonデータ分析をする際に、欠損値の出現パターンを簡単に可視化する方法を紹介します。 はじめに データ分析をする際に、欠損値に対処する必要があります。方法は様々あります1が、対処法を考える前に、欠損値の数や出現パターンを知る必要があります。この記事では、Pythonを用いてデータ分析をする際に、欠損値の出現パターンを簡単に可視化する方法を紹介します。 なお、この記事で紹介する方法については、私のGitHub repoにJupyter notebookをアップロードしてあります。下のバッジをクリックすると、Binderで実行できます。 前提 以下、Kaggleから入手できるTitanicのtrain datasetを例として紹介します。以下のコードと実行結果があるものとします。 import nu

    欠損値の出現パターンを簡単に可視化する - Qiita
  • Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~ - Qiita

    Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~PythonKaggle 事業会社でデータサイエンティストをしているu++です。普段ははてなブログ1で、Kaggleや自然言語処理などデータ分析に関する記事を定期的に書いています。 Kaggleでは2019年に「PetFinder.my Adoption Prediction」2というコンペで優勝(チーム)し、「Santander Value Prediction Challenge」3というコンペで銀メダルを獲得(個人)しました。「Kaggle Master」と呼ばれる称号4を得ており、Kaggle内ランクは、約16万人中最高229位です5。 記事では「Kaggleに登録したら次にやること」と題して、Kaggleに入門したい方に向けて次のようなコンテンツを掲載します。

    Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~ - Qiita
  • LIMEで機械学習の予測結果を解釈してみる - Qiita

    初投稿です 追記(20171031) HTMLを出力する際のエンコードがasciiだったため日語が文字化けしていましたが、UTF-8をサポートするようになったようです! 下記に文字化け対策の文章がありますが、読み飛ばしていただければ幸いです。 導入 セクシーなデータサイエンティストの皆様におかれましては、日々の業務で様々な機械学習のモデルを構築しておられるかと思います。それは例えば、あるサービスのユーザ情報を用いてコンバージョンするかしないかを予測していたり、またある時は年収を回帰で予測していたり、またあるときはユーザが投稿した画像情報についての二値分類やテキストデータについてのネガポジ分類をしていたりすることでしょう。 これらにつきものなのが、この予測モデルを実装する際の関係者への説明です。このモデルはどうしてこのような結果を出しているのか、なんでこのユーザは低い年収だと判定されている

    LIMEで機械学習の予測結果を解釈してみる - Qiita
  • ROC曲線とAUCについて定義と関係性をまとめたよ - Qiita

    はじめに こちらの記事の内容を1枚絵にまとめたものになります。以下、文章で少しだけ補足します。 正解率系の各種指標について (参考)こちらの記事より引用させて頂きました。 クラス分類モデルの性能評価には様々な評価指標が存在しますが、上記の各種指標の計算で諸々算出されます。 用語を覚える際に混乱してしまいがちですが、以下の関係性さえ理解しておけば丸暗記しなくても思い出せます。 前一文字:正解か不正解かを示す -> T or F 後一文字:モデルからの予測分類を示す -> P or N 偽陽性は、FP(間違って陽性判定した数) / FP + TN(陰性全体の母数) 真陽性は、TP(正しく陽性判定した数) / TP + FN(陽性全体の母数) テキストでROC曲線とAUCをまとめる ①ROC曲線ってなんだ? クラス分類するためのスコア閾値を外部の変数として変化させ、偽陽性率を横軸に、真陽性率を縦

    ROC曲線とAUCについて定義と関係性をまとめたよ - Qiita
  • 知識0から統計検定2級取得を目指した話 - Qiita

    [追記]統計検定2級、おかげさまで合格しました。(僕の受験した回は得点率65%で合格できました) この記事の概要(目次) はじめに: 事前の筆者のステータス 勉強方法: どんな勉強をしたか そのメリットとデメリット 思ったこと・分かったこと: 勉強をしてみて思ったこと 勉強してみないとわからなかった もう一度やるとしたらこんな方法でやる: 現状で思う、オススメの進め方 今から勉強する皆さんに向けて事前に知っておいてほしいこと 結果: 試験の結果( 発表されたら追記します(6/18) ) はじめに 目的 自分の中でのスキルを増やすこと Qiitaに残す目的 進め方の振り返りのため いつか2級を受けようとしている誰かのため 復習用のノート ということで 2級合格のためのチートシート作成しました (https://qiita.com/akiyoshi_sasaki/items/c81032c16

    知識0から統計検定2級取得を目指した話 - Qiita
  • 統計、機械学習の勉強で使いやすい生データをダウンロードできるリンク集 - Qiita

    はじめに 統計、機械学習が流行しているので、勉強したいと考えている人が多いと思います。 が、しかし、実際に手を動かすためには、データがないと難しく勉強は困難です。 PRMLとか読んでも、実務で使えそうなイメージは湧きません。 そこで、生データをダウンロードできるリンク集を作ってみました。 見つけ次第増やしていきます。 過去の気象データ検索 by 気象庁 http://www.data.jma.go.jp/obd/stats/etrn/index.php 気象に関する情報のデータベースです。 条件を色々入れると、CSVを生成してくれます。 データ容量制限がありますが、いろいろ使えそうです。 人体寸法データベース by 産総研 https://www.dh.aist.go.jp/database/91-92/ 身体のいろんな場所の寸法に関するデータベースです。 足のサイズとか、顔の大きさとかの

    統計、機械学習の勉強で使いやすい生データをダウンロードできるリンク集 - Qiita
  • データの種類の理解と線形回帰ことはじめ - Qiita

    昨日は統計のウソを見破る 5 つの視点として統計的誤りに関する注意点を説明しました。 日はここであらためて、分析しようとしているデータそのものにスポットを当ててみたいと思います。 KPI (key performance indicator) とは目標を達成するために何が必要かを定量的に表す数値です。整形して美人になりたいというのは KPI ではありませんが、体重を 3 ヶ月後までに 10 キロ減らすとか鼻を 1.5 センチ高くするといったものは KPI です。 データにはどのような種類があり KPI として利用しようとしている指標はどんなデータなのか正しく理解していないとしばしば誤った KPI を導き、無意味なデータ分析へとつながる危険を孕みます。 変数とは 社会調査や医療統計など様々な分野で被調査対象者の状態を多方面から特定していきます。たとえばアンケートやカルテを想定してみましょう

    データの種類の理解と線形回帰ことはじめ - Qiita
  • 線形回帰と相関係数、そして東京の平均気温を実際に分析してみる - Qiita

    線形回帰における仮定 前々回、前回 と線形回帰について説明してきました。 線形回帰における最小二乗法では Y 軸の点と点の全体的な長さの差異 (= これを、それぞれの差の二乗を取ってから加算するので二乗誤差といいます) が最小になるように、まっすぐな線 (= 1 次式の直線となる関数) を求めました。すなわち、データの集合から直線に回帰する推定をおこなったわけです。 相関係数を求める どんな 2 次元データでも線形回帰で関数を導くことはできますが、それが妥当かどうか気になります。そこで両者の相関係数を求めます。相関係数はベクトル v1, v2 からそれぞれの要素 x, y の平均を求め、次に v1, v2 の分散と共分散を求めます。コードで表現してみましょう。 def correlation(data): n = len(data) # 二次元データの長さを n に求める xm = 0.0

    線形回帰と相関係数、そして東京の平均気温を実際に分析してみる - Qiita
  • [Review] Wide&Deep Learning - Qiita

    Main Question can we teach computers to learn like humans do, by combining the power of memorization and generalization? Study Resources Tensorflow Tutorial Nice Qiita Post in Japanese Research Blog Visual Concept Case Study Let's say one day you wake up with an idea for a new app called FoodIO*. A user of the app just needs to say out loud what kind of food he/she is craving for (the query). The

    [Review] Wide&Deep Learning - Qiita
  • LinearRegression クラスについてメモ - Qiita

    sklearn の LinearRegression クラスについての個人メモ。 LinearRegression とは 線形回帰モデルの一つ。説明変数の値から目的変数の値を予測する。 導入 import sklearn.linear_model.LinearRegression アトリビュート coef_ 回帰変数。 intercept_ 切片。 メソッド fit(x, y) 線形回帰モデルの当てはめを実行。訓練の開始。 xが対象データで、yが正解データ ※教師あり学習が前提 get_params() 推定に用いたパラメータを取得。 predict(x) モデルを使用して、xに対して予測を実行し予測値を算出する。 score(x, y) 決定係数を出力。予測値xと正解値yの相関を測る。 実践 import pandas as pd from sklearn.linear_model im

    LinearRegression クラスについてメモ - Qiita
  • 【機械学習】最小二乗法について メモ - Qiita

    機械学習で使用することを前提として、最小二乗法についてまとめます。 ど文系のメモなので、誤りなどあったら指摘していただければ嬉しいです。 最小二乗法とは 最小二乗法(さいしょうにじょうほう、さいしょうじじょうほう;最小自乗法とも書く、英: least squares method)は、測定で得られた数値の組を、適当なモデルから想定される1次関数、対数曲線など特定の関数を用いて近似するときに、想定する関数が測定値に対してよい近似となるように、残差の二乗和を最小とするような係数を決定する方法、あるいはそのような方法によって近似を行うことである。(Wikipedia) あるデータの分散について回帰を行いたいときなどに用いる考え方。 回帰直線をはじめとし、ロッソ回帰やリッジ回帰などの根底となる概念。 数式について 数式 モデル関数を f(x) とするとき

    【機械学習】最小二乗法について メモ - Qiita
  • [Review] Wide&Deep Learning for Recommender System - Qiita

    Preface Basic Concept is well explained in this post. [Review] Wide&Deep Learning Research Paper Abstract Contents Introduction Recommender System Overview Wide & Deep Learning The Wide Component The Deep Component Joint Training of Wide & Deep Model System Implementation Data Generation Model Training Model Serving Experiment Results App Acquisitions Serving Performance Related Work Conclusion Re

    [Review] Wide&Deep Learning for Recommender System - Qiita