タグ

統計に関するsudo1101のブックマーク (34)

  • 実務で使う統計手法は、5つ。すごい、そんなシンプル?

    このセミナー、冒頭の渋谷 直正さん(日航空 旅客販売統括部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大数学

    実務で使う統計手法は、5つ。すごい、そんなシンプル?
  • 【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita

    統計をこれから学ぼうという方にとって、非常に重要な概念ですが理解が難しいものに「標準偏差」があると思います。「平均」くらいまでは馴染みもあるし、「わかるわかるー」という感じと思いますが、突如現れる「標準偏差」 の壁。結構、この辺りで、「数学無理だー」って打ちのめされた方もいるのではないでしょうか。 先にグラフのイメージを掲載すると、下記の赤い線の長さが「標準偏差」です。なぜこの長さが標準偏差なのか、ということも解き明かしていきます。 (code is here) 記事では数学が得意でない方にもわかるように1から標準偏差とはなにか、を説明してみようという記事です。 数式はわかるけど、イマイチ「標準偏差」の意味わからんという方にも直感的な理解がしてもらえるような説明もしていきますので、ぜひご覧ください。 (※ この記事では標準偏差の分母に $n$を使用しています。$n-1$を使用するケースも

    【統計学】初めての「標準偏差」(統計学に挫折しないために) - Qiita
  • 統計的機械学習入門 | 中川研究室

    教科書は東京大学 工学教程 情報工学の「機械学習」です。現在は試作版を使っていますが、来年度までには市販版を刊行する予定です。 導入pdf 情報の変換過程のモデル化 ベイズ統計と例題(機械翻訳など) 教師あり学習と教師なし学習 識別モデルと生成モデル 最尤推定、MAP推定 データの性質と表現 Bayes推論pdf Bayesによる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の意味 1次元正規分布と事後分布 多次元正規分布 条件付き正規分布 指数型分布族 自然共役事前分布の最尤推定 線形回帰および識別pdf 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化 正則化項のBayes的解釈 線形識別 2乗誤差最小化の線形識別の問題点 生成モデルを利用した識別 学習データと予測性能pdf 過学習 損失関数と Bias,Variance, Noise K-Ne

  • 「王手飛車をかけた方が負ける」は本当か - 盗んだ統計で走り出す

    将棋ニコ生などで頻繁に聞く1「プロの対局では王手飛車をかけたほうが負ける」というジンクス(格言?)が当なのかを自作の将棋解析ライブラリを使って確かめる. 「プロの試合では王手飛車をかけたほうが負ける」とは Wikipediaの「両取り」の項目には,以下のように書いてある. 棋士同士の対局の場合は、「王手飛車をかけた方が負ける」という言葉もある(棋士は王手飛車になる可能性まで踏まえて指しているため)。 また,マイナビの2には次のように書いてある. 「プロは王手飛車をかけたほうが負ける」というセオリー(?)があります。プロが王手飛車を見落とすはずはないので、飛車を取られてもいい読みの組み立てをしているから、という意味です。 また,実際に確かめてみた例として,知恵袋のとある質問の回答中に「『近代将棋』 2002年9月号に,王手飛車をかけたほうが勝率が良かったと書いてあった」という旨の情報が挙

    「王手飛車をかけた方が負ける」は本当か - 盗んだ統計で走り出す
  • 提案書や企画書づくりが驚くほど捗る!無料で入手出来る統計データ総まとめ。

    プロジェクトを開始する前に、市場調査などで統計データを分析し仮説をたてる事は重要ですが、それらの調査対象が世界規模、全国規模になるとコストが掛かりすぎて(特に個人や中小企業の場合)現実的ではありません。 そこで活用したいのが国や団体、民間企業が公開している無料の統計データです。今日はそんなマーケティング担当者ならきっと必見の情報公開を行なっているサイトをご紹介します。 1. 総務省統計局 総務省統計局では様々な統計データが入手可能です。 国税調査 人口推計 労働力調査 小売物価統計調査 土地統計調査 このようなデータはPDF版が一般的ですがExcel形式でダウンロードできるのも魅力ですね。その他にも以下URLより数多くの統計データが入手できます。 また、統計局ではメール配信サービスも行なっています。興味のある方は登録をおすすめします。 www.stat.go.jp 2. 法務省 法務省でも

    提案書や企画書づくりが驚くほど捗る!無料で入手出来る統計データ総まとめ。
  • 統計データ・市場調査データを提供するサービス11選

    業界の市場動向を調べる際に、皆さんはどのように根拠データを入手していますか?自社のホームページに新規コンテンツを立ち上げたい時、どの方向に展開をしていけばそのマーケットを押さえることができるでしょうか。これらを解決するのが、Web上で閲覧できる統計や調査データの数々です。各企業が自社で調査した数値を公開しているものもあれば、国が統計データとして公開しているものもあります。 今回は調査や統計データを入手できるサイト、調査機関のサイトをまとめました。皆さんのビジネスにお役立てください。 ※データの引用や利用にあたり制限がある場合があります。詳しくは各サイトの利用規約などをご確認ください。 統計データや市場調査データが公開されているサービスまとめ 総務省統計局 http://www.stat.go.jp/ 今回紹介する中では最も利用され、また目にする機会も多い調査の一つかもしれません。総

    統計データ・市場調査データを提供するサービス11選
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • 文系のための「多次元データ解析」

    まずは、基的な用語と、Rでの基的なコマンドをここで学ぶ。何も知らずに、回帰分析や主成分分析、クラスター分析をするのは「無謀」というもの。気持ちは理解できなくは無いのだが。以下のトピックを見て、一つでも知らない用語があるならば、先に進まずに、最初から順にチュートリアルをこなした方が良い。また、理解できている人も、一般的な教科書とは異なった説明もある。軽く目を通した方が良いかもしれない。 文系のための「行列の構造」 文系のための「行列」(1):行列データの構造について 文系のための「行列」(2):多次元データについて 文系のための「行列」(3):行列の種類について 文系のための「行列」(4):「変数」と「添字」について 文系のための「行列の演算」 文系のための「行列の演算」:行列の「足し算」と「引き算」 文系のための「内積」(1):行列の「掛け算」の方法 文系のための「内積」(2):行列の

    文系のための「多次元データ解析」
    sudo1101
    sudo1101 2015/05/27
    いいかんじ
  • 因子分析の固有値・固有ベクトルって何? - 小人さんの妄想

    おかげさまで、「統計データをすぐに分析できる」が発売されました。 統計データをすぐに分析できる――社長から「コレを分析して」と言われても困らない! 作者: 中西達夫出版社/メーカー: アニモ出版発売日: 2013/12/13メディア: 単行(ソフトカバー)この商品を含むブログ (2件) を見る こうして形になると、素直に嬉しいです ヾ(´∀`)ノ♪ このを作るにあたって、幾つかの原稿はページの都合上ボツとなっています。 その中の1つに、「因子分析の固有値・固有ベクトルって何?」というものがあります。 固有値・固有ベクトルというものは統計入門の鬼門で、まともに始めるとドップリ数学に浸らないといけません。 何とか簡単なイメージだけでも伝えられないかと思って用意したのが、以下の説明です。 に載せられなかったので、おまけとしてここに公開しておきます。 - 主成分分析・因子分析をひもとくと

    因子分析の固有値・固有ベクトルって何? - 小人さんの妄想
  • Data Science by R and Python

    はじめに ほんと、久々の更新になってしまいました。。。 いまだに月間で1000PVほど見られているようでとてもありがたく思いますm(_ _)m 最近も変わらず因果推論の研究を中心に行っておりますが、それ関連の内容はまた機会をみてblogで書いていければと思っています。 また先日、twitterで公開したこちらのスライドもたくさんの方に見ていただけまして、コメントも頂けたりして、とても嬉しく、励みになっています。 speakerdeck.com また、少しずつではありますが更新いたしますので、たまに覗いていただければ嬉しいです。 では、題にまいります。 今回の更新 とはいっても、今日の更新は、大した内容ではなく、pythonでstepwise regressionの関数で自分がほしいものがないので、つくりましたという内容です。 Stepwise Regressionについて 特に、回帰モデ

    Data Science by R and Python
  • <4D6963726F736F667420506F776572506F696E74202D20323031352895BD90AC323729944E8E86814594C28E8693E08EF98E8E8E5A205B8CDD8AB78382815B83685D>

    sudo1101
    sudo1101 2015/04/20
    印刷・情報用紙の内需は8年連続で減少。ユーザーの節約志向(ペーパーレス化)等により今後も現象継続を見込む
  • リサーチ・ナビ | 国立国会図書館

    リサーチ・ナビは、調べものに役立つ情報を紹介する国立国会図書館の調べ方案内です。 テーマや各種資料ごとに、調査のポイントや参考になる資料、便利なデータベース、使えるWebサイト、関係する機関などを紹介しています。

    リサーチ・ナビ | 国立国会図書館
  • 政府統計の総合窓口 e-Stat

    社会人・大学生に向けたデータサイエンス・オンライン講座 「誰でも使える統計オープンデータ」 統計オープンデータを活用したデータ分析の手法を学習することができる講座です。 令和7年1月14日リニューアル開講(受講料無料) 学ぼう!e-StatとjSTAT MAP 教育機関向けにe-StatとjSTAT MAPの活用方法を解説したサイトです。 e-StatとjSTAT MAPにおける基的な使い方や活用方法について、 中学校や高校の授業における活用等、実際の教育現場を想定し、 統計データを検索・収集から活用までのイメージがしやすいように 解説した動画を提供しております。

    政府統計の総合窓口 e-Stat
  • 山手線リアルタイム混雑情報で遊んでみよう

    去年から公開されてる「JR東日アプリ」ですが、機能の一つに「山手線トレインネット」というものがあります。 これは山手線の各車両の現在位置、混雑状況、室内温が見えるというもので、 座りやすい車両を探すのに便利だったりします。 山手線トレインネットから取得した車両位置と混雑率 電車の運行情報がここまで時間粒度細かく公開されているのは世界的にも珍しいので、特に目的も無しにデータをクローリングして遊んでみました。 データをクローリングする まずは山手線トレインネットの車両位置・混雑情報をクローリングします。 JR東日アプリの山手線トレインネット。 今の車両内の混雑や室内温が見える。すごい! 「山手線トレインネット」はブラウザから見えるページが存在しない、iPhone/Androidアプリ専用の画面です。 なので普段の「FirebugでAJAXの通信を見てAPIをリバースエンジニアリング」ほど簡

    山手線リアルタイム混雑情報で遊んでみよう
  • 日本統計学会認定「統計検定2級」に合格しました - akiyoko blog

    先月11月30日に、統計検定2級を受検してきました。 http://www.toukei-kentei.jp/about/grade2.html そして先日、Web合格発表がアップされ、自身の合格を確認したので、これまでの経緯を書いてみたいと思います。自己採点で正答率74%だったので、まあ大丈夫だろうと思っていましたが、やはり嬉しいものですね。 なお、今回の統計検定2級の合格率は、これまでとほぼ同水準でした。 申込者数: 2267 受験者数: 1625 合格者数: 698 合格率: 42.95 % (http://www.toukei-kentei.jp/exam/exam141130/web.html より) 合格者発表以外にも、成績優秀者には「評価S」「評価A」という発表もあったのですが、 残念ながらそちらには含まれていませんでした。。 気になったので、それぞれの該当人数を数えてみたと

    sudo1101
    sudo1101 2015/02/09
    統計検定うけようかな
  • 主成分分析が簡単にできるサイトを作った - ほくそ笑む

    あけましておめでとうございます。 年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 主成分分析は統計言語 R で簡単にできます。 例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *

    主成分分析が簡単にできるサイトを作った - ほくそ笑む
    sudo1101
    sudo1101 2015/02/09
    簡単にpcaできちゃう
  • http://rgm3.lab.nig.ac.jp/RGM/

    sudo1101
    sudo1101 2015/01/26
    R Graphical Manual, 綺麗なサンプルがいっぱい
  • The best stats you've ever seen

    Go deeper into fascinating topics with original video series from TED

    The best stats you've ever seen
  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
  • StatsFragments

    著者の松浦さんから「StanとRでベイズ統計モデリング」をいただきました。ありがとうございます! 書籍では Stan の R バインディングである RStan を利用していますが、Stan には Python 用の PyStan もあります。松浦さんが書籍 5.1節の PyStan での実行例を書かれています。 statmodeling.hatenablog.com 補足 PyStan については過去にも書いた内容があります。 sinhrks.hatenablog.com 同じように、「StanとRでベイズ統計モデリング」の内容を Python で実施してみました。 11.3 ゼロ過剰ポアソン分布 以降、書籍 "11.3節 ゼロ過剰ポアソン分布" の流れに沿って Python のスクリプトを記載します。ロジックや処理自体の説明は書籍をご参照ください。データと Stan のスクリプトは Gi

    StatsFragments