タグ

統計に関するgmdualis479のブックマーク (15)

  • データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ

    追記(2017年7月) こちらのスキル要件ですが、2017年版を新たに書きましたので是非そちらをご覧ください。 「データサイエンティストというかデータ分析職に就くためのスキル要件」という話題が某所であったんですが、僕にとって馴染みのあるTokyoR界隈で実際に企業のデータ分析職で活躍している人たちのスキルを眺めてみるに、 みどりぼん程度の統計学の知識 はじパタ程度の機械学習の知識 RかPythonでコードが組める SQLが書ける というのが全員の最大公約数=下限ラインかなぁと。そんなわけで、ちょろっと色々与太話を書いてみます。なお僕の周りの半径5mに限った真実かもしれませんので、皆さん自身がどこかのデータサイエンティスト()募集に応募して蹴られたとしても何の保証もいたしかねますので悪しからず。 統計学の知識は「みどりぼん以上」 データ解析のための統計モデリング入門――一般化線形モデル・階層

    データサイエンティストというかデータ分析職に就くための最低限のスキル要件とは - 渋谷駅前で働くデータサイエンティストのブログ
  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
  • 【マーケッター必見!】市場調査や企画書作成に役立つ統計データ20選!|経営・戦略|経営ハッカー

    欲しいデータがズバリ手に入るサイトをまとめました! 市場調査をしているときや企画書を作成しているときに、「欲しいデータが見つからない…」なんてことがよくあるのではないでしょうか? そこで、今日は、データが手に入れられるデータをまとめ、統計データを効率的に得て、上手に活用するコツをまとめました。 【目次】 政府系の統計データ3選 リサーチ会社等の公開データ17選 データを探し、上手く利用するには? 政府系の統計データ3選! まず、無料で充実した情報が手に入るのが、政府や官公庁のサイトです。 皆様が払った税金でつくられているものなので、有効に活用しましょう。 1:総務省統計局 総務省統計局では、無料で多くのデータが手に入ります。 手に入るデータのカテゴリーとしては、人口・世帯、住宅・土地、家計、物価、労働などがあります。また日全体だけではなく地域ごとのデータも手に入ります。 また、このサイト

    【マーケッター必見!】市場調査や企画書作成に役立つ統計データ20選!|経営・戦略|経営ハッカー
  • 国が本気出してきた?総務省の『アプリDe統計』が案外お気に入り - ゆめ見るディオスクロイ

    photo by labguest 必ず知らなくてはいけないものではないけれど、ちょっと気なるし知れば「ほほ~」となる知識。それが統計データです。とはいえ明確な目的もなく総務省や厚生労働省のサイトに行って統計データを眺めるというのもちょっとアレですよね。そんな現状を打破するべく、総務省がやってくれました! 総務省統計局と統計センターは、4月15日、統計のオープンデータ高度化への取り組みの一環として、Android搭載スマートフォン向けの統計情報提供アプリ「アプリDe統計」試行版の提供をGoogle Playで開始した。価格は無料。 総務省、統計を身近に感じられるAndroidスマートフォン向け情報提供アプリ「アプリDe統計」 このアプリには3つの機能があり ① 「City Stat」:今、自分がいる場所の市区町村の統計データをスマートフォンのGPSと統計API機能を連動させ表示 ② 「ポケ

    国が本気出してきた?総務省の『アプリDe統計』が案外お気に入り - ゆめ見るディオスクロイ
  • 日本郵便がひそかにやっていたサービスが熱い!DMのリーチ確率が上がる画期的なサービスとは? - 働き者ブログ

    Photo by TatsuoYamashita (2014年4月12日21時追記) 【日郵便がやっている知られざるサービス】 こんばんは。 今日は少しお仕事のことを。 お客さんの案件で、広告の手段としてダイレクトメール(DM)を送ることがあるのだが、そこで知った日郵便がやっている便利なサービスを紹介したいと思う。DMは古典的な販促手法とも思われがちだが、その効果はバカにできない。作り方や送り先をきちんと設定できればまだまだ現役の告知方法なのだ。 そのDMを送る、ということになると普通は住所と名前が分かる顧客リストが必要になるのだが、日郵便のサービスで「配達地域指定郵便物(タウンメール)」というものがある。 これは送り先の住所と名前が分かっていなくても、送りたい”エリア”を指定して各家庭に送ってもらうサービスだ。たとえば新規オープンするお店や、キャンペーンの案内などを送りたいときに、

    日本郵便がひそかにやっていたサービスが熱い!DMのリーチ確率が上がる画期的なサービスとは? - 働き者ブログ
  • 機械学習や統計に関する情報収集 - Qiita

    機械学習界隈の情報収集方法 http://d.hatena.ne.jp/kisa12012/20131215/1387082769 いきなりですが上記の記事に機械学習に関する有力な情報源がまとまっています。まずはここを参考にするのが良いかと思います。ただ情報が多すぎですので、筆者は Wikicfp と arXiv.org あたりの論文、それにはてなブックマークをチェックしています。 また論文については機械学習の論文を探すにも良い情報がまとまっています。こちらも参考になります。 機械学習は日進月歩の世界ですので、最新の査読済み論文を追って概略だけでも理解する能力を身に付けると良いかと思います。 書籍としては次の 2 冊が聖書とも言える必読書で、気で機械学習をやりたければ必ず参考になるかと思います。 パターン認識と機械学習 (上・下) http://www.amazon.co.jp/dp/4

    機械学習や統計に関する情報収集 - Qiita
  • そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ

    データサイエンティストブームが去りつつある一方で、データ分析ブームそのものはじわじわと広がり続けている感じのする昨今ですが。最近また、色々なところで「当にビジネスやるのに統計学って必要なの?」みたいな話題を聞くことが増えてきたので、何となくざっくりまとめて書いてみました。 ちなみに今回の話題の参考図書を挙げようと思ったら、この辺ですかね。 とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた― 作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行この商品を含むブログ (13件) を見る 統計学入門 (基礎統計学) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (78件) を見る 当は赤

    そもそもビジネスの現場ではどういう「レベル」の統計学を使うべきなのか - 渋谷駅前で働くデータサイエンティストのブログ
  • カイ二乗検定 - 大人になってからの再学習

    キーワード:統計、カイ2乗検定(χ2乗検定) 観測データの分布には誤差が含まれるため、理論的に求まる分布と完全には一致しない。 そこで次のような疑問がおこる。 「観測されたデータの分布は、理論値の分布とほぼ同じと見なせるだろうか?」 これを判断するのがカイ2乗検定。 それにしても、「ほぼ同じ」って。。その表現は曖昧じゃない? 曖昧に見えるかもしれないけど、この「ほぼ同じ」という表現は、確率できちんと表すことができる表現で、 「ほぼ同じ」=「5%の確率で違うかもしれないけど、95%の確率で同じと言ってしまって大丈夫!」 というような意味を持つ。 カイ2乗検定によって次のような問いに答えることができる。 (例1)通行人100人を無作為に抽出したら男:女の比率が59:41だった。これは「男女比が1:1の集団から、ランダムに抽出された100人である」と言えるか。(このくらいのバラつきは普通にあるこ

  • データサイエンスのお奨め教科書。統計屋さん的視点から - hotokuとは

    知人に、確率・統計を勉強するにはどんなん読んだら良いんかね?と聞かれたので、まとめる。 線形代数 統計を勉強しようと思ったら、先ず、線形代数を勉強するのが良いと思う。回帰分析とか主成分分析とか多次元尺度構成法とか、こういう有名ドコロが一発で分かる。線形代数を知らずに統計ので「コレコレの計算で出てきた値が第一主成分だよ」みたいな説明を何回くり返し読んでも、多分、一生理解出来無いと思う。対称行列は直交行列で対角化出来るよね、とか、これは射影行列の形だね、とかが自然に分かるようになってから、統計のを読むとよく理解出来る。 で、線形代数のお奨めはこれ。 プログラミングのための線形代数 作者: 平岡和幸,堀玄出版社/メーカー: オーム社発売日: 2004/10/01メディア: 単行購入: 27人 クリック: 278回この商品を含むブログ (90件) を見るプログラミングのための…とあるんだけど

    データサイエンスのお奨め教科書。統計屋さん的視点から - hotokuとは
  • 決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法

    CEDEC2013にて発表させていただいた内容の一般公開用スライドです。 ネットサービスの基中の基とされるKPI 「DAU(Daily Active Users)」。売上の分解にも使いやすく、複数のサービスを比較するときには必須の指標です。しかし、運営の現場では「ノイズが多くて使いにくい」「経営者(えらい人)にサービスの状況の誤解を与える」という扱いを受けがちな指標でもあります。 セッションの内容 : セッションでは、ソーシャルゲームのDAUを題材に、測り方にほんの少し工夫(工夫の方法は汎用的なものです)を加えることで、DAUを現場の肌感覚にもあう指標に変身させる方法、特に、運営期間が長くなったサービスにおける課題抽出に活用する方法をご紹介します。 発表日時 : 2013年8月23日(金) 16:30~17:30 詳細URL : http://cedec.cesa.or.jp/201

    決定版:サービスの盛り上がり具合をユーザの数(DAU)から読み解く方法
  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれたが多いが、日語で書かれたも若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

    オンラインで無料で読める統計書22冊|Colorless Green Ideas
  • Rから利用するオープンデータAPI

    2013年10月8日に開催された標記勉強会で使用したスライドです。オントロジーエディタprotégéの使い方について、簡単な例を用いて説明しています。内容は入門レベルです。

    Rから利用するオープンデータAPI
  • むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )

    はじめに なぜか唐突にRブームが俺の中でやってきてしまってどうしようもないので、Rのを注文しまくってたりしていたら、下のようなの山が出来てしまいました。 これらのを付箋でペタペタしながら読み進めていくうちに、段々とRというのはどういう言語で、どういう風に勉強するといいのか、という方針が固まってきたので、ここにメモをしておきます。 Rとはどのような言語か 一言で、しかも乱暴に言ってしまうならば「統計に特化したPHP」というのが一番雰囲気を伝えられるかもしれない。いや、PHPの悪評は知っているし、ガチでRをやっている人にとっては嫌がられることもわかっているけど、あえてそういう説明が、あくまで入り口としてはわかりやすいのではないかと。 どういうことかというのを言い訳します。 自分が読んだ感じだと、統計というのは、「何らかのデータ」と「分析するためのツールとしての数式」と「その数式が意図する

    むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )
  • 無料で利用できるデータベース&レファレンスサービスまとめ

  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
  • 1