タグ

統計に関するchi-ron-nu-pのブックマーク (21)

  • NHKさん、ビッグデータかAIかよくわからない視覚化した統計情報のようなもので、相関性が不安になる内容を特番で放送予定 - Togetterまとめ

    ■(2017年7月19日追記)「しがらみのない奇抜な提言は”AI”ではなく製作者側の意図」との証言がありましたので別途まとめました→ https://togetter.com/li/1131398 ■因果関係と相関関係について ・因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き) http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166 ・相関関係と因果関係の違いが一発でわかる具体例5選 http://atarimae.biz/archives/7374 続きを読む

    NHKさん、ビッグデータかAIかよくわからない視覚化した統計情報のようなもので、相関性が不安になる内容を特番で放送予定 - Togetterまとめ
  • データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は2年前の以下の記事のアップデートです。 前回はとりあえずデータサイエンティストというかデータ分析職一般としてのスキル要件として、「みどりぼん程度の統計学の知識」「はじパタ程度の機械学習の知識」「RかPythonでコードが組める」「SQLが書ける」という4点を挙げたのでした。 で、2年経ったらいよいよ統計分析メインのデータサイエンティスト(物:及びその他の統計分析職)vs. 機械学習システム実装メインの機械学習エンジニアというキャリアの分岐が如実になってきた上に、各方面で技術革新・普及が進んで来たので、上記の過去記事のスキル要件のままでは対応できない状況になってきたように見受けられます。 そこで、今回の記事では「データサイエンティスト」*1「機械学習エンジニア」のそれぞれについて、現段階で僕が個人的に考える「最低限のスキル要件」をさっくり書いてみようかと思います。最初にそれらを書

    データサイエンティストもしくは機械学習エンジニアになるためのスキル要件とは(2017年夏版) - 渋谷駅前で働くデータサイエンティストのブログ
  • ExcelでPowerQueryを使ってデータ収集分析 - Qiita

    はじめに Excelにデータを集めようとするとき、数式とVBAを駆使して行う方法が一般的です。 キーを使って複数のデータを結合するときには、Accessなども用いられます。 ですが、データが増えてくると下記のような課題が発生してきます。 収集に必要な手順が増え、数式やVBAが複雑化する データ収集に長い時間がかかる サイズが巨大化して格納しきれなくなる これらの課題を解消するツールとして PowerQuery を紹介します。 PowerQueryとは 2016年に公開されたMicrosoft製のデータ分析Excelアドインであり、Excel2010以降に対応しています。 ファイル・DBWebサービス等からデータを読み込み、変換・加工してExcelのシートに出力できます。 VBAのマクロの記録と同じように、画面上で操作するとクエリ(読み込み手順の定義)が生成されます。 複雑な加工をしない

    ExcelでPowerQueryを使ってデータ収集分析 - Qiita
  • 日本の深刻な殺人離れ

    須藤玲司 @LazyWorkz うちの親がニュース見ながら「最近は殺人が増えとるなあ…昔よりもずっと。こわいわあ」とか寝言ぬかすんで、ちょっと待てババアあんたらの時代よりおれらの時代のほうがずーっと日は良くなっとるんや、殺人なんか8割減やでと数字を見せつける朝。 pic.twitter.com/KqCTGeyLr1 2016-09-14 08:08:43

    日本の深刻な殺人離れ
  • 真の失業率──2015年1月までのデータによる更新 - 備忘録

    完全失業率によって雇用情勢を判断する場合、不況時に 就業意欲を喪失し労働市場から退出する者が発生することで、完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果(就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。今回は、推計の基礎となる潜在的労働力率を2014年まで延長推計た上で、12月までの結果を過去に遡って再計算した。 まず、年間の結果をみると、足許の2014年の真の失業率は4.3%で、前年よりも1.0ポイント低下した。また、公表値の完全失業率3.6%に対して0.7ポイントの開きがある。前回の推計値と比較すると、潜在的労働力率が変化したことにより、真の失業率は上振れしている(2014年の値で約0.3ポイント程度の上振れ)。改訂による年齢階級別潜在的労働力率の上昇幅の程度は、これまでよりも大きなものとなっており、そ

    真の失業率──2015年1月までのデータによる更新 - 備忘録
  • 真の失業率──2013年12月までのデータによる更新 - 備忘録

    ※誤りを修正しました。(02/08/14) 完全失業率によって雇用情勢を判断する場合、不況時に就業意欲を喪失し労働市場から退出する者が発生することで、完全失業率が低下し、雇用情勢の悪化を過小評価することがある。この効果(就業意欲喪失効果)を補正し、完全失業率とは異なる方法で推計した「真の失業率」を最新のデータを加えて更新した。 完全失業率(季節調整値)は3.7%と前月よりも0.3ポイント低下した。真の失業率についても、完全失業率と同様大幅な低下となり、4.4%(前月差0.2ポイントの低下)となった。完全失業率 (公表値)と真の失業率との乖離幅は、前月よりも0.1拡大し0.7ポイントとなった。 よって、完全失業率と物価上昇率の関係をみても、雇用が改善しない中で物価だけが上昇するスタグフレーション的状況は生じていない。給与の伸びが弱い中で物価が上昇し、勤労者の実質購買力が低下したことで、勤労者

    真の失業率──2013年12月までのデータによる更新 - 備忘録
  • ビッグデータもバズワードになったんだなあ - やまもといちろうBLOG(ブログ)

    取引先とのメールで話題爆発(というか面白がり)していた。移動中なので、軽く触れる。先月の記事なんだね。箇条書きにするお。 屋とデータマイニングと季節外れの冬物衣料 http://d.hatena.ne.jp/AntiBayesian/20130423 前提: 内容をすべて否定するものではない。そういう見解も成立するし、ためにする議論ではない。 その1: 「データマイニングに必要なのは意外性だ!」 そもそも意外とか仮説の段階で言っているとしたら、それは使えないデータ担当者だ。クビにするべき。 その2: これを利用して小売店や流通業界はデータマイニングをした。どんな意外性のある結果が出てきたと思う?例えばこんなものだった。「冬は鍋の検索回数が多い」 なんたる自明! 小売や流通は常に売り場面積や仕入れ対販売という係数に支配されていて、いつまで鍋が検索されて需要があるかというようなロングテール的

    ビッグデータもバズワードになったんだなあ - やまもといちろうBLOG(ブログ)
  • ベイズ統計分析ハンドブックは神本! - Fire and Motion

    なんかダンコーガイみたいなエントリータイトルです(そういえば最近ダンコーガイどうしてるんだろ…).さて,仙台にはジュンク堂が駅前に3つあり,その中でイービーンズに入っているのが一番専門書がしっかり揃っていて良いです.というか,3つもいらないし,ちゃんと1つ大きいのが欲しいなぁ...池袋ジュンク堂が近かった自分としては仙台の残念なところは良い大きな屋さんがないところですね. で,最近ノンパラベイズを少しだけ勉強しようと思っていて(がっつりではない),でもそのレベルだとなかなか良い資料が見当たらない.暇なときに目を通すレベルであれば,持橋さんや上田さんによる良い資料・チュートリアルがあるのですが,それ以上のこととなると真面目に論文を読むしかない.たとえば,真面目にDirichlet過程の導出と意味を理解しようとするとFerguson (1973)を読む必要があるでしょうし,そのアプリケーショ

    ベイズ統計分析ハンドブックは神本! - Fire and Motion
  • 少しずつ、確実に増す生活の厳しさ…エンゲル係数の推移をグラフ化してみる - ガベージニュース

    ・(実)収入……世帯主の収入(月収+ボーナス臨時収入)+配偶者収入など ・支出……消費支出(世帯を維持していくために必要な支出) +非消費支出(税金・社会保険料など) +黒字分(投資貯金など) ・エンゲル係数……料費÷消費支出 となる。元々エンゲル係数そのものはドイツの社会統計学者エルンスト・エンゲル(Ernst Engel)が提唱したもので、「家計の消費支出に占める飲費割合が高いほど生活水準は低い」という説に基づいている。よほどの富裕層(そしてそれらはごく少数)でない限り、費の額に大きな違いは出ず、一方で費そのものはどの家庭でも必ず発生する。よって、全体の支出に占める比率は、消費支出そのものが大きくなるほど低くなる・費以外の項目に割り当てられる額が大きくなるという考え方。 現在では商品価格の水準や生活様式が同じもの同士でないと比較にならない、農村部の住民は自前で主や野菜を自

    少しずつ、確実に増す生活の厳しさ…エンゲル係数の推移をグラフ化してみる - ガベージニュース
  • TechCrunch | Startup and Technology News

    When it comes to the world of venture-backed startups, some issues are universal, and some are very dependent on where the startups and its backers are located. It’s something we…

    TechCrunch | Startup and Technology News
  • 私はこうやってマーケティングデータを集めています。 : LINE Corporation ディレクターブログ

    今年も熱い夏がやってきました。ロックフェスと事業計画の熱い夏が! というわけでこんにちは、佐々木です。 今回は、「予算(事業計画)って、どうやって(何を根拠に)立てているんですか?」というスタッフの質問に答えるために、事業計画のために集めた資料の出典を紹介します。 なお、資料の多くは私が担当するブログ関連事業のものですので、ネットならではのマーケティングデータの集め方といった内容になります。限定的な分野ですが、なにかの参考になれば幸いです。 総務省 情報通信政策研究所(IICP) ・総務省 情報通信政策研究所 まずは総務省調べのデータ。 大規模なリサーチ結果を無料で利用できるので、とても重宝します。 例1)「ブログ・SNSの経済効果の推計」(PDF) 例2)「ブログの実態に関する調査研究」報告書文(PDF) 矢野経済研究所 ・矢野経済研究所 ブログ関連の市場調査で優れたレポートを発表して

    私はこうやってマーケティングデータを集めています。 : LINE Corporation ディレクターブログ
  • 世帯所得の低下が意味するもの - himaginary’s diary

    ちきりん氏の7/30エントリが多くのはてブを集めている。そのエントリでちきりん氏は、厚生労働省の国民生活基礎調査を元に、日の各年齢層の世帯所得が1994年から2007年の13年間に低下していることを指摘している。ちきりん氏はまた、中でも50歳代の所得の低下が大きいことを取り上げて、この傾向を外挿すると、現在の30〜40歳代の人たちの所得は将来かなり下がっていくことになる、という悲観的な見通しを示している。 はてブの多くは指摘内容に賛同しているが、ちきりん氏の統計の扱い方に批判的なコメントも見られる。そこで、ちきりん氏の分析をもう少し深堀りしてみて、何か新たな考察が得られるかどうか見てみよう。 はてブの統計的な面の指摘で多かったのが、名目値ではなく実質値ではどうなるか見てみたい、という点である。そこで、国民所得統計の国内家計最終消費支出デフレータを用いて、2007年のデータを1994年ベー

    世帯所得の低下が意味するもの - himaginary’s diary
  • ベイズを学びたい人におすすめのサイト - download_takeshi’s diary

    ベイジアンフィルタとかベイズ理論とかを勉強するにあたって、最初はなんだかよくわからないと思うので、 そんな人にお勧めのサイトを書き残しておきます。 @IT スパム対策の基技術解説(前編)綱引きに蛇口当てゲーム?!楽しく学ぶベイズフィルターの仕組み http://www.atmarkit.co.jp/fsecurity/special/107bayes/bayes01.html いくつかの絵でわかりやすく解説してあります。 自分がしるかぎり、最もわかりやすく親切に解説してる記事です。数学とかさっぱりわからない人はまずここから読み始めるといいでしょう。 茨城大学情報工学科の教授のページから http://jubilo.cis.ibaraki.ac.jp/~isemba/KAKURITU/221.pdf PDFですが、これもわかりやすくまとまってます。 初心者でも理解しやすいし例題がいくつかあ

    ベイズを学びたい人におすすめのサイト - download_takeshi’s diary
  • 図録▽失業率の高さと地域格差についての国際比較

    雇用情勢については地域的な格差が問題となることが多い。我が国の地域格差は他国と比べてどの程度なのであろうか。図には、OECDのデータベースにより、失業率の高さと地域格差をあらわした。 OECD諸国の失業率はレベルがさまざまであるが、国内における大きな地域間格差が国別格差の陰に隠れている。2013年の失業率の地域間格差幅はOECD諸国の6カ国で10%ポイントを上回っている。 図に掲載したOECD32カ国(ルクセンブルク、エストニアを除く)の中で日の失業率の水準は下から3番目と低い部類に属する。日と比べ欧米の失業率は変動が大きい点にも留意する必要がある(図録3080参照)。 日の地域格差は47区分でも最大(沖縄)と最小(福井)の差が3.1%ポイントであり、上から22位と比較的小さい。その場合、最大と最小の倍率を格差率として算出すると日は2.19倍であり、32カ国中15位となり、格差は中

  • Amazon.co.jp: 入門ベイズ統計―意思決定の理論と発展: 松原望: 本

    Amazon.co.jp: 入門ベイズ統計―意思決定の理論と発展: 松原望: 本
  • 『入門ベイズ統計』の読みどころ - hiroyukikojima’s blog

    今回は、前回の日記の補足。 前回の統計学の面白さはどこにあるか - hiroyukikojimaの日記で松原望先生の 入門ベイズ統計―意思決定の理論と発展 作者: 松原望出版社/メーカー: 東京図書発売日: 2008/06メディア: 単行購入: 107人 クリック: 2,061回この商品を含むブログ (46件) を見るを紹介した。そのときは、このを手にしていなかったので、早速注文した。そして今、手に入って、ぱらぱらと眺めてみた。そう、予想通り、これは名著『統計的決定』放送大学に大幅加筆をしたものだった。というわけで、紹介してしまった手前、責任をもってもうちょっとフォローしなければ、と思ってこれを書いている。 このは確かに名著である。その理由をいくつか挙げてみよう。まず挙げるべきは、 ベイズ推定の哲学的背景について包み隠さず正面から書いている という点である。前回も書いたが、ベイズ推

    『入門ベイズ統計』の読みどころ - hiroyukikojima’s blog
  • 年収ラボ-最新の平均年収・給料・賃金動向を調査-

    100以上の業界と3,500を超える企業の年収データを平成26-27年版に更新。 気になる業界や企業をランキング形式で掲載。各企業ページには平均年収をはじめ、売上高や利益推移のグラフも掲載。 17.07.03 下記コンテンツを更新しました。 更新!有効求人倍率の推移(5月分) 更新!完全失業率の推移(5月分) 17.06.05 下記コンテンツを更新しました。 更新!有効求人倍率の推移(4月分) 更新!完全失業率の推移(4月分) 17.05.01 下記コンテンツを更新しました。 更新!有効求人倍率の推移(3月分) 更新!完全失業率の推移(3月分)

  • 有効求人倍率の推移表

    有効求人倍率の推移年有効求人倍率有効求人数有効求職者数就職件数1990 1.40 1,814,807 1,294,185 113,3321991 1.40 1,805,631 1,290,153 106,7091992 1.08 1,553,333 1,433,026 108,2841993 0.76 1,275,820 1,669,074 111,7471994 0.64 1,186,463 1,848,098 120,6281995 0.63 1,233,449 1,954,365 126,6841996 0.70 1,393,689 1,980,970 128,6801997 0.72 1,493,094 2,070,944 132,3061998 0.53 1,265,216 2,394,818 137,30019990.481,206,889 2,529,993 144,1772

    有効求人倍率の推移表
  • 少年犯罪データベースドア:平成19年(2007)の殺人発生数は戦後最低

    2008年02月12日03:34 平成19年(2007)の殺人発生数は戦後最低 2/1に警察庁が去年の犯罪統計を発表したんですが、殺人の認知件数は1,199件で平成3年の1,215件を下回って戦後最低を記録しました。 検索した限りでは新聞はどこも報道していないようなんですが、テレビでもあつかってないでしょうか。これは大ニュースだと思うのですが。 ほんとにどこも報道していないのなら、こっちのほうも大ニュースですな。少年犯罪データベースのほうが新聞やニュース番組よりも正しい情報を流しているということが、これではっきりと時系列で示されたわけです。今日はウェブがとうとうマスコミを超えた記念日となりました。 ほんとですかいな。いくら日の報道機関が腐り切っているのは自明とは云え、これはさすがに信じられん。私が見逃しているだけなんでしょ。誰かそうだと云って。 情けないことに、ブログでも記している人が見

    少年犯罪データベースドア:平成19年(2007)の殺人発生数は戦後最低
  • 「平均のひとつ覚え」から卒業 〜社会人なら知らなきゃ恥ずかしい統計の基礎知識 | Web担当者Forum

    1日あたりの訪問者数を単純に平均すると次のようになる。 単純な平均訪問者数:4699人 しかし、このサイトは週末のアクセス数は平日の数分の1しかないため、平日と週末を分けて考えてみるのもいいだろう。そこで、平日と週末でそれぞれ平均を出すと、次のようになる。 平日の平均訪問者数:6223人 週末の平均訪問者数:888人 これで、平日は6223人より少なければ「アクセスが少なかった」、週末は888人より多ければ「アクセスが多かった」と判断していいのだろうか。 週末の平均はたしかに代表的な数値となっているが、どうも平日の平均がおかしい。グラフを見ても、ほとんどの平日は5000人以下と、平均よりも1000人以上少ないアクセス数になっている。 よく見ると9月14日のアクセス数が非常に多い。この日は、あるページがヤフーニュースで紹介されたために、非常に多くの人がサイトを訪れていたのだ。ヤフー以外にも人

    「平均のひとつ覚え」から卒業 〜社会人なら知らなきゃ恥ずかしい統計の基礎知識 | Web担当者Forum