タグ

統計に関するkananoteのブックマーク (165)

  • ただの微分幾何学徒だった僕がデータサイエンスを何故/どのように勉強したのか - Obey Your MATHEMATICS.

    こんにちは。久々の投稿です。 僕のTwitterをフォローしてくれている方はご存知かと思いますが、4月から機械学習エンジニア/データサイエンティスト(見習い)として働く事が決まりました。 今日六木の某社から正式に内定を頂きましたが、間違いなくTwitterのおかげでありTwitterこそ就活の全てであると確信した次第でございます— マスタケ (@MATHETAKE) 2017年2月23日 良い区切りですので今回はタイトルの通り、ただの純粋数学の学生だった僕がデータサイエンスの勉強を何故/どのようにしてきたのか、についての思い出せる範囲で書こうと思います。 Disclaimer: この記事は基的に、"What I did" に関する記事であって決して "What you should do" についての記事ではありません。そんな勉強方法おかしいとか、こうすべきだ、みたいなマサカリは一切受

    ただの微分幾何学徒だった僕がデータサイエンスを何故/どのように勉強したのか - Obey Your MATHEMATICS.
  • 『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas

    科学における統計の誤用について説明した『ダメな統計学――悲惨なほど完全なる手引書』というの日語版が翻訳され、出版されることになった。この翻訳書について、どういった内容であるか、どういった人におすすめであるかを紹介する。 はじめに このたび、私の翻訳した『ダメな統計学――悲惨なほど完全なる手引書』というが勁草書房から出版されることになった。2017年1月27日ごろから書店などで手に入るようになる予定である。 アレックス・ラインハート〔著〕・西原史暁〔訳〕.(2017).『ダメな統計学――悲惨なほど完全なる手引書』東京:勁草書房. 訳書版元サイトでの紹介:ダメな統計学――悲惨なほど完全なる手引書|勁草書房 訳書版元サイトでの紹介その2(けいそうビブリオフィル):訳書の「はじめに」を閲覧可能 [1] 原書:Reinhart, A. (2015). Statistics Done Wrong

    『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版|Colorless Green Ideas
  • 統計・R・Stan関連の本、用途別のオススメ10冊 - StatModeling Memorandum

    2016 - 12 - 24 統計・R・Stan関連の、用途別のオススメ10冊 書評 R Stan 年末年始向けに、比較的読みやすいを中心にオススメします。 統計学 入門 色々読んでみましたが、現在決定版と言えるものは存在しないように思えました。個人的には、シグマと 積分 の復習、場合の数・数え上げの方法、確率、確率変数、確率密度、度数分布と ヒストグラム 、代表値・平均・分散、確率分布、同時分布、周辺分布、確率変数の変数変換、検定、散布図と箱ひげ図、回帰、相関あたりをRなどを使いながらシンプルに説明していくがあるといいと思うのですが、なかなかバランスのとれたいいがありません。初歩の初歩しか説明してない、グラフが少ない、検定にページを割きすぎ、分厚い、ちょっと難しいなどの不満点があります。立ち読みして自分にあったを選ぶのがいいと思います。ネットで検索して調べるのでもいいと思います

    統計・R・Stan関連の本、用途別のオススメ10冊 - StatModeling Memorandum
  • Rで楽しむ統計 - 共立出版

    Chapter 1 Rで遊ぶ 1.1 Rとは 1.2 簡単な計算 1.3 ヘルプと終了 1.4 データの入力 1.5 データフレーム 1.6 ファイルの読み書きと文字コード 1.7 図の描き方 1.8 パッケージの例:Excelファイルを読む Chapter 2 統計の基礎 2.1 尺度水準 2.2 代表値 2.3 確率変数,乱数,母集団,標 2.4 分散と標準偏差 2.5 中心極限定理と正規分布 2.6 コーシー分布 2.7 正規分布から導かれる分布 Chapter 3 2項分布,検定,信頼区間 3.1 2項分布 3.2 統計的仮説検定の考え方 3.3 統計的仮説検定に関する議論 3.4 多重検定 3.5 信頼区間 3.6 2項分布から正規分布へ 3.7 検定の例:PISAの「盗難事件」問題 3.8 信頼区間の例 3.9 尤度と最尤法 3.10 止め方で結果が変わる? Chapter

    Rで楽しむ統計 - 共立出版
  • 「はじめての統計データ分析」 豊田秀樹のメモ - StatModeling Memorandum

    あとがきと6章のあとにあるQ&Aの節が熱い思いに満ちていてオススメです。2.7節「論文・レポートでの報告文例」もユニークです。学生思いの教育者としての一面を垣間見た気がします。 あとがきに書いてあるように、たしかに初級向けの授業で伝統的な統計学と検定のラッシュを学び、中級以上向けの授業でベイズ統計モデリングを学ぶとしたら、内容の一貫性が乏しく、学ぶ側は(教える側も)違和感を覚えるかもしれません。その点、このではt検定に相当するような簡単なものから一貫してベイズ統計です。 また、各例題に対してリサーチクエスチョン(RQ)をきちんと設け、それに対してMCMCサンプルを使った生成量と予測分布を用いてシンプルに回答していくスタイルは、分かりやすくて読みやすいです。ベイズ統計の長所と思います。 はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学― 作者:豊田 秀樹発売日: 2016/

    「はじめての統計データ分析」 豊田秀樹のメモ - StatModeling Memorandum
  • 年収「300万円未満」や「1000万円以上」の世帯がどの地域に多いのか一目で分かる「世帯の年間収入マップ」

    by Personal Creations 総務省統計局が公開している平成25年住宅・土地統計調査の中には「世帯の年間収入階級(5区分)」というデータがあり、「300万円未満、300万円〜500万円、500万円〜700万円、700万円〜1000万円、1000万円以上」の世帯がどのくらいあるかが調査されているのですが、そのデータを地図上にマッピングしたのが「世帯の年間収入マップ」です。「年収1000万円以上の世帯が5%を超える地域」など指定することで、どの地域にどういう年収の世帯が多いのかが一目でわかるようになっています。 世帯の年間収入マップ http://shimz.me/datavis/mimanCity/ ウェブサイトはこんな感じ。 画面左下から世帯年収を「300万円未満」「300万円~500万円」「500万円~700万円」「700万円~1000万円」「1000万円以上」に設定可能で

    年収「300万円未満」や「1000万円以上」の世帯がどの地域に多いのか一目で分かる「世帯の年間収入マップ」
  • 世界で最も他人に冷たい先進国、日本

    平素は株式会社ライブドアのサービスを ご利用いただきありがとうございます。 提言型ニュースサイト「BLOGOS」は、 2022年5月31日をもちまして、 サービスの提供を終了いたしました。 一部のオリジナル記事につきましては、 livedoorニュース内の 「BLOGOSの記事一覧」からご覧いただけます。 長らくご利用いただき、ありがとうございました。 サービス終了に関するお問い合わせは、 下記までお願いいたします。 お問い合わせ

    世界で最も他人に冷たい先進国、日本
  • ヒットチャートではわからない「真のヒットソング」が音楽配信サービスの統計から浮き彫りに

    By Jeff Blum 1900年代半ばにラジオやレコードが普及して以来、多くのヒットソングが人々の心を惹きつけてきました。時代ごとに「名曲」と呼ばれる楽曲が歴史に名を残してきたわけですが、それらの楽曲が実際にどの程度聞き続けられているのかを把握することは非常に困難なものでした。 しかし、ネットを使って音楽をストリーミング配信するサービスの登場により、その状況は変化しつつあります。2006年にサービスを開始した世界最大級のユーザー数をほこる音楽ストリーミングサービスのSpotifyの再生回数をもとにした統計をとると、「名曲」とはまた別の、当に長く聴き続けられている「真のヒットソング」が別に存在していることが見えてきています。 THE MOST TIMELESS SONGS OF ALL-TIME http://poly-graph.co/timeless/ さまざまなデータにもとづいて

    ヒットチャートではわからない「真のヒットソング」が音楽配信サービスの統計から浮き彫りに
  • 『統計はウソをつく アフリカ開発統計に隠された真実と現実』 こうして数字はつくられる - HONZ

    億万長者になった自分を想像してみよう。生涯で使い切れないほどのお金を手にしたあなたは、サハラ以南アフリカ諸国への援助を考える。数多い国の中で、どの国から投資をすべきか?世界銀行による世界開発指標で国民1人あたりのGDPを調べてみると、コンゴ民主共和国の92米ドルが最も小さなものであることがわかる(書による2009年の調査時点での2000年の値)。 念のために、経済学者にもよく利用される、ペン・ワールド・テーブル(PWT)とアンガス・マディソン(マディソン)のデータセットでも調べてみよう。PWTでもマディソンでも、コンゴ民主共和国の1人当たりGDPが最も小さな値を示している。「先ずはコンゴ民主共和国へ援助金を出そう」、と考えるかもしれない。しかし、これら3つのデータセットで貧困ランキングを作成すると、奇妙な事実が浮かび上がる。例えばPWTでは貧困ランキング7位のギニアが、マディソンでは

    『統計はウソをつく アフリカ開発統計に隠された真実と現実』 こうして数字はつくられる - HONZ
  • メディア接触時間が激減してるのはテレビじゃなく○○だ、という話:調査結果 - 週刊アスキー

    「もうみんなテレビなんてみてない、ネットだ」なんて誰でも知ってる。 でも、当にヤバいのはパソコンという存在かもしれないよ、というデータが発表された。 博報堂DYメディアパートナーズが先週リリースした『メディア定点調査2015』レポートは、”現代のテレビ視聴者の姿”と、メディアと人との付き合い方がこの先どう変わっていくかが見通せる興味深いデータだ。 例年の調査のなかで、パソコン/スマホ/タブレットの合計接触時間がテレビの接触時間を上回ったのは、2014年から。実は比較的最近だ。この3媒体の使われ方は、その大半がネットコンテンツか、それに極めて近いもの(ソーシャルゲームなど)への接触であることは明白だから、「メディア接触時間で、ネットがテレビを上回った」と言われたりする。

    メディア接触時間が激減してるのはテレビじゃなく○○だ、という話:調査結果 - 週刊アスキー
  • 大阪市のオープンデータを使って、ひったくり事件発生個所を視覚化してみた。

    [2016/6/8 data update] 以前、大阪都構想住民投票結果の地図を作った際に、大阪市のオープンデータの中に犯罪発生個所データがあるのを発見したので、そのなかから「ひったくり発生個所」データを視覚化してみました。 大阪市市民の方へ 大阪市の犯罪発生情報 example データの読み込みと整形処理が結構重いので、ページが表示されるまでに時間がかかります。 画面上位にある「被害者の年齢」や「事件発生時刻」のヒストグラムは、バーをクリックするとデータの絞り込みを行えます。グラフの空白部分をクリックすると、絞り込みを解除します。 地図上のエリアをクリックすると下に事件に関するデータを表示します。 めんどうだったこと 公開されているcsvの町名の一部が旧漢字だったため、e-statから取得した町丁目境データと名寄せするのがめんどくさかったです。 来は新漢字に寄せた方がよいのでしょうが

    大阪市のオープンデータを使って、ひったくり事件発生個所を視覚化してみた。
  • 提案書や企画書づくりが驚くほど捗る!無料で入手出来る統計データ総まとめ。

    プロジェクトを開始する前に、市場調査などで統計データを分析し仮説をたてる事は重要ですが、それらの調査対象が世界規模、全国規模になるとコストが掛かりすぎて(特に個人や中小企業の場合)現実的ではありません。 そこで活用したいのが国や団体、民間企業が公開している無料の統計データです。今日はそんなマーケティング担当者ならきっと必見の情報公開を行なっているサイトをご紹介します。 1. 総務省統計局 総務省統計局では様々な統計データが入手可能です。 国税調査 人口推計 労働力調査 小売物価統計調査 土地統計調査 このようなデータはPDF版が一般的ですがExcel形式でダウンロードできるのも魅力ですね。その他にも以下URLより数多くの統計データが入手できます。 また、統計局ではメール配信サービスも行なっています。興味のある方は登録をおすすめします。 www.stat.go.jp 2. 法務省 法務省でも

    提案書や企画書づくりが驚くほど捗る!無料で入手出来る統計データ総まとめ。
  • 統計データ・市場調査データを提供するサービス11選

    業界の市場動向を調べる際に、皆さんはどのように根拠データを入手していますか?自社のホームページに新規コンテンツを立ち上げたい時、どの方向に展開をしていけばそのマーケットを押さえることができるでしょうか。これらを解決するのが、Web上で閲覧できる統計や調査データの数々です。各企業が自社で調査した数値を公開しているものもあれば、国が統計データとして公開しているものもあります。 今回は調査や統計データを入手できるサイト、調査機関のサイトをまとめました。皆さんのビジネスにお役立てください。 ※データの引用や利用にあたり制限がある場合があります。詳しくは各サイトの利用規約などをご確認ください。 統計データや市場調査データが公開されているサービスまとめ 総務省統計局 http://www.stat.go.jp/ 今回紹介する中では最も利用され、また目にする機会も多い調査の一つかもしれません。総

    統計データ・市場調査データを提供するサービス11選
  • 安定の続編・拡大する新作~2015年4月期アニメの二次創作 (1/3)

    この連載では、独自に収集したデータを使って、みんな知ってるようで知らないニコニコ動画やpixivの現在を紹介していきます。今回は恒例の2015年4月開始の春アニメ特集。今期はどんなアニメが人気なのでしょうか。連載一覧→第2期/第1期。 明治大学米沢嘉博記念図書館スタッフでニコニコ学会β実行委員。趣味同人誌やニコニコ動画関連の研究をしてる人。記事に使ったデータ元の『ニコニコ統計データハンドブック2015』など同人誌コミケで頒布。ブロマガでは連載記事の補足も。 Twitterアカウントは@myrmecoleon。関わった著作に『進化するアカデミア 「ユーザー参加型研究」が連れてくる未来』(イースト・プレス刊)。左の画像は筆者を擬人化?して描いてもらったキャラ「ありらいおん子」。男の娘。 リニューアル後の記事公開タイミングは? ●毎月上旬公開の記事では……月刊ニコ動人気タグトレンド ●毎月下

    安定の続編・拡大する新作~2015年4月期アニメの二次創作 (1/3)
  • カード統計"水増し"は、なぜ続いてきたのか (東洋経済オンライン) - Yahoo!ニュース

    クレジットカードの発行枚数は、公表数字の約3億2000万枚に到底届かず、2億6000万枚にも満たなかった──。 【詳細画像または表】  日クレジット協会が公表してきた業界の統計数字について、過去10年さかのぼって調べ直したところ、数多くの過大集計が明らかになった。 前代未聞の不祥事が判明したのは2014年12月26日だ。それから5カ月が経つものの、「いまだに原因や責任の所在についてはきちんとした説明が行われていない」と関係者の間に不満がくすぶる。 ■ 政府や研究者が資料として活用 協会の統計は会員であるクレジットカード会社の任意協力に基づくもの。だが、大半の事業者をカバーしており、公の統計として政府や研究者の間で広く活用されてきた。 たとえば経済産業省が設置した「クレジットカード決済の健全な発展に向けた研究会」の中間報告書(14年7月11日)では、「民間最終消費支出に占める

    カード統計"水増し"は、なぜ続いてきたのか (東洋経済オンライン) - Yahoo!ニュース
  • Expired

    Expired:掲載期限切れです この記事は,産経デジタル との契約の掲載期限(6ヶ月間)を過ぎましたのでサーバから削除しました。 このページは20秒後にITmedia ニュース トップページに自動的に切り替わります。

  • データ匿名化手法

    データがビジネスを駆動する現在、さらなるサービスの進化と利便性を推進するために、個人に関する情報は不可欠です。書は、機微な個人情報を多く含むヘルスデータを題材に、プライバシー保護とデータ有用性という相反する命題をいかに満たすかについて、豊富な実例とともに解説する書籍です。リスクベースの非特定化方法論、横断的データ、縦断的イベントデータ、データリダクション、地理空間の集約、マスキングなどデータの匿名化に必要な事柄を網羅的に解説します。医療者はもちろん、個人のプライバシーを守りつつ、より洗練されたサービスを提供したいエンジニア、データ技術者必携の一冊です。 監訳者まえがき まえがき 1章 イントロダクション 1.1 匿名化すべきか、せざるべきか 1.1.1 同意を得るか、匿名化するか 1.1.2 お金節約する 1.1.3 人目に触れたくない 1.2 匿名化における2の柱 1.2.1 マス

    データ匿名化手法
  • 視聴率よりも録画再生率? テレビ業界、揺らぐ人気指標:朝日新聞デジタル

    数字の大小にテレビ局が一喜一憂する視聴率。格的な調査が始まった1960年代以降、企業がCMを出す際の「広告指標」として、そして番組の人気を社会が共有する「文化指標」としての役割も果たしてきた。しかし近年、テレビの見方が多様化するなかで、曲がり角を迎えている。 3月まで続いた冬季の連続ドラマの最終回。放送中に見た割合を示す世帯視聴率(ビデオリサーチ調べ、関東地区)で比べると、NHKの「マッサン」が23・2%で圧勝。多くの民放ドラマは1桁台に沈んだ。 だが同じビデオ社の調査でも、一般には非公表の1週間以内の録画再生率(タイムシフト視聴率)を見ると、「マッサン」は6・1%。視聴率11・3%だった「ウロボロス」が録画では9・1%と、「マッサン」を上回る。「録画してまで見た番組」とモノサシを変えれば、人気の別の側面が浮かび上がってくる。 日テレビが首位を独走、フジテレビは大苦戦――。世帯視聴率で

    視聴率よりも録画再生率? テレビ業界、揺らぐ人気指標:朝日新聞デジタル
  • 首都圏の子育て人口の転入超過率地図

    政府は「地方創生」を掲げ,東京から地方への人口移動を促そうとしていますが,人の動きを知ることのできる公的な統計資料として,総務省の「住民基台帳人口移動報告」があります。1年間で人口がどれほど入ってきたか,どれほど出て行ったかが地域別に掲載されています。 http://www.stat.go.jp/data/idou/ 地域といっても都道府県単位だろうと思っていたのですが,最近の資料では,区市町村別のも出ているではありませんか。おまけに,5歳刻みの年齢層別の数値も出ています。これを使えば,子育て人口を引き寄せている地域はどこかを,県よりも下りた区市町村レベルで明らかにできます。 私は,首都圏(1都3県)の242区市町村について,25~34歳の転入超過率マップをつくってみました。2014年中の転入人口から転出人口を引いた値を,同年1月1日時点の人口で除した値です。この値がプラスであれば,「転

    首都圏の子育て人口の転入超過率地図
  • 日本の中学生のPC保有率が世界で図抜けて低いことはどういう結果になるか|More Access! More Fun

    昨日、別なことを書こうとして内閣府の調査データを見ていたら、題に触れる前にお腹いっぱいになり、感想を書いたのがバズってしまったのであるが、題はここではなかった。 実はそもそもこの内閣府の調査データを見たのは、こちらのブログを拝見したからです。教育学の専門家である舞田敏彦氏が書かれています。 パソコンを持たない若者 この中で触れられている資料が上記の内閣府のデータであり、それを見ているうちに題に行き着くことができなくなったのが昨日。なので日は核心です。まず上記調査資料には以下のデジタル端末に関する調査もありました。数値だとわかりにくいので棒グラフにしてみます。対象は各国1000サンプル以上、各国満13歳から満29歳までの男女でWEBによる調査です。つまりWEBに接続できない環境の場合は回答もできないので、偏差がかかっています。WEBとの親和性が通常より高めに出るわけです。 最初に書い

    日本の中学生のPC保有率が世界で図抜けて低いことはどういう結果になるか|More Access! More Fun