タグ

統計とdataに関するmkawanoのブックマーク (19)

  • 「首つり自殺数」と「アメリカの科学・宇宙・テクノロジーに関する支出」など無関係のデータ同士で相関性をむりやり発見する「Spurious Correlations」 - GIGAZINE

    ほんのわずかな初期の要因の変化が最終的に思いがけないほど差のある結果を招く現象を「バタフライ効果」と呼びますが、そんな現象は身近なところでも起こっているのかもしれないと思わせるような、一見すると関係のない2つのデータに相関性を見いだすプロジェクトが「Spurious Correlations」です。 Spurious Correlations http://www.tylervigen.com/ 1999年~2009年までの「アメリカの科学・宇宙・テクノロジーに関する支出」と「首つり自殺数」の上昇傾向が一致。 「水泳プールでの溺死数」と「ニコラス・ケイジの映画出演数」が、なぜか似たような傾向で上下しています。つまり、ニコラス・ケイジが映画に出演しなければプールでの事故が激減するのかもしれません。 「アメリカ人1人あたりのチーズ消費量」と「ベッドシーツに絡まって死亡する数」がほぼ一致。 「ア

    「首つり自殺数」と「アメリカの科学・宇宙・テクノロジーに関する支出」など無関係のデータ同士で相関性をむりやり発見する「Spurious Correlations」 - GIGAZINE
  • データサイエンティストの賞味期限は夏までです。 - チャランポランナーの独白

    2014-02-05 データサイエンティストの賞味期限は夏までです。 論 思いつき 触れたら負けだと思っていましたが、もう負けでいいです。チャランポラナンナーです。 なんなんですかね?これは!!! 連載・データサイエンティストの視点: 「きのこの山」VS.「たけのこの里」戦争に決着!? 購買データ分析で“大差”あり http://www.itmedia.co.jp/news/articles/1402/04/news016.html この連載の立て付けは、 データ分析の専門家・データサイエンティストが身近な話題をテーマに分析結果を紹介していく企画。 ですよね??? データサイエンティストといえば、どっかの誰かが今後最も露出狂*1な職業といったあのデータサイエンティストですよね? データマイニングができ、アナリストとして一流で且つマーケットを語れるスーパーマン、データサイエンティストです

    データサイエンティストの賞味期限は夏までです。 - チャランポランナーの独白
  • スマホ保有率は55.2%で半数超え、男性50.1%、女性58.9%~博報堂DY調査 

  • 博報堂DYグループ・スマートデバイス・ビジネスセンター、「全国スマートフォンユーザー1000人定期調査」第8回分析結果を発表 |ニュースリリース|博報堂 HAKUHODO Inc.

    博報堂DYグループ・スマートデバイス・ビジネスセンター、「全国スマートフォンユーザー1000人定期調査」第8回分析結果を発表 2014年1月20日 株式会社博報堂DYホールディングス 株式会社博報堂DYホールディングスのグループ横断型組織「博報堂DYグループ・スマートデバイス・ビジネスセンター」は、日のスマートフォンの 普及状況を浮き彫りにするため、「全国スマートフォンユーザー1000人定期調査」を実施しております。この度、2013年11月に行った第8回調査の結果 をご報告致します。 ■全国スマートフォンユーザー1000人定期調査 ・スマートフォン保有者は前回(2013年8月)より7ptアップの55.2%に増加 ■スマートフォンでのネットショッピングサービス利用に関する分析レポート ・スマートフォンでのネットショッピングサービス利用経験は65% -スマートフォンユーザーの4人に1人が「週

    博報堂DYグループ・スマートデバイス・ビジネスセンター、「全国スマートフォンユーザー1000人定期調査」第8回分析結果を発表 |ニュースリリース|博報堂 HAKUHODO Inc.
  • DATA GO JP/open data

    データセット データセットとは、ファイルやURLなどの「オープンデータ」が登録された入れ物を指します。 データポータルでは、複数の切り口からデータセットを探すことができます。

  • 政府、オープンデータ活用サイトを12月20日に開設 全省庁1万のデータ群を開放する「DATA.GOV」日本版 - 日本経済新聞

    政府は2013年12月20日、国が保有するデータを無償で入手できるポータルサイトの運用を始める。全省庁が参加し、統計や調達、防災などに関連する約1万個のデータ群が最終的に公開される見通しだ。企業や公共団体がこれらのデータを活用し、低コストかつ短期間にアプリケーションやサービスを開発できるようになる。政府のサイト名称は「データカタログサイト」。広く開かれた利用が許可されているデータをオープンデー

    政府、オープンデータ活用サイトを12月20日に開設 全省庁1万のデータ群を開放する「DATA.GOV」日本版 - 日本経済新聞
  • 都道府県別の大学進学率

    現在では同世代の2人に1人が大学に進学しますが,大学進学率は,この2年間続けて下がっている模様です。2011年春が51.0%,2012年が50.8%,そして2013年が49.9%なり。 これは浪人込みの進学率ですが,浪人込みの率なんて出せるのか,という疑問もあるかと思いますので,当局の計算方法を説明いたしましょう。 大学進学率とは,同世代のうちどれほどが大学に進学したかという指標です。ベースは高卒者ではありません。文科省の『学校基調査』からこの値を計算する場合,当該年に大学に入った者の数を,推定18歳人口(3年前の中学校・中等教育学校前期課程卒業者)で除すことになります。 http://www.mext.go.jp/b_menu/toukei/chousa01/kihon/1267995.htm 分子の大学入学者数には,より上の世代(いわゆる浪人生)も含まれますが,当該年の18歳人口から

    都道府県別の大学進学率
  • 単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ

    一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。 ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり

    単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ
  • 進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!

    はじめに 最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。 これだけ人気なんだからきっと面白いに違いないのですが、 なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、 なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、 そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。 そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。 扱うデータとして、pixivのタグ情報を利用します。 商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、 そこに付与されるタグ情報は、ファンの熱(過ぎる)いメッセージが込められているに違いありません。 今回、以下のような縛りを入れています。 1.勿論原作は見ない 2.pixivのタグ情報は参照するけど、

    進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ!
  • 2013年東京都議選の簡単なデータ分析: 311後の日本の政治論壇

    東京都議選について簡単な分析を行ったのでここで紹介しておきたい。 自公圧勝の背景  都議選についての個人的な注目点は、現在の安倍自民党の世論調査に見られる数値上の「好調さ」がどの程度選挙結果に反映されるかである。2012年衆院選では、自民党は議席数では大勝を収めたものの、得票数などのデータは大敗を喫した2009年に比較しても悪化していた。有権者のうち比例区で自民党に投票した割合(絶対得票率)は17%以下であった。その後、株価の上昇等に代表される景気の気の部分の向上もあり、安倍内閣と自民党の支持率は高く推移している。  しかし、世論調査結果と選挙結果は単純にリンクするものではない。また内閣支持率は、政党支持が流動化している現在では乱高下しやすい状況にある(『「政治主導」の教訓』所収の拙稿参照)。世論調査だけでなく、実際の選挙結果でも、安倍自民党の支持が着実に浸透しているのかどうか、2012年

  • 総務省|報道資料|統計におけるオープンデータの高度化

    総務省は、政府統計のポータルサイトであるe-Statなどで広く公開している政府統計データについて、より高度な利用を可能とする取組についてまとめました。 総務省統計局は、政府統計の中核的機関として、人口や事業所・企業、消費など国の基幹となる重要な統計を作成しております。データ提供の面においても、e-Statを通じ広く公開してきました。 (政府統計の総合窓口(e-Stat) http://www.e-stat.go.jp) 現在、政府全体でオープンデータへの取組を推進しているところですが、これらの取組をリードする総務省として、政府統計の情報提供のかたちを更に高度化すべく検討を行い、独立行政法人統計センターと協力し、トップランナーとして次のような取組を進めています。具体的には次の3つです。 (1)API機能による統計データの高度利用環境の構築 (2)統計GIS機能の強化 (3)オンデマンドによる

    総務省|報道資料|統計におけるオープンデータの高度化
  • 気象庁|過去の気象データ・ダウンロード

    推奨ブラウザ : Microsoft Edge(最新版), Mozilla Firefox(最新版), Google Chrome(最新版) ご利用にあたっての注意事項 一回にリクエストできるデータ量には上限があります(コンテンツ右上棒グラフ参照)。 アクセス集中時や一回のデータ量が多い場合、繋がらないことやデータ取得に時間がかかることがあります。繋がらない場合は時間をおいて再度お試しください。 アクセス集中の原因となりますので、自動化ツール等による過度のアクセスはお控えいただくようお願いいたします。 新着情報 気象官署の移転及び風向風速計の移設に伴い、平年値の一部を更新しました。詳細は「2020年平年値の更新について」(PDF形式:381KB)をご覧ください。(2023.5.17) 更新履歴 データ修正のお知らせ 「四日市」(三重県)において、観測環境が悪化していたため、2016年10月

  • データ作法

    [2019-02-04] ざっと改訂した。 [2020-10-03] 最後に追記を設けた。 [2023-10-13] Excelの問題はかなり改良された。詳しくはExcelCSV ファイルを扱う場合の注意参照。 はじめに 例えば日の人口は1.26億人であるといった個々の「事実」は自由に伝達できる(著作権法第十条2「事実の伝達にすぎない雑報及び時事の報道は、前項第一号に掲げる著作物に該当しない」)が,事実を集めたデータベースは一般に著作権法で保護される(著作権法第十二条の二「データベースでその情報の選択又は体系的な構成によつて創作性を有するものは、著作物として保護する」)。 政府統計の総合窓口(e-Stat)にはたくさんのデータが収められているが,そのご利用にあたってには「商用目的で複製する場合は、予め個々の情報に関する著作権を有している各府省等までご相談下さい」と書かれており,一定

  • Open DATA METI | 経済産業省のオープンデータカタログサイト

    サイトは経済産業省がオープンデータを実践するために設置した試験サイト(β版)です。サイトは、データ活用に関心がある企業、NPO、個人等の方々から色々な意見をいただくことで、少しでも使い勝手の良いサイトにしていくとともに、個人情報等に配慮した上で、経済省のみならず政府全体におけるオープンデータ推進の検討に活用させていただくことも考えております。そのため、サイトでは、ユーザーの方々から様々な意見や要望をいただき、対して様々な意見や要望をいただく仕組みの一つとして、「DATA METI活用パートナーズ」を設置しております。この「DATA METI活用パートナーズ」の概要と申込についてはこのページのとおりとなりますので、御関心のある方は是非ご覧下さい。 なお、いただいたコメントを踏まえ、柔軟な修正を逐次していくことを考えております。そのため、利用規約も含め、予告無くサイトは変更される可能性

  • コンピュータの設置状況とその不足感

    情報化社会のなか,情報教育の重要性がいわれますが,国際調査の結果から,わが国のお寒い状況が次々に明らかになってきます。前回は,高校生の学校でのICT利用度が,日の場合,国際的にみて最も低いことを知りました。 このことは,生徒が自由に使えるコンピュータの設置状況が芳しくない事情によるのかもしれません。今回は,そうした条件面の国際比較を手掛けてみようと思います。 PISA2009の学校質問紙調査では,対象の高校に対し,「生徒が,学習のために利用できるコンピュータが全部で何台あるか」と尋ねています。日の調査対象校(186校)の総計は17,170台です。これらの高校の1年生の生徒数は45,355人。したがって,高校1年生1人あたり0.38台ということになります。 学校での生徒のICT利用度が最も高いノルウェーと比較してみましょう。下表をご覧ください。 北欧のノルウェーでは,生徒数よりもコンピュ

    コンピュータの設置状況とその不足感
  • 学校でのICT利用の国際比較

    10月19日の記事でみたように,わが国高校生の場合,自宅でのコンピュータを使ったICT利用度が国際的にみて著しく低くなっています。ケータイやスマホが普及していることの影響もあるでしょう。 しかし,この種の小型機器では,社会で求められるところのICTスキルが身につかないとも考えられます。自己評価の結果ではありますが,わが国の生徒は,画像編集やマルチメディア資料作成といったスキルの水準が国際的にみて最下位です。 そうである以上,教育機関としての学校によるテコ入れが要請されるかと思いますが,わが国の生徒は,学校において各種のICTにどれほど親しんでいるのでしょうか。前回までと同様,国際調査のPISA2009に依拠して,データをみてみましょう。 PISA2009の生徒質問紙調査では,対象の15歳の生徒に対し,「次のことをするため学校でコンピュータをどれくらい利用していますか」と問うています。日

    学校でのICT利用の国際比較
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • 「若者による犯罪が増えている」という感覚、マスコミが原因なの?:シロクマ日報:オルタナティブ・ブログ

    若者による犯罪が減少傾向にあります。過去10年間の上半期の刑法犯少年検挙人員および人口比(同年齢層人口1,000人当たりの検挙人員)をまとめた警察庁の資料によれば、検挙人員数は平成15年以降の8年連続で、同人口比は平成17年以降の6年連続で、それぞれ前年を下回っています: ■ 刑法犯少年の推移(上半期) (こちらの資料から転載しました) また通年の結果で見ても、刑法犯少年の数は平成16年~21年まで6年連続で減少(22年についてはまだ発表されていません)。だからと言って犯罪を犯す少年が何万人もいて良いわけではありませんが、少なくとも減少傾向にあることは統計データから明らかになっているわけですね。 一方で先日、こんな記事がネットで注目を集めていました: ■ 少年非行、減少の実感なし 内閣府の世論調査 (47NEWS) 少年の刑法犯が減り続け、周囲で子どもの非行をあまり見聞きしていないのに、少

    「若者による犯罪が増えている」という感覚、マスコミが原因なの?:シロクマ日報:オルタナティブ・ブログ
    mkawano
    mkawano 2011/01/31
    一次情報を見ることが大事
  • https://benesse.jp/berd/center/open/report/ict_riyou/hon/index.html

  • 1