Yahoo! JAPAN Digital Hack Day 2021の技術紹介イベントでのプレゼン資料です。 https://hackday.yahoo.co.jp/ アーカイブ動画はこちらからご覧頂けます。 https://youtu.be/3e9OPS8qSA4?t=9890
![オープンデータ、使ってほしいけどオススメしづらい3つの理由](https://cdn-ak-scissors.b.st-hatena.com/image/square/71f359d58fa94da301022127d96ab1e8256e76a5/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2Ffb0eba55cb554bdca3015c002f9d46d8%2Fslide_0.jpg%3F18898112)
こんにちは佐々木です。 誰に望まれた訳でもないですが、データ分析基盤の設計シリーズの第三弾です。今回のテーマは、データ分析基盤における個人情報&パーソナルデータの扱いについてです。ここを最初に考えておかないと、データ分析基盤は毒入りとなって、扱いづらいものになります。 データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog データレイクはRAWデータレイク・中間データレイク・構造化データレイクの3層構造にすると良い - NRIネットコムBlog 個人情報&パーソナルデータと匿名加工について まず最初に個人情報&パーソナルデータの定義と匿名加工について、サラッと確認しておきましょう。 個人情報&パーソナルデータ 個人情報とは、任意の一個人に関する情報であり、かつその情報をもとに個人を特定できるものを指します。代表的な個人情報としては、名前・住所・電話番号・E-ma
今日はこの記事が気になりました。 「政府の会議の資料に人口100万人あたりの死者数のデータがあるのですが、大阪は19・6人(5月5日時点、以下同)。インドの15・5人、メキシコの16・2人、米国の14・5人より上回っており、惨状というほかありません。兵庫県も9・0人、愛媛県11・2人、和歌山県7・6人など関西は高く、東京は1・4人と意外にも低い水準です」(厚生労働省関係者) 【独自】大阪の100万人あたりの新規死亡者数がインドを上回る 「まるで姨捨山」とまらない医療崩壊〈dot.〉(AERA dot.) - Yahoo!ニュース もやっとしたのが、大阪という一都市と、インドという国全体を単純に比較してよいのか?という点だったので、そこらへんを揃えてみました。短い内容なので、ツイートでもよかったのですが、数字が出てきてわかりにくかったので、記事にしました。 【目次】 19.6人という数字 イ
国が求めるデータの入力が現場に負担をかけています。 新型コロナウイルスの感染者のデータをリアルタイムで集約する国の新しい情報システムで、患者が急増する北海道では医療機関などが入力作業に対応しきれず、先月のデータのおよそ3割が入力できていないことが関係者への取材で分かりました。 専門家は「ひっ迫する現場に負担をかけるべきではない」と運用の見直しを求めています。 「HER-SYS」は、新型コロナウイルスの感染状況をリアルタイムで把握しようと、国が5月に導入を始めた情報システムで、全国の医療機関や保健所は感染者のデータを直ちに入力するよう求められています。 ところが関係者によりますと、北海道では医療機関や保健所が急増する患者の対応に追われて入力作業に手が回らず、先月、感染が確認された5600人余りのデータのうち、およそ3割が今月10日の時点でも入力できずにいるということです。 このため北海道によ
ソフトウェア開発プラットフォームのGitHubが、2020年の同プラットフォームの利用状況などをまとめたレポート「The State of the Octoverse 2020」を公開しました。 The State of the Octoverse 2020 - The GitHub Blog https://github.blog/2020-12-02-the-state-of-the-octoverse-2020/ The State of the Octoverse | The State of the Octoverse explores a year of change with new deep dives into developer productivity, security, and how we build communities on GitHub. https:/
先日の西浦先生のニコ生の発表を聞いていない人はぜひ聞いてください。 モデルとデータを以下のリポジトリでオープンにしていただいたので、モデルについて僕が分かる範囲内で少し解説を加えたいと思います。 github.com 実効再生産数を推定するコードが2種類ありまして、最尤推定(Maximum Likelihood Estimation, MLE)を使ったMLE版(Sungmok Jungさん作成)と 、ベイズ推定版(Andrei Akhmetzhanovさん作成)があります。どちらもコンセプトはほぼ同じで、実装が若干異なります。この記事では、ベイズ推定版(以降、元コードと呼びます)の流れを簡単に説明し、その後でその拡張を試みます。 ベイズ推定版の流れ 大きく分けて「データの集計」「back projection」「実効再生産数の推定」の3つの部分からなります。 データの集計 まずは日付ごとの
新型コロナウィルスの感染拡大によって、ほとんどの産業で活動が停滞しています。 この状況は特に2020年3月に入ってから顕在化していますが、消費の落ち込みは生活必需品等を除けば、相当な影響となっていることが想定されます。 この消費の落ち込みはどの程度のものなのでしょうか。ほとんどの統計は、後から発表されるため速報性に乏しく、足元の実績は当然ながら出ておりません。 その状況下で、現在の消費の落ち込み状況を知るすべはないのでしょうか。 この疑問に答える参考統計として「JCB消費NOW」という速報性に優れる統計データがあります。 これを見れば、「今の」日本の状況が分かります。今回はこのJCB消費NOW について確認してみましょう。 JCB消費NOWとは JCB消費NOWの速報データ 所見 JCB消費NOWとは JCB消費NOW は、JCB グループのカード会員のうち、無作為に抽出した約100万人分
はじめに 統計学の講義や実習の際に使える心理系のデータセットをまとめました。アヤメの分類や経済統計もいいですが、やはり心理学に関連したデータを使う方が心理系の学生には興味をもって統計を学べると思います。ここには私が授業でよく使っているものをリストしました。他に良いものがあれば教えて下さい。 Open Stats Lab https://sites.trinity.edu/osl Psychological Science 誌に掲載された論文のデータが公開されています。データだけでなく、論文の概要や実習の手引きなども揃っています。回帰分析や因子分析など統計手法ごとに分類されているので、教材を選ぶ際にとても便利です。 datarium パッケージ https://rpkgs.datanovia.com/datarium/ R のパッケージです。パッケージをインストールすればすぐ使えるようになる
1990年代前半に起きた国政選挙の投票率の崩壊について地域分析を行い、どの地域で投票率の下げ幅が大きかったのかを明らかにしました。 その結果、投票率の崩壊は均一に起きていたわけではなく、本州・中国・四国の都市部や沿岸部と北海道で激しいという、特異な傾向を持っていることがわかりました。 ⭐投票率の崩壊とは 衆院選や参院選の投票率は戦後一貫して下落してきたわけではなく、1980年代までの横ばいが続いた後、1990年代に大幅に落ちています。そしてその後、投票率は郵政解散と民主党への政権交代という二回の選挙を除いては、従来の水準を回復しなくなりました。こうした経緯があるため、昨今の投票率の低下を考える上で、1990年代の状況の理解は重要です。 衆院選(青)と参院選(赤)について、全国で集計した投票率の推移を下の図に示しました。縦軸を投票率、横軸を年として、投票率の崩壊にあたる時期を太線で描いていま
統計一覧 以下の統計を順番にクリックしていくと提供されている統計データの一覧が表示できます。 00020111 民間企業の勤務条件制度等調査 (人事院) 00020112 国家公務員死因調査 (人事院) 00020131 国家公務員災害補償統計 (人事院) 00020151 退職公務員生活状況調査 (人事院) 00020211 一般職の国家公務員の任用状況調査 (人事院) 00100001 景気ウォッチャー調査 (内閣府) 00100101 情報化社会と青少年に関する調査 (内閣府) 00100102 青少年の生活と意識に関する基本調査 (内閣府) 00100103 低年齢少年の価値観等に関する調査 (内閣府) 00100104 非行原因に関する総合的研究調査 (内閣府) 00100105 青少年のインターネット利用環境実態調査 (内閣府) 00100107 若者の生活に関する調査 (内閣
新着情報 「気象観測統計指針」の改正(2023年3月15日)に対応して、内容を更新しました。(2023年3月15日) 気象庁では、地上気象観測(気象台、測候所、観測所)、地域気象観測(アメダス)、高層気象観測の成果の統計方法を「気象観測統計指針」で定め、月平均気温などの統計値を気象庁ホームページなどで公開しています。 ここでは、気象観測の統計資料を利用する際の解説を、「気象観測統計指針」から抜粋し掲載しています。 第1章 気象観測の概要[PDF: 300KB] 第2章 統計に関する一般的事項[PDF: 599KB] 第3章 品質と均質性[PDF: 1227KB] 第4章 要素及び現象ごとの統計値[PDF: 1285KB] 第5章 平年値[PDF: 1015KB] 全文[PDF:2748KB] リンク
統計情報 統計法に基づく統計調査等のうち、文部科学省及び文化庁の行う調査について掲載しています。 なお、文部科学省及び文化庁が行う統計調査以外の調査結果については、政策分野ごとのページ(※政策一覧にリンク)に掲載しています。 文部科学省所管統計に関するQ&A 学校コードについて 教育委員会コードについて 調査票情報の二次的利用について 1.学校教育に関する統計調査 学校基本調査 学校教員統計調査 児童生徒の問題行動・不登校等生徒指導上の諸課題に関する調査 日本語指導が必要な児童生徒の受入状況等に関する調査 外国人の子供の就学状況等調査 学校における教育の情報化の実態等に関する調査 高等学校卒業(予定)者の就職(内定)状況調査 大学,短期大学,高等専門学校及び専修学校卒業予定者の就職内定状況等調査 大学・短期大学・高等専門学校におけるインターンシップ実施状況調査 公立学校施設実態調査 学術情
本日,大腸内視鏡検査を受けてきました。そのいきさつの記録です。 私は毎年,横須賀市の成人特定健康診断を受けています。会社員なら強制的に健診は受けさせられますが,私のような在野人は,自分で手配しないといけません。まあ市から送られてくる受診券を持って,近くのかかりつけ医に行くだけですが。 有料のオプションとして,胸部検査や大腸がん検診もついています。後者については躊躇する人も多いでしょうが,私は毎年受けることにしています。お肉をバクバク食べますのでね。 昨年の11月半ば,渡された検査キットを使って,自宅にて便を採取しました。正確さを期すため2回行うのですが,2回目は,お尻を拭いたトイレットペーパーに血がついていました。排便の時に,肛門が切れるような感覚があり,おそらく痔だなと思いました。しかし便に血が混ざってしまった可能性が高く,これは陽性と出るな,と覚悟を決めました。 1か月経った12月半ば
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く