東大が無償でPDF公開している,統計学会の75周年記念出版『21世紀の統計科学』の3冊 1と2は実際の統計データを用いて,各事例への統計学の応用手法,3は機械学習の人なら馴染み深い統計計算を解説 下手な市販の本を買うよりは,この3… https://t.co/w2cSVIxmUI
先日、twitter上で食べログの星の数について、 ある問題が話題になりました。 食べログの闇として話題になったその問題とは、 「評価3.8以上は年会費を払わなければ3.6に下げられる」 というものです。 食べログは飲食店についての口コミを集めるサイトで、 その評価は実際のユーザーによって形成されるものとして広く認知されています。 専門的なグルメリポーターでもなく、 一般の人々の素直な感想を集めることで、 その飲食店のリアルな価値が知れると期待して、 利用しているユーザーも多いでしょう。 それだけに、 「食べログが評価を恣意的に操作しているかもしれない」という話は、 瞬く間にネットで話題となりました。 さて、この話は実際に行われていることなのでしょうか。 食べログでは、当然評価点は公開されているので、 このような恣意的な操作があれば、 何らかの形で偏りが見つかるはずです。 ということで、食
中央合同庁舎第2号館。国家公安委員会、警察庁、総務省、消防庁、国土交通省、観光庁、運輸安全委員会が入っている=東京都千代田区で2019年5月10日、米田堅持撮影 総務省統計委員会の点検検証部会は16日、毎月勤労統計(厚生労働省)の不正調査問題を受けた政府統計の追加点検結果を発表した。特に重要度の高い「基幹統計」(56統計)を除く「一般統計」(232統計)のうち154統計で不適切な対応があったと認定した。基幹統計の不適切対応(24統計)と合わせ、問題があったのは政府の288統計の6割強の178統計に上った。 不適切対応のあった一般統計154統計のうち、「最低賃金に関する実態調査」(厚労省)や「全国貨物純流動調査」(国土交通省)など16統計でプログラムミスなどによる数値の誤りがあった。「中小企業実態基本調査」(経済産業省)など11統計では調査対象を一部除外するなどのルール違反があったと認定した
「統計的に有意差がないため、2つのデータには差がない」──こんな結論の導き方は統計の誤用だとする声明が、科学者800人超の署名入りで英科学論文誌「Nature」に3月20日付で掲載された。調査した論文の約半数が「統計的有意性」を誤用しており、科学にとって深刻な損害をもたらしていると警鐘を鳴らす。 「統計的に有意差がない=違いがない」は間違い 例えば、ある薬の効能を調べたいとする。統計学では一般的に「仮説検定」を行って薬を与えたグループとそうでないグループを比較し、薬効の指標となる何らかのパラメータに統計的有意差があるかどうかを見る。仮説検定は、2つの事象の差異が偶然生じたものかどうかを統計的に結論付けるものだ。 もし、統計的有意差がある(薬を与えた群のパラメータの方が有意に大きい)なら「薬には効能がある」という結論を導けるが、有意差がなかった場合はどうだろうか。 「統計的有意差がある=薬効
最も多くのゲーマーが利用しているプラットフォームと言って、まず間違いがないValveのSteam。 今回の記事ではこの「Steam」で配信されている、各ゲームの人口や推移の調べ方を解説します。 下のボタンから「Steam Charts」にアクセスします。 Steam Charts すると上部に「Steamのオンライン人数」と「実際にゲームをしている人数」が表示されます。 任意のタイトルを調べたい場合は、右上のフォームにタイトル名を入力して検索します。 仮に「Dota 2」を開いたところです。 ページ上部には「少し前のピーク人数」「24時間のピーク人数」「これまでのピーク人数」が、 ページ中部には指定した期間における「プレイヤー人口の推移」が、 ページ下部には月別の「平均プレイ人数」「増減値」「増減率」が表示されます。 トレンド セール時に大きく変動しやすい、最近人気となっているタイトルTO
2017年の『就業構造基本調査』の結果が公表されました。昨日の14:30でしたが,私は10分ほど前からパソコンの前にへばりついて,今か今かと待っていました。 http://www.stat.go.jp/data/shugyou/2017/index.html このブログでは幾多の官庁統計を分析していますが,『就業構造基本調査』は最も活用しているものの一つです。この調査の目玉は有業者の所得を調査していることで,所得をキーにしたクロス集計表も多数アップされています。性別・年齢層別の所得分布,所得階層別の未婚率など,いろいろなことを明らかにできます。 本調査でいう所得とは,「賃金,給料,手間賃,諸手当,ボーナスなど過去1年間に得た税込みの給与総額」をいいます(用語解説)。税引き後の年収とは区別される概念です。 私は,2017年のデータが公表されたら,今の自分の世代の所得がどうなっているかをまず明
麻原彰晃やオウム幹部が死刑になりましたね。 www.asahi.com 絞首刑中に空中浮遊を行って助かることはできなかったか… で、死刑が執行されるたびに挙がる声。 「死刑は非人道的な野蛮な刑だ!廃止すべき!」 特に海外からの圧力がすごい。 jp.reuters.com 彼らからすると犬を食っているようなもんなんだろう。 (欧州でも半数近くの人は死刑復活を望んでるらしいけど) そして、それに対する反論もいつもきまってる 「死刑廃止国は現場で犯人を射殺しているのに 死刑が野蛮とかおかしいじゃないか!」 本当かよ… そしてこの意見に対する死刑廃止派の反応もお決まりのモノ 「『死刑廃止国では現場で犯人を射殺している』というのはデマだ!そんな統計データはない!」 本当かよ… 疑問だらけなので調べてみた。 1:W杯ベスト8は死刑廃止国 2:欧州での射殺数 日本の死刑執行数とドイツの射殺件数の比較 3
$1σ$ 区間におさまる確率→ 約 $68$% $2σ$ 区間におさまる確率→ 約 $95$% $3σ$ 区間におさまる確率→ 約 $99.7$% $1σ$ 区間とは、$\mu-\sigma$ から $\mu+\sigma$ までの区間です。 $2σ$ 区間とは、$\mu-2\sigma$ から $\mu+2\sigma$ までの区間です。 $3σ$ 区間とは、$\mu-3\sigma$ から $\mu+3\sigma$ までの区間です。 ただし、$\mu$ はデータ(または確率分布)の平均です: $\mu=\dfrac{x_1+x_2+\cdots +x_n}{n}$ また、$\sigma$ はデータ(または確率分布)の標準偏差(ばらつきを表す量)です: $\sigma=\sqrt{\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2}$ $\
新米データサイエンティストが覚えたての知識を使ってKaggleのタイタニックデータを分析し、投稿してみた!PythonデータサイエンスKaggle はじめに こんにちは、教育業界に就職した新米データサイエンティストです。 入社してから3週間、研修を始めてから2週間が経過しました。 通勤の中で、データサイエンスを学ぶのに良いコンテンツはないかと調べるのですが、よく目にするのは「Kaggleをやれ」という記事です。 ・データサイエンティストを目指して勉強するなら、Kaggleからはじめよう ・『データサイエンティストとマシンラーニングエンジニアはKaggleやれ』というのは何故なのか 自分もKaggleには今年挑戦してみたいと考えていたのですが、まだその段階ではないと思っていました。そんな中、こんな記事を見つけました。 KaggleのCTOが教えてくれた”AIエンジニアに超オススメな8つの学習
〜そのデータで、意思決定は変わりますか? 戦略の策定、新機能の検証、さらに広報まで。組織を横断して最適なデータ活用を実現する、メルカリのBIチームとは〜 データを活用できる組織とできない組織、その違いはどこにあるのだろうか。 国内唯一の「ユニコーン企業」とも称される、株式会社メルカリ。同社の東京オフィスでは、2018年4月時点で7名のデータアナリストから成るBI(Business Intelligence)チームが、経営目標の達成をデータ分析で支える役割を担っている。 チームのマネージャーを務める樫田 光さんは、「『分析こんなに頑張りました』という大げさな資料は、意思決定をする側には必要ない」と語る。 その言葉通り、同社では分析の結果をあくまでもスピード重視で共有。また、できるだけ多くの人がデータを活用できるようにするため、組織を横断した仕組みづくりも強化している。 例えばその活動のひとつ
(Image by Pixaby) この記事は去年はてブ1100以上ついてしまった与太記事の続編です。その時はタイトルを読んで字の如く「データサイエンティスト」と「機械学習エンジニア」の満たすべきスキル要件(の2017年版)について考察したものでした。 で、まだ1年しか経ってないのに何でまた引き合いに出したのかというと、最近のメディア報道やニュースリリースの類などを見ていると「データサイエンティストにディープラーニングをやらせる」とか「高度な統計分析のできるエンジニアが必要」みたいなどう見ても色々混同している感のある内容が目に付くので、改めてちょっと自己流に交通整理してみようかなと思ったのでした。 特に、空前の人工知能ブームで「人工知能」の語が人口に膾炙すると同時に2014年頃にブームが終わったはずの「データサイエンティスト」の語が何故か復権してしまい、そこら中のメディアでかつて空回りした
2018/1/1時点で利用可能な、オープンデータの主要取得先を記載します。 1. 世界中の国や都市の情報 EUとイギリス Public Data EU http://publicdata.eu Open Data Europe http://data.europa.eu/euodp/en/home UK Government Data https://data.gov.uk アフリカ Africa Open Data https://africaopendata.org Code for South Africa http://code4sa.org Code for Africa https://codeforafrica.org アジア Open Cities Project http://www.opencitiesproject.org Open Nepal http://data
さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub(https://github.com/ShoKosaka/Suumo)に上げておきますので興味ある方は参照ください。 最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。 データ探索 まず、23区の中でどこが物件数が多いのかを
炭水化物(糖質+食物繊維)の摂取割合が非常に多い人は死亡リスクが高く、脂質の摂取割合が多い人は死亡リスクが低いという意外なデータが、世界の18の国・地域の13.5万人以上を対象にした研究で得られました。 現在世界的に用いられている食生活ガイドラインは、低脂肪食(総摂取エネルギーに占める脂質の割合が30%未満の食事)を推奨し、さらに脂質のうち飽和脂肪酸(バターやラードなど常温で固まりやすい脂)を不飽和脂肪酸(魚油やサラダ油など常温で固まりにくい油)に置き換えることによって、飽和脂肪酸の摂取量を総エネルギーの10%未満に制限することを推奨しています(日本の状況は記事最後の囲み参照)。 しかし、こうしたガイドラインは、循環器疾患(心疾患や脳血管疾患など)の患者が多く、脂質の摂取量も多い欧州と北米の人々を対象とした研究結果に基づいて作られたものです。そのため、欧米以外の地域にも当てはめられるのかど
パターン認識と機械学習 - ベイズ理論による統計的予測† This is a support page for the Japanese edition of "Pattern Recognition and Machine Learning" authored by C. M. Bishop. 本書は,Christopher M. Bishop 著「Pattern Recognition and Machine Learning」の日本語版です.上下2巻の構成です. パターン認識や機械学習の各種のアルゴリズムや背後の考えについて,ベイズ理論の観点から解説した教科書です. 基礎的な線形モデルから,カーネルトリック,グラフィカルモデル,MCMCなどの発展的な話題までをバランス良く収録しています. 数式による形式的な記述だけにとどまらず,豊富なカラーの図による直観的な説明もなされています. 本
現在の日本の生涯未婚率によると、男性の4人に1人、女性の7人に1人は50歳まで一度も結婚したことがなく、そうした人たちの割合は今後も増えていくそうです(出典: ハフィントンポスト)。原因は様々あるようですが、やはり**「適当な相手にめぐり合わない」**という理由は上位に来るようです。 ですが、適当な相手とは、一体全体どういう相手なのでしょうか? 年収、容姿、性格、家、などなど人によって様々相手に求める条件があるものですが、「人の出会いは一期一会」ともいうように、いい相手とめぐり合えたとしても「もしかしたら今後もっといい人と会えるかも……」などとうじうじしているうちに、機会を逃すことも多いかもしれません(涙 この問題は、結婚相手を探しているA君がいるとすると、 A君は、これから結婚相手の候補となるN人と女性と出会う 候補となる相手は、1人ずつ次々に現れる 候補となる相手は、それぞれ違うスコア
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く