正解率 (精度, accuracy):正や負と予測したデータのうち,実際にそうであるものの割合 \[\mathrm{Accuracy}=\frac{TP+TN}{TP+FP+TN+FN}\] 適合率 (precision):正と予測したデータのうち,実際に正であるものの割合 \[\mathrm{Precision}=\frac{TP}{TP+FP}\] 再現率 (recall, 感度, sensitivity):実際に正であるもののうち,正であると予測されたものの割合 \[\mathrm{Recall}=\frac{TP}{TP+FN}\] 特異度 (specificity):実際に負であるもののうち,負であると予測されたものの割合 \[\mathrm{Specificity}=\frac{TN}{FP+TN}\] F値 (F尺度, F-measure):再現率と適合率の調和平均. \[\
前回までに、分類問題のモデルの一つ「パーセプトロン」を紹介して、その実装を行いました。 パーセプトロンはとてもシンプルでわかりやすいモデルでしたが、「線形分離可能」なデータにしか適用できないという難点がありましたね。 今回は線形分離できないデータにも適用できる分類モデルとして、「ロジスティック回帰」を紹介します。 予測の信頼度 分類器を使って、実際の問題を解くときのことを考えてみます。例えば「メールのスパムフィルタ」などが想像しやすいでしょう。 一般的にスパムフィルタでは、データであるメールを「スパム(迷惑メール)」と「スパムではない(通常のメール)」のどちらかに分類します。そこで、ちょうどパーセプトロンのような2値分類器を使えば無事解決……とは、なかなかいきません。 スパムフィルタを通り抜けてしまった迷惑メールを一つ一つ消す、反対に必要なメールが間違ってスパムと判定されてしま
Amazonサイト上で、1冊の本のランキングを追跡すれば、書店全体の売上傾向がわかる。 そんなことを数理的に詳しく調べた研究があります。 Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書) 作者: 服部哲弥出版社/メーカー: 化学同人発売日: 2011/05/30メディア: 単行本購入: 4人 クリック: 551回この商品を含むブログ (26件) を見る 著者である服部哲弥先生の解説ページはこちら。 この"ランキング本"の帰結によると、Amazonは実はロングテールビジネスではない、とのことです。 一方、Wikipedia の「ロングテール」の項目には 「代表的なオンライン小売店の1つである「Amazon.com」(アマゾン社)を例に説明する。」 と記されているくらいですから、これはかなり意外な結果ではないでしょうか。>> wikipedia:ロング
○初めて来た方は、このあたりからご覧ください。 13歳以下の犯罪 異常犯罪 親殺し統計グラフ ○更新履歴と管理人による注釈は、こちらのブログをご覧ください。 少年犯罪データベースドア ○幼女レイプや児童虐待、小学生殺人が昔と比べて凄い勢いで減っているのが判ります。 子どもの犯罪被害 データーベース 文責は管理人の管賀江留郎にあります。 何か問題があれば消しますのでメールください。 このサイトのデータはできるだけ広めたいと思っておりますので、無断で自由に使用してください。 ただし、新聞記事などの引用は、法律上の引用の範囲で各自の責任のもとに使用してください。 返信がめんどうなので、いちいちデータ使用の許可を求めないでください。間違いの指摘は歓迎します。 いまのところのデータ完成度は50%で、日々更新しています。抜けている事件があれば教えてください。
ソフトウェア開発の原点は可能性の追求であり、不可能を可能にすることです。ひとたび ソフトウェア が開発されると、エンジニアは次に 程度 という課題に向き合うことになります。企業向けのソフトウェアであれば、「速度はどれくらいか」と頻繁に問われ、「信頼性はどの程度か」という点が重視されます。 ソフトウェアのパフォーマンスに関する質問に答え、さらには正しい内容を語る上で欠かせないのが統計学です。 とはいえ、統計学について多くを語れる開発者はそうはいません。まさに数学と同じで、一般的なプロジェクトで統計学が話題に上ることなどないのです。では、新規にコーディングをしたり、古いコードのメンテナンスをしたりする合間に、手が空くのは誰でしょうか? エンジニアの方は、ぜひ時間を作ってください。近頃は、15分でも貴重な時間と言えるでしょうから、 こちらの記事をブックマークに追加 しておいてもいいでしょう。とに
Google が約 2 ヶ月ぶりに Android バージョン別シェアの統計データを公開しました。先月(7 月分)は公開されなかったので、今回は 8 月分として紹介します。 今回のバージョン別シェア(括弧ないは前々回)は、1 位が KitKat 39.3%(↑39.2%)、2 位が Jelly Bean 33.6%(↓37.4%)、3 位が Lollipop 18.1%(↑12.4%)、4 位が Gingerbread 4.6%(↓5.6%)、6 位が Ice Cream Sandwich 4.1%(↓5.1%)、7 位が Froyo 0.3%(→0.3%)という結果でした。 今回、順位に変化はありませんでした。Lollipop のシェアが 18% 台にまで上がってきたので、円グラフを見ると、今や Lollipop、KitKat、Jelly Bean が全体を三分しているという状況になって
2. Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15 自己紹介 @windfall_j 某大学の学部4年生 みどりぼん読み中 統計見習い 今回Tokyo.R初参加です 発表内容に誤解などあれば指摘お願いします 上京 ➜ 東京の地理知識ゼロ 3月まで文京区に4年ほど住んでいた 2
人力検索はてなに投稿された「恋人や夫婦で一緒にお風呂に入りますか?」という質問と回答をもとに、統計学の手法のひとつ「ベイズ推定」を用いて、その割合を推論するスライドが話題を呼んでいます。「一緒にお風呂に入る」という内容と、説明の分かりやすさから、はてなブックマークのコメント欄でも盛り上がりを見せています。 ▽ カップルが一緒にお風呂に入る割合をベイズ推定してみた ▽ 世界一くだらないベイズ推定の話をしてきました - ほくそ笑む ▽ 恋人や夫婦で一緒にお風呂に入りますか? 知人の中には、毎日の… - 人力検索はてな このスライドの作者であるhoxo_m(id:hoxo_m)さんは、投稿された質問と回答をもとに「カップルが一緒にお風呂に入る割合」をベイズ推定を用いて考察しています。ベイズ推定とは、推定したい事柄のデータ(事前分布)に観測された事実のデータ(事後分布)をどんどん足して更新すれば、
さて皆さん、こんにちは。Jリーグ開幕もいよいよ間近ですが、本日は、ちょっとした数字遊びネタでお送りします。内容的には、タイトルの通り、「サッカーにおける各国の1試合あたりの平均得点のお話」でありんす。 実は、ここ数日ほど、主要国の一試合あたりの平均得点を調べており、実際に調べてみたら、面白い事がわかったので、本日はそれをネタにしてエントリ立てた次第です。興味のある方はおつきあいください。本当は、ゼロックスカップのレビューでもしようかと思ってたんですけどね、ゼロックスの試合内容がなんとも書きにくい内容だったので、こっちに変えました。ルールダービーもレビュー対象としては、なかなか興味深い試合でしたが、ドルのレビューはこないだやったばっかですし。 もともとは「セリエAは本当にゴールが少ないリーグなのか?」ってのを調べていたんですが、それで主要リーグの数字を調べて散布図作ったので、その紹介になりま
欲しいデータがズバリ手に入るサイトをまとめました! 市場調査をしているときや企画書を作成しているときに、「欲しいデータが見つからない…」なんてことがよくあるのではないでしょうか? そこで、今日は、データが手に入れられるデータをまとめ、統計データを効率的に得て、上手に活用するコツをまとめました。 【目次】 政府系の統計データ3選 リサーチ会社等の公開データ17選 データを探し、上手く利用するには? 政府系の統計データ3選! まず、無料で充実した情報が手に入るのが、政府や官公庁のサイトです。 皆様が払った税金でつくられているものなので、有効に活用しましょう。 1:総務省統計局 総務省統計局では、無料で多くのデータが手に入ります。 手に入るデータのカテゴリーとしては、人口・世帯、住宅・土地、家計、物価、労働などがあります。また日本全体だけではなく地域ごとのデータも手に入ります。 また、このサイト
NBA名門チームにおける最近の人事から、データ活用を目指したチームの思惑が見え隠れする。『マネーボール』で描かれたようなデータ主導型のチーム運営が本格化するのだろうか。 プロ経験の全くない大学バスケットボール・チームのヘッドコーチ(HC)が、NBA(米プロバスケットボールリーグ)きっての名門チームから新たなHCに指名された。この異例の大抜擢の背後に、データを活用しながら新しい「王朝づくり」を狙うチーム側の思惑が見え隠れする……。今回はそんな話を少し紹介する。 NBAにボストン・セルティクスという老舗のチームがある。過去の優勝回数17回(30チーム中最多)を誇り、2000年代に入っても優勝した2007~2008年シーズンから5シーズン連続でプレイオフ進出を続けている強豪チームである。そんなセルティクスが7月初め、空席となっていたHCにブラッド・スティーブンスという「新人」を起用すると発表し、
追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く