タグ

Statisticsとstatisticsに関するseuzoのブックマーク (59)

  • 食べログ3.8問題を検証 - クイックノート

    先日、twitter上でべログの星の数について、 ある問題が話題になりました。 べログの闇として話題になったその問題とは、 「評価3.8以上は年会費を払わなければ3.6に下げられる」 というものです。 べログは飲店についての口コミを集めるサイトで、 その評価は実際のユーザーによって形成されるものとして広く認知されています。 専門的なグルメリポーターでもなく、 一般の人々の素直な感想を集めることで、 その飲店のリアルな価値が知れると期待して、 利用しているユーザーも多いでしょう。 それだけに、 「べログが評価を恣意的に操作しているかもしれない」という話は、 瞬く間にネットで話題となりました。 さて、この話は実際に行われていることなのでしょうか。 べログでは、当然評価点は公開されているので、 このような恣意的な操作があれば、 何らかの形で偏りが見つかるはずです。 ということで、

    食べログ3.8問題を検証 - クイックノート
  • 厚労省の統計不正はどのように不正だったのか - 奥村晴彦|論座アーカイブ

    厚労省の統計不正はどのように不正だったのか 統計学を使えば最小の費用で最大の効果が得られる調査方法がわかる 奥村晴彦 三重大学名誉教授・教育学部特任教授 国の統計不正が問題になっている。厚労省は2019年1月11日に「毎月勤労統計調査において全数調査するとしていたところを一部抽出調査で行っていたことについて」という文書を公開した。毎月勤労統計調査とは、「民間や官公営事業所の賃金、労働時間、雇用状況の変化を把握する目的で政府が実施する調査。統計法に基づき、国の重要な統計調査である基幹統計として、厚生労働省が実施・公表している」(日大百科全書)ものである。そのどこが、どのように不正だったのか。統計処理の話に絞って解説したい。 平均給与が全体として低めになっていた この調査は、500人以上の事業所は全数調査、499人以下の事業所は一部を抽出して調査すると法律で定められている。ところが、東京都は

    厚労省の統計不正はどのように不正だったのか - 奥村晴彦|論座アーカイブ
  • 整然データとは何か|Colorless Green Ideas

    整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

    整然データとは何か|Colorless Green Ideas
  • Yutaka Tanabe 田辺 大 on Twitter: "余裕あるなあと思って内閣府のソースのサイトを拝見しました。 n=5,969であり、その8割は持ち家ありの人々でした。 https://t.co/r2uvfOgX8T 現在の生活に「満足」74.7% 過去最高に、内閣府調査(TB… https://t.co/iKJ31XGv0W"

    余裕あるなあと思って内閣府のソースのサイトを拝見しました。 n=5,969であり、その8割は持ち家ありの人々でした。 https://t.co/r2uvfOgX8T 現在の生活に「満足」74.7% 過去最高に、内閣府調査(TB… https://t.co/iKJ31XGv0W

    Yutaka Tanabe 田辺 大 on Twitter: "余裕あるなあと思って内閣府のソースのサイトを拝見しました。 n=5,969であり、その8割は持ち家ありの人々でした。 https://t.co/r2uvfOgX8T 現在の生活に「満足」74.7% 過去最高に、内閣府調査(TB… https://t.co/iKJ31XGv0W"
  • 『ウチの子は平均点より高いのにクラス内順位が真ん中より低いなんておかしい!』という新理論を唱え続ける保護者の説得に20分以上かかってしまった

    ちび @CHiBi_officiaI 『ウチの子は平均点より高いのにクラス内順位が真ん中より低いなんておかしい!平均点は真ん中の点!』 っていうアインシュタインもビックリな新理論を唱え続ける保護者の説得に20分以上かかってしまったから、大人に算数教えるの、小学生に教えるより難しいよラーメンべてきた。 pic.twitter.com/V5elLuIZyA

    『ウチの子は平均点より高いのにクラス内順位が真ん中より低いなんておかしい!』という新理論を唱え続ける保護者の説得に20分以上かかってしまった
    seuzo
    seuzo 2018/08/27
    これ統計では分布の偏りとして、年収を例にしたりした頻出問題なんだが、それが直感的にわからない人のいかに多いことか。
  • 統計・機械学習・R・Pythonで用途別のオススメ書籍 - StatModeling Memorandum

    比較的読みやすいを中心に紹介します。今後は毎年このページを更新します。 微分積分 高校数学をきちんとやっておけばそんなに困ることないような。偏微分とテイラー展開は大学演習のようなでしっかりやっておきましょう。ラグランジュの未定乗数法のような、統計・機械学習で必要になる部分は、ネット等で学べばいいかなと思っています。 線形代数 tensorflowなどのおかげで順伝播部分(行列積および行列とベクトルの積)さえ書ければ線形代数の知識はそこまでいらないんじゃないかという流れを感じます。しかし、主成分分析やトピックモデルなどの行列分解や、ガウス過程などのカーネル法のような様々なデータ解析の手法に一歩踏み込むと、きちんとした勉強が必要になります。理解しやすくて使いやすくて、統計や機械学習への応用を主眼においた線形代数のはまだ見たことないです。機械学習シリーズとかで基礎から「The Matrix

    統計・機械学習・R・Pythonで用途別のオススメ書籍 - StatModeling Memorandum
  • News Up 天文学的確率?「サッカーくじの数字が一致」 | NHKニュース

    サッカーくじの「BIG」を今月購入した男性が、「2回に分けて買った複数のくじの数字の並びが全く同じだった」とツイッターに画像つきで投稿し、「ありえない確率だ」などと話題になっています。 運営側が、「システムの不具合や不正はない」と公式に発表する事態になりましたが、システムのミスなどは無かったと言えるのか。「原因」は明らかになるのか。統計学の専門家と検証します。 窓口などで発行されるくじの券には14桁の数字がランダムに並んでおり、この数字が実際の14試合の結果と一致すれば、最高で6億円が支払われます。 この「BIG」を、今月、2回に分けて計15口分購入したという人が、「最初に購入した5口分と、あとで購入した10口分のうちの5口分の数字の並びが全く同じだった」とツイッターに画像つきで投稿しました。 この投稿について、「何らかの不正があったのでは」とか「システムの不具合では」といった投稿が相次い

    News Up 天文学的確率?「サッカーくじの数字が一致」 | NHKニュース
  • 平均値 vs 中央値

    作者のページ ときどき所得などのデータを平均値(算術平均)のみで示している記事があります。しかし極端な外れ値があったり、著しく非対称だったりするデータは中央値で扱わないと実態がよく分からなくなってしまう場合があります。「平均所得600万円!」に騙されないように「平均値」と「中央値」の違いを実感しましょう。 追記1:以下の分布はLog-normalを仮定しているため必ず 中央値<平均値 です。そうじゃない分布も当然存在します。 追記2:このページの趣旨は「平均値だけ見ても実態がよく分からんこともあるので元の分布や他の統計量も気にしようね」ってことなので一々「最頻値も見なきゃ駄目だ」とかメールしてこなくていいです。 使い方:スライダをグリグリ動かして、それぞれの代表値を持つ分布の例を見てみよう。

  • 超人気アダルトサイトが1年を総まとめにした統計レポートを公開、総視聴時間は5246世紀分に相当

    seuzo
    seuzo 2017/01/07
    ブラジルの「pokemon」は何?
  • 本川裕の社会実情データ・エッセイカテゴリ

    連載では、統計データの動きを独自に整理、グラフ化することによって、意外な社会の動きやわが国の状況を追って行きたいと考えている。もっとも堅苦しいものではなく、趣味的な個人の嗜好も含めたざっくばらんなものとしたい。体系的な思想というよりエッセイ形式で人間習俗(モラル)を観察したモラリストの伝統に連なれればと考え、連載タイトルにエッセイという用語を含めた。

    本川裕の社会実情データ・エッセイカテゴリ
  • 「統計」の醍醐味を古典文学のキーワード分析で実感する

    統計データ分析家。元立教大学大学院ビジネスデザイン研究科兼任講師。1951年生まれ。東京大学農学部農業経済学科卒業。同大学院単位取得済修了。(財)国民経済研究協会研究部長、常務理事を歴任。現在、アルファ社会科学(株)主席研究員。インターネット上で「社会実情データ図録」サイトを主宰。 川裕の社会実情データ・エッセイ 連載では、統計データの動きを独自に整理、グラフ化することによって、意外な社会の動きやわが国の状況を追って行きたいと考えている。もっとも堅苦しいものではなく、趣味的な個人の嗜好も含めたざっくばらんなものとしたい。体系的な思想というよりエッセイ形式で人間習俗(モラル)を観察したモラリストの伝統に連なれればと考え、連載タイトルにエッセイという用語を含めた。 バックナンバー一覧 「数え上げること」で 真実を観察する統計の醍醐味 統計とは数え上げることである。なぜ数え上げなければならな

    「統計」の醍醐味を古典文学のキーワード分析で実感する
  • メンデル批判論争について

    リンク Wikipedia Gregor Mendel Gregor Johann Mendel (Czech: Řehoř Jan Mendel; 20 July 1822 – 6 January 1884) (English: ) was a scientist, Augustinian friar and abbot of St. Thomas' Abbey in Brno, Margraviate of Moravia. Mendel was born in a German-speaking family in the Silesian part 浅学俊郎 @sengakut メンデルに掛けられた捏造実験疑惑に対するたいへん興味深い考察。法則を見つける経過についても面白い。勉強になりました。 メンデルにおける「仮説と実験」 www008.upp.so-net.ne.jp/take

    メンデル批判論争について
  • 名古屋市の子宮頸癌ワクチンアンケート調査データの解析に挑む

    名古屋市が公費で実施した子宮頸がんワクチンアンケート調査の公表済み速報結果を引っ込め、生データだけをPDFで公表したもののそれ以上の解析はせず結果も出さないと言明。このデータを変換して再解析しようするネット上の動きを追いました。新情報は随時追加予定です。 名古屋市ウェブサイトから削除された速報結果のアーカイブ https://web.archive.org/web/20151223190255/http://www.city.nagoya.jp/kenkofukushi/cmsfiles/contents/0000073/73419/sokuhou.pdf 名古屋市ウェブサイトのデータ公表コーナー(2017年2月1日現在こちらに移転) http://www.city.nagoya.jp/kenkofukushi/page/0000088972.html 続きを読む

    名古屋市の子宮頸癌ワクチンアンケート調査データの解析に挑む
  • 企画書で使える!無料で統計データが手に入るサイト11選|SUKIMANO

    市場調査の結果など、客観的な統計データがあると企画書やプレゼン資料の信頼感がぐっとアップしますよね。 しかし、統計データを企画書やプレゼンの資料として使いたいと思っても、個人でできる調査には限りがありますし、格的に調査するとそれなりに費用や時間がかかるのがネックです。 実はネット上には無料で統計データを公開しているサイトがあるので、企画書やプレゼンのテーマに沿った資料が手に入るなら活用しない手はありません。 無料で統計データが閲覧できるサイトを11個まとめましたので、企画書やプレゼンの資料に活用してみてはいかがでしょう。 ①総務省統計局 出典 http://www.stat.go.jp/index.htm 統計データといえば総務省統計局です。 国勢調査、人口推計、住宅・土地統計調査、家計調査、全国消費実態調査、小売物価統計調査、労働力調査などなど、さまざまな統計データを無料で閲覧できます

    企画書で使える!無料で統計データが手に入るサイト11選|SUKIMANO
  • はじめての「R」

    2023/02/06追記: slideshareが非常に使いづらくなってしまったため、speakerdeckに転載しました。 https://speakerdeck.com/masaha03/hazimeteno-r 補足記事を書きました。併せてご覧ください。http://m884.hateblo.jp/entry/2012/12/03/232431Read less

    はじめての「R」
  • 島崎敢

    学生に毎年同じ説明をするのを回避するために,表計算やワープロ,プレゼンテーション,心理統計の基礎と簡単な検定方法,実験機材の使い方などを解説しています.研究費の有効活用と貧乏学生の応援および日円の海外流出防止のため,オープンソースやフリーソフトを中心に解説しています.リクエストも受け付けます.再配布などはご自由...

    島崎敢
  • Rで度数分布表を作る

    a <- round(rnorm(30, mean=170, sd=5), 1) a [1] 173.0 168.6 168.5 164.2 167.3 170.6 162.7 168.0 170.8 [10] 175.7 166.0 166.5 162.4 172.6 170.1 170.2 164.2 167.1 [19] 163.8 163.4 168.1 168.7 171.1 164.6 166.3 177.0 170.0 [28] 173.3 170.7 169.0 このaに対して、度数分布表を作りたい。 質的データ(カテゴリカルデータ)なら、table関数を使って度数を集計できるのですが、量的データに対してtableを使うと、↓こんな感じになってしまいます。 table(a) a 162.4 162.7 163.4 163.8 164.2 164.6 166 166.3 16

    Rで度数分布表を作る
  • ソフトウェアのための統計学 – 前編 | POSTD

    ソフトウェア開発の原点は可能性の追求であり、不可能を可能にすることです。ひとたび ソフトウェア が開発されると、エンジニアは次に 程度 という課題に向き合うことになります。企業向けのソフトウェアであれば、「速度はどれくらいか」と頻繁に問われ、「信頼性はどの程度か」という点が重視されます。 ソフトウェアのパフォーマンスに関する質問に答え、さらには正しい内容を語る上で欠かせないのが統計学です。 とはいえ、統計学について多くを語れる開発者はそうはいません。まさに数学と同じで、一般的なプロジェクトで統計学が話題に上ることなどないのです。では、新規にコーディングをしたり、古いコードのメンテナンスをしたりする合間に、手が空くのは誰でしょうか? エンジニアの方は、ぜひ時間を作ってください。近頃は、15分でも貴重な時間と言えるでしょうから、 こちらの記事をブックマークに追加 しておいてもいいでしょう。とに

    ソフトウェアのための統計学 – 前編 | POSTD
  • 「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ

    以前から同様の指摘は様々な分野から様々な人々が様々な形で出してきていましたが、アメリカ統計学会が以下のような明示的な声明をこの3月7日(現地時間)に発表したということで注目を集めているようです。 AMERICAN STATISTICAL ASSOCIATION RELEASES STATEMENT ON STATISTICAL SIGNIFICANCE AND P-VALUES Provides Principles to Improve the Conduct and Interpretation of Quantitative Science https://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf The ASA's statement on p-values: context, process, and p

    「p値や有意性に拘り過ぎるな、p < 0.05かどうかが全てを決める時代はもう終わらせよう」というアメリカ統計学会の声明 - 渋谷駅前で働くデータサイエンティストのブログ
  • 出版学会(活字離れ)資料

    出版学会春季研究発表会(2015年)発表資料(完成版)です。公開まで時間がかかったことをお詫びします。Read less

    出版学会(活字離れ)資料