タグ

統計に関するtan-taka5のブックマーク (36)

  • 統計検定を理解せずに使っている人のために I - J-Stage

    318 化学と生物 Vol. 51, No. 5, 2013 セミナー室 研究者のためのわかりやすい統計学-1 統計検定を理解せずに使っている人のために I 池田郁男 東北大学大学院農学研究科 319 化学と生物 Vol. 51, No. 5, 2013 1 1 320 化学と生物 Vol. 51, No. 5, 2013 2 μ σ σ 3 * 2 3 * 321 化学と生物 Vol. 51, No. 5, 2013 4 * 5 * 6 σ 4 5 6 σ * * 322 化学と生物 Vol. 51, No. 5, 2013 μ μ μ μ μ σ 7 σ σ σ σ σ σ σ σ σ σ 8 8 9 7 σ 323 化学と生物 Vol. 51, No. 5, 2013 9 10 11 * σ σ * * * * 10 11 * * * * 324 化学と生物 Vol. 51, No.

  • 実務で使う統計手法は、5つ。すごい、そんなシンプル?

    このセミナー、冒頭の渋谷 直正さん(日航空 旅客販売統括部Web販売部 1to1マーケティンググループ アシスタントマネジャー)のお話がとても参考になりました。 まず、渋谷さんはご存知のように、2014年に「データサイエンティスト・オブ・ザ・イヤー」を受賞され、ビジネス・サイドにおける、データサイエンスのリーダー的存在です。 その渋谷さんの「実務で使う分析手法は5つで十分、マーケターこそデータサイエンティスト候補」という講演は、多くの示唆に富んだものでした。 まず、みなさんが気にしている5つの手法とは、 クロス集計 ロジスティック回帰 決定木 アソシエーション分析 非階層的クラスター分析(k-meansなど) の5つです。統計の教科書にはさまざまな手法が出てきますが、マーケターが実務で使うのはこの5つ程度だと説明されるのです。でも、この説明には、私も思い当たる部分があります。東大数学

    実務で使う統計手法は、5つ。すごい、そんなシンプル?
  • 提案書や企画書づくりが驚くほど捗る!無料で入手出来る統計データ総まとめ。

    プロジェクトを開始する前に、市場調査などで統計データを分析し仮説をたてる事は重要ですが、それらの調査対象が世界規模、全国規模になるとコストが掛かりすぎて(特に個人や中小企業の場合)現実的ではありません。 そこで活用したいのが国や団体、民間企業が公開している無料の統計データです。今日はそんなマーケティング担当者ならきっと必見の情報公開を行なっているサイトをご紹介します。 1. 総務省統計局 総務省統計局では様々な統計データが入手可能です。 国税調査 人口推計 労働力調査 小売物価統計調査 土地統計調査 このようなデータはPDF版が一般的ですがExcel形式でダウンロードできるのも魅力ですね。その他にも以下URLより数多くの統計データが入手できます。 また、統計局ではメール配信サービスも行なっています。興味のある方は登録をおすすめします。 www.stat.go.jp 2. 法務省 法務省でも

    提案書や企画書づくりが驚くほど捗る!無料で入手出来る統計データ総まとめ。
  • 初心者でもほぼ無料でR言語を勉強できるコンテンツ10選 - paiza開発日誌

    Photo by Hermann Kaser こんにちは。谷口がお送りします。 ITエンジニアの方の中には「R言語を学習したい」という方も多くいらっしゃるかと思います。 R言語は、データ分析やデータ処理に特化したオープンソースのプログラミング言語です。システムを開発をする他のプログラムミング言語とは位置付けが異なり、統計解析機能が付いていて、解析処理やその結果をグラフィカルに表示することができます。 そのため、多量のデータ解析が求められるソーシャルゲームの解析や、リサーチ、データマイニング、アソシエーション分析が必要な業務の求人が増えています。 また近年データサイエンティストが注目されていることもあり、今後求人が増えることが予想されます。 そこで今回は、プログラミング未経験~初心者の方が、なるべくコストをかけずにR言語に触れられて、学習に役立てられるコンテンツを10件ご紹介していきます。

    初心者でもほぼ無料でR言語を勉強できるコンテンツ10選 - paiza開発日誌
  • 総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス入門

    統計データを用いた分析事例を知り、 統計リテラシーを学ぶ ・大人がデータサイエンスを学ぶべき理由 ・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性 ・統計を利用する際の注意点 データ分析に必要な統計学の基礎を学ぶ ・データの種類 ・代表値~平均・中央・最頻値 ・ヒストグラムと相対度数 ・四分位・パーセンタイル・箱ひげ図 ・分散・標準偏差 ・相関関係 ・回帰分析 ・標分布 ・信頼区間 データの見方と 適切なグラフの選び方を学ぶ ・統計表の見方 ・比率の見方①-クロスセクションデータ- ・比率の見方②-使い方と注意点- ・時系列データの見方① ・時系列データの見方② ・グラフの選び方① ・グラフの選び方② ・グラフを作る時・読む時の注意点 誰もが使える公的統計データの取得方法と 使い方を学ぶ ・公的統計とは ・公的データの入手

    総務省統計局 データサイエンス・オンライン講座 社会人のためのデータサイエンス入門
  • 生活定点1992-2018|博報堂生活総研

    生活定点とは? 1992年から隔年で実施している生活者の意識調査です。同じ質問を繰り返し投げ掛け、その回答の変化を定点観測しています。

    生活定点1992-2018|博報堂生活総研
  • 国が本気出してきた?総務省の『アプリDe統計』が案外お気に入り - ゆめ見るディオスクロイ

    photo by labguest 必ず知らなくてはいけないものではないけれど、ちょっと気なるし知れば「ほほ~」となる知識。それが統計データです。とはいえ明確な目的もなく総務省や厚生労働省のサイトに行って統計データを眺めるというのもちょっとアレですよね。そんな現状を打破するべく、総務省がやってくれました! 総務省統計局と統計センターは、4月15日、統計のオープンデータ高度化への取り組みの一環として、Android搭載スマートフォン向けの統計情報提供アプリ「アプリDe統計」試行版の提供をGoogle Playで開始した。価格は無料。 総務省、統計を身近に感じられるAndroidスマートフォン向け情報提供アプリ「アプリDe統計」 このアプリには3つの機能があり ① 「City Stat」:今、自分がいる場所の市区町村の統計データをスマートフォンのGPSと統計API機能を連動させ表示 ② 「ポケ

    国が本気出してきた?総務省の『アプリDe統計』が案外お気に入り - ゆめ見るディオスクロイ
  • 幸せを感じる年収や通勤時間:統計からの回答

  • オンラインで無料で読める統計書22冊|Colorless Green Ideas

    はじめに 今回は、ウェブを通じて無料で読むことができる統計に関する書籍を紹介したい。英語で書かれたが多いが、日語で書かれたも若干ある。 入門書 まず、統計の初学者のために書かれた入門書を紹介したいと思う。 福井正康 (2002). 『基礎からの統計学』基礎から扱っている統計の入門書である。統計を扱う際に必要となる場合の数、確率などについて詳しく説明している。理解を助けるための演習問題とその解答がついている。統計処理用のソフトとしてはExcelを使っている。同じサイトに社会科学系の学生向けの数学の教科書もある。 小波秀雄 (2013). 『統計学入門』基礎から扱っている統計の入門書。内容としては、記述統計、確率、確率分布、簡単な推定・検定、相関と線形回帰などがある。確率や確率分布などの理論的な話が占める分量が多いので、分量のわりには、具体的な統計手法はあんまり載っていない。もちろん理論

    オンラインで無料で読める統計書22冊|Colorless Green Ideas
  • 統計にダマされないための4つの原則 | ライフハッカー・ジャパン

    統計は、現代社会に欠かせないものとして定着しています。さまざまなニュース記事に登場し、暮らしのあらゆる面に影響をおよぼす政策の決定にも用いられます。ただ残念なのは、多くの人が、統計を根的なレベルで大きく読み間違えやすいことです。 統計を意味あるものにするための4つの原則を紹介します。 1.「99%の精度」のテロリスト判別装置:基準率の錯誤 「基準率錯誤」と呼ばれる統計の読み間違いの例を挙げてみましょう。 ある会社では、従業員の25%が女性で、75%が男性だとします。表面的には、この会社は男性に偏った採用をしているように見えるかもしれません。なぜなら、(少なくとも米国では)男女の人口分布はほぼ同じだからです。ですが、この見方は応募者の内訳を考慮していません。もし女性の応募者が全体の10%しかいなければ、採用率は男性よりも女性のほうが高いことになります。 もうひとつのよく知られた例として、「

    統計にダマされないための4つの原則 | ライフハッカー・ジャパン
  • 産総研:ビッグデータから新たな科学的発見をもたらす統計手法を開発

    ビッグデータからの科学的発見のためには、正確な検定値(P値)の算出が必要。 超高速アルゴリズムを用いた新たな統計検定手法を開発し、発見力を大幅に改善した。 物理学、医学、化学など全ての実験科学において世界中での広い利用が期待される。 JST 課題達成型基礎研究の一環として、産業技術総合研究所 生命情報工学研究センターの津田 宏治 主任研究員(JST ERATO「湊離散構造処理系プロジェクト」グループリーダー)、東京工業大学 大学院情報理工学研究科 計算工学専攻の瀬々 潤 准教授、理化学研究所 統合生命医科学研究センターの岡田 眞里子 チームリーダーらは、従来に比べて格段に高い精度で誤発見の確率を示す検定値(P値)を計算するアルゴリズム(手順)を開発しました。 自然科学で得られるデータ量は増加の一途をたどり、これらを有効に解析できる方法が望まれています。しかし、従来の統計検定手法は観測できる

  • 「真の相関関係」 - Interdisciplinary

    統計的消去で擬似相関を見抜こう! - ほくそ笑む したがって、年齢と算数能力は、真の相関関係にあると言えます。 強調は私が施しました。 うーん、違和感があるのですよね。真のという所に。真の相関関係とはどのような概念なのでしょうか。あるいは、真で無い相関関係とは。 ある2変数に関連があった時に、その2変数両方に関連していそうな変数の影響をパーシャルアウトしたら関連が消える場合、それを疑似相関と呼ぶ。まあこれは、教科書的な、よくある説明です(私はそのような表現はしませんけれども)。 では、それを踏まえると、真の相関関係というのは、他に関連しているであろう変数の影響を悉く除去しても見いだせる相関関係、となるのでしょうか。でも、影響を与えていそうな要因というのは、未知のものも含め、数え切れないほどある訳ですよね。 もしそれが可能だとして、他の影響を除去し切った時に現れる関連というのは、因果関係とは

    「真の相関関係」 - Interdisciplinary
  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • 統計の基本事項

    トップページ→研究分野と周辺→システムの評価→ 基統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基的な量である基統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ

  • 国勢調査など政府統計データをCSV化してダウンロードできる「統計くん」 政府API活用

    個人開発者の矢野さとるさんは6月12日、10日に公開された「次世代統計利用システム」のAPIを活用し、国勢調査などの政府が持つ統計データをCSV形式でダウンロードできるWebサービス「統計くん」を公開した。 次世代統計利用システムは、統計のオープンデータの高度化に向け、統計センターが総務省統計局と協力して提供しているシステム。政府の統計ポータル「e-Stat」でデータベース化されている統計データを、XMLやJSONなどで出力するREST方式のAPIを提供している。 統計くんは同APIを活用し、国勢調査、事業所・企業統計調査、全国物価統計調査、家計消費状況調査などについて、調査結果をWebブラウザ上に表示したり、条件を絞り込んで分類したり、CSV化してダウンロード可能。今後は、グラフ生成やクロス集計機能などの実装を検討している。 関連記事 「PM2.5まとめ」正式公開 現在地のPM2.5濃度

    国勢調査など政府統計データをCSV化してダウンロードできる「統計くん」 政府API活用
  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
  • ITエンジニアがデータサイエンティストを目指すには?

    ITエンジニアがデータサイエンティストを目指すには?:ITエンジニアのためのデータサイエンティスト養成講座(1)(1/2 ページ) それぞれの専門分野を生かした「データサイエンスチーム」を結成すればデータ活用への道は短縮できる。そのとき、ITエンジニアはどんな知識があればいい? データサイエンティストとして活動する筆者が必須スキル「だけ」に絞って伝授します。 連載バックナンバー はじめに:分析スキルの課題をどう乗り越えるべき? 昨今では、IT系のメディアのみならず一般雑誌や新聞なども“ビッグデータ”というキーワードを見出しに使っています。この文字を目にしない日がないくらいに多用されていて“バズワード”としてとらえられるケースも少なからずあるようです。 しかし、世界の至る所で――もちろん日でも、ビッグデータを分析することで新たな知見を見つけて利益を増大した企業や、顧客の購買行動を予測するこ

    ITエンジニアがデータサイエンティストを目指すには?
  • 有力大学合格者のジニ係数

    ジニ係数とは,富の格差の度合いを測る代表指標ですが,用途はそれに限られません。さまざまな現象の偏りの程度を可視化するのに使うことができます。 今回は,有力大学への合格者数が高校間でどれほど偏っているかを,この指標を用いて明らかにしてみようと思います。ジニ係数の応用例の提示です。 サンデー毎日特別増刊号『完全版・高校の実力』(2010年6月12日)から,全国の4,999高校について,2010年春の主要大学の合格者数を知ることができます。以下のような形で数値が示されています。 私は,東京都内の437高校の有力大学合格者数を調査しました。ここでいう有力大学とは,東大,京大,東工大,一橋大,お茶の水女子大,東京外大,早稲田大,慶応大,国際基督教大,上智大,そしてMARCHの5大学を合わせた15大学です。 437高校のうち113校(25.9%)は,これらの大学への合格者を1人も出していません。合格者

    有力大学合格者のジニ係数
  • 【CodeIQ提供】データ解析・可視化なら俺らに任せろ!- 第30回R勉強会まとめ #TokyoR

    2013年4月20日(土)にニフティ株式会社のセミナールームで、第30回R勉強会@東京(#TokyoR)が開催されました。#TokyoRは、里洋平氏(@yokkuns) が主催しているR言語を学ぶプログラミングの勉強会です。今回は100名以上の参加希望があったため、補欠が出てしまったほどの人気イベントです。  そもそも R言語とは、統計処理を得意とする言語であり、データの解析や可視化などを比較的簡単に実行出来るツールです。 今回は、その人気イベントである第30回R勉強会@東京にお邪魔し、全5時間に渡るアツい内容をまとめてお届けします。またこちらの勉強会まとめ記事は、株式会社リクルートキャリアが運営する「CodeIQ(コードアイキュー)」のご協力で提供されております。 (当日のアジェンダ) それでは、各セッション内容のご紹介です。 初心者セッション1 「はじめてのR」 最初は、R歴三年・ビジ

  • 統計学入門−目次

    最終更新日:2022年08月24日 前口上へ 第1章へ webmaster@snap-tck.com Copyleft (C) 2000 SNAP(Sugimoto Norio Art Production)