タグ

統計に関するfeketerigoremetのブックマーク (60)

  • クラスタリングの不可能性定理について - Qiita

    背景 機械学習の手法のひとつであるクラスタリングは、データの特徴により分類を行います。クラスタリングには様々な手法がありますが、その多くは距離関数を利用して有限個の点を分類します。 昨今、IT業界機械学習がブームになっていますが、クラスタリング手法の能力について、理論的な視点からあまり言及されていないのではないかと思います(あくまでも、IT業界内の話)。利用している手法で「できること」だけでなく、「できないこと」をハッキリさせるのも重要なことだと思います。実際、Kleinbergさんの論文1などで、クラスタリングの能力・定式化について研究されています。 Kleinbergさんの論文1では、クラスタリングの特徴の中からスケール不変性、豊富性、一貫性を取り上げ、3種すべてを満たすクラスタリングは存在しない、という定理が示されています。これをクラスタリングの不可能性定理(Impossibili

    クラスタリングの不可能性定理について - Qiita
  • 一元配置分散分析法、Kruskal-Wallis(クラスカル・ワリス)検定 (独立多群)

    役に立つ薬の情報~専門薬学 > 統計学 > 一元配置分散分析法、Kruskal-Wallis(クラスカル・ワリス)検定 (独立多群) 多群の検定 群数が二つなら二標の検定をするが、三つ以上の群がある場合は多群での検定をする必要がある。独立多群の検定では「データのどこかに差があるかどうか」を検定する。ただし、どことどの群で差があるかまでは分からない。 多群を検定するとき、「それぞれの群を二標t検定で検定すればよいのでは」と疑問が生じてくるが、実際にこの方法を行ってはいけない。これは、判定を間違ってしまう確率が高くなるからである。 二群の検定で判定が有意差「無」と判断される確率は(1-α)である。それでは、二群の検定を三回行った場合で三つとも有意差「無」と判断される確率は(1-α)3となる。このとき、逆に有意差「有」と判断される確率は1-(1-α)3となってしまう。 もし、検定をn回するな

  • Dunnett's test - Wikipedia

  • Rの初歩

    Rのインストール R(アール)は統計・データ解析・統計グラフ作成のためのオープンソースソフトです。CRAN(「シーラン」または「クラン」、Comprehensive R Archive Network)のミラーサイト(日では統数研 https://cran.ism.ac.jp/ など)からダウンロードし、インストールしてください。Windows用、Mac用、Linux用があります。 最近では下図のような RStudio(アール・スタジオ、英語の発音により忠実に書けばアール・ステューディオまたはアール・ストゥーディオ)という統合開発環境(IDE)を介してRを使う人が増えています。Download RStudio Desktop のページからダウンロードしてインストールします。 RStudio。左上ペインがソースエディタ(この図では隠れている)、左下がRコンソール、右上がグローバル環境のオブ

    feketerigoremet
    feketerigoremet 2014/12/03
    encoding
  • Bonferroni法、Holm法、False Discovery Rate | 大阪大学腎臓内科

    Clinical Journal Club 1. 多重比較 Familywise Error Rate さいころを1回振って、●が出る確率は1/6 = 0.167です。 さいころを2回振って、●が1回も出ない確率は、(5/6)2 = 0.694です。したがって、さいころを2回振って、1回でも●が出る確率は、1-(5/6)2 = 0.306です。 当然ながら、さいころを振れば振るほど、1回でも●が出る確率が上がっていきます。さいころを20回振って、一度も●が出ない確率は、わずか0.026です。 さいころを振る回数と1回でも●が出る可能性 さいころを繰り返し振るという事と、有意水準α = 0.05の検定を繰り返すという事は、確率論的には全く同じ事です。検定を繰り返せば繰り返すほど、偶然棄却される帰無仮説が増えます。複数回繰り返された検定全体において帰無仮説が棄却される可能性を、familywi

  • Amazon.co.jp: 史上最強図解 これならわかる!ベイズ統計学: 涌井良幸, 涌井貞美: 本

    Amazon.co.jp: 史上最強図解 これならわかる!ベイズ統計学: 涌井良幸, 涌井貞美: 本
  • Google

    世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。

  • Kaggle: The Home of Data Science

    Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

  • 第2回データビジネス創造コンテスト | 慶應義塾大学 × アクセンチュア

    高校生、大学生、大学院生(社会人経験者は除く)のチーム※。 外国学校、異なる学校に所属するメンバーにより構成されたチームを認めます。 応募の際にはメンバーの役割分担およびチーム名を明記してください。メンバーは何名でも構いません。 日語もしくは英語での応募及びプレゼンテーションを認めます。 ※個人応募も可能ですが、審査においては、個人応募よりもチーム応募を高く評価いたします。 各自治体(神奈川県、佐賀県、会津若松市、鯖江市、流山市)が抱える課題に対し、オープンデータという時代の流れを踏まえて、公開されている様々なデータを組み合わせて分析することで、これまでになかった新たな政策や解決方法を提言してください。 以下の5つの自治体の課題から1つを選んで応募してください。 自治体:神奈川県、佐賀県、会津若松市、鯖江市、流山市 政策区分:観光政策、医療政策、教育政策、少子・高齢化政策 各自治体からの

    第2回データビジネス創造コンテスト | 慶應義塾大学 × アクセンチュア
    feketerigoremet
    feketerigoremet 2014/09/30
    データビジネス
  • ビジネスインテリジェンスおよび分析ソフトウェア - Tableau Software

    Tableau を使う理由 Toggle sub-navigation Tableau とは データカルチャーの構築 Tableau Economy コミュニティ Salesforce Advantage Tableau のお客様 Tableau について Toggle sub-navigation ミッション 研究 受賞と称賛 Tableau Foundation Tableau における平等 製品 Toggle sub-navigation Tableau Tableau Pulse Data Management 埋め込み分析 CRM Analytics Enterprise Tableau Public 統合 最新リリース プランと価格 Toggle sub-navigation Pricing Calculator ソリューション Toggle sub-navigation Ta

    ビジネスインテリジェンスおよび分析ソフトウェア - Tableau Software
  • Amazon.co.jp: 図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術 (サイエンス・アイ新書): 涌井貞美: 本

    Amazon.co.jp: 図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術 (サイエンス・アイ新書): 涌井貞美: 本
  • データサイエンス・スクール/統計力向上サイト

    パソコンやスマートフォンなどで気軽に学べるオンラインの統計講座「データサイエンス・スクール」です。

    データサイエンス・スクール/統計力向上サイト
    feketerigoremet
    feketerigoremet 2014/09/22
    みんなで統計やろう〜〜
  • 2014年度ベイズ統計 - Pukiwiki

    2019-06-28 Data Sciences for the Resilient Society 2018-07-10 f-lab2014 過去の講義 2018-02-25 ICPSR2009 2017-07-20 ベイズ統計演習2014_4 2017-02-28 空間モデリング特論2017 2016-02-26 Sports Data Science 2015 2016-01-11 環境とビジネスのデータサイエンス/空間モデリング(2015年度秋学期) 2015-11-02 空間モデリング2015演習ページ(2) 2015-10-11 環境とビジネスのデータサイエンス/空間モデリング(2015年度秋学期)(SFC-SFCに移動) 空間モデリング2015演習ページ(1) 2015-08-14 ベイズ統計演習2014_7 2015-06-22 環境とビジネスのデータサイエンス(2015年

  • technica » クリスマスに機械学習で彼女ができました。

    初めまして。 新卒でSpeeeに入社をして半年ちょっとが経ちました二次元エンジニアです。現在はソーシャルゲームチームのメインエンジニアとして働いています。彼女はいませんが、最近ANIMAXとAT-Xを契約して非常に生活が充実しています。 もちろん表題は釣りです。釣られてしまった方は腹筋してください。 さて、画面の中、学校、会社で気になる女の子を見つけたらどうしますか。 勇気ある方はきっとその子の趣味や好きな物を調べて、それを口実に接触を試みるでしょう。 彼女にこんなのあったよ!って新しいものを提供しましょう! ・・・ そうだ!機械学習だ!機械学習で彼女ができるんだ! という訳で、今回はアニメ好きの女の子を想定して、アニメの感想でscikit-leanを試してみました。 今回使用するもの 今回は主にpythonとscikit-learnを使ってごにょごにょ試してみたいと思います。 実行

    technica » クリスマスに機械学習で彼女ができました。
  • 株式会社ALBERT(レコメンドエンジン)

    データ分析から導き出されたインサイト無しにAI人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ

    株式会社ALBERT(レコメンドエンジン)
  • Sensitivity and specificity - Wikipedia

    Sensitivity and specificity - The left half of the image with the solid dots represents individuals who have the condition, while the right half of the image with the hollow dots represents individuals who do not have the condition. The circle represents all individuals who tested positive. In medicine and statistics, sensitivity and specificity mathematically describe the accuracy of a test that

    Sensitivity and specificity - Wikipedia
  • データ分析手法の選び方

    統計解析の分析手法は、分析の目的、データの形式、尺度水準、データの特性、分析手法の特性等から選択します。。 統計解析の手法にはいろいろありますが、次のような点を踏まえて分析手法を選びます。 データ分析の目的を明確にする データの形式から分析手法を判断する 尺度水準から分析手法を絞り込む データの特性から分析手法を絞り込む(正規性・等分散性・標サイズなど) 検定力、頑健性なども考慮する データ分析の目的と分析手法 データ分析の目的によって次のように分析手法を使い分けます。 ①仮説が正しいかどうかを判定する・・・各種検定 関係性の検定・・・グループ間の関係が独立であるかどうかを検定する 差の検定・・・グループ間の代表値の差を検定する 平均値の差、中央値の差、分散(バラつき)の差 ※比率の差(変数間の比率の差)の検定は、グループが互いに独立であるかどうかを調べることになり、関係性の検定と同

  • Fisherの正確検定

    はじめに Fisher(フィッシャー)の正確検定(Fisher's exact test)は,分割表(クロス集計表)の各行(各列)が独立かどうかを調べる方法です。直接確率法とも呼ばれます。 この方法はFisherが1935年に著した The Design of Experiments というの序章の次の第2章の最初に出てくる有名な lady tasting tea の問題を解くために使われています。Fisherの帰無仮説の考え方を最初に説明したものとしても有名です。 2×2分割表の検定 2008年12月8日のニュースによれば,麻生内閣の支持率が前回と比べて半減しました。ネットで調べられる限りの結果を私のブログに載せました。これを見ると,20.9%から25.5%と,かなりばらつきがあります。このばらつきは偶然と考えていいでしょうか。 回答数のわかっている調査について,人数に直すと,次のよう

  • 心理データ解析第3回(2)

    この結果をSPSSのχ2検定によって検討し,賛成意見よりも反対意見の方が統計的に有意に多いことを示したい。 SPSSを起動する(既に起動してある場合には,以前のデータを保存し,ファイルメニュー→新規作成→データ) SPSSデータエディタの「変数ビュー」を開く 1番目の変数の名前に「回答」 「型」は数値,「幅」「小数桁数」はデフォルトのまま 「ラベル」に「質問の回答」と入力 「値」の「...」をクリック。値ラベルを指定する。 「0」が「反対」,「1」が「賛成」になるように指定する 「測定」の部分を「名義」にする(名義尺度の水準なので) SPSSデータエディタの「データビュー」を開く 1番目から5番目までに「1」(賛成)を,6番目から20番目までに「0」(反対)を縦に入力 自由度1,カイ2乗値は5.00,5%水準で有意である。 レポート等に記述する時は… χ2=5.00, df=1, p<.0

  • 統計学入門−第5章

    (a) 2つの変数が計量尺度の時 最も基的であり、図5.5.2の左上の図のように普通の回帰直線を求め、その回帰係数の検定および推定を行います。 そして回帰直線の当てはまり具合を表す指標として寄与率を求めます。 (→5.1 相関係数と回帰直線 (2)回帰分析) (b) 説明変数が順序尺度で目的変数が計量尺度の時 この場合は順序尺度のデータを適当に計量尺度化し、それを用いて回帰分析を行います。 説明変数は確率変数ではないため、目的変数との関係が直線的であり、かつ実質科学的に妥当なものであればどのように計量尺度化してもかまいません。 (→5.1 相関係数と回帰直線 (2)回帰分析) (c) 説明変数が計量尺度または順序尺度で目的変数が順序尺度の時 この場合は順序尺度を適当に計量尺度化して回帰分析を適用するか、それとも順序ロジスティック回帰分析を適用します。 順序ロジスティック回帰分析については