タグ

統計学に関するrotten_appleのブックマーク (19)

  • Exploratory

    Exploratory Desktop provides a Simple and Easy-to-Use UI experience to access various data sources, clean and transform data, visualize and analyze data to gain deeper insights, communicate your discoveries with Notes, and monitor your business metrics with Dashboards. You can quickly extract data from various built-in data sources such as Redshift, BigQuery, PostgreSQL, MySQL, Oracle, SQL Server,

    Exploratory
  • UTokyo OCWx

    © 2016 The University of Tokyo Center for Research and Development of Higher Education マイリストを使うと、自身が興味を持つ講義をチェックできます。 チェックした講義は随時マイリストを開くことにより確認できます。 マイリストを使うためにはログインをしてください。 プライバシーポリシー

  • 結局、機械学習と統計学は何が違うのか? - Qiita

    これは私達の行っているデータサイエンスのトレーニングで、日でもグローバルでもよく聞かれる質問です。実は2年ほど前にこの質問に正面から真摯に答えていた"Machine Learning vs. Statistics"という、とても素晴らしい記事があるのですが、今日は、そちらの記事をみなさんに紹介してみたいと思います。 ちなみに、筆者のTom FawcettとDrew HardinはSilicon Valley Data Scienceというデータサイエンスのコンサルティング会社で、多くの有名企業がデータサイエンスを使ってビジネスの問題を解決するための支援を行っていました。ちなみに、その会社の方は去年、Appleに買収されています。さらに、Tomは、「Data Science for Business」(翻訳書:戦略的データサイエンス入門 ―ビジネスに活かすコンセプトとテクニック)という有名

    結局、機械学習と統計学は何が違うのか? - Qiita
  • 科学史から最小二乗法 (回帰分析) を説明してみる - ill-identified diary

    2016/12/15: にわかに閲覧者が増えたのでおかしなところを微修正 概要 統計学史をちょっと調べていておもしろかったのでまとめてみた 技術的にはすごく初歩的な話なので, 回帰分析 (最小二乗法) の入門的な「読み物」という位置づけになりそう 入門的な読み物なので, 特に最小二乗法の説明箇所は中学高校の数学の知識だけで理解できるような表現をしている, したつもり. PDF換算で 10 ページ (ただし画像が結構多い) 惑星の軌道を予測する連立方程式で惑星の軌道を予測する19世紀初頭にフランスの数学者ルジャンドル*1が最小二乗法のアイディアを最初に発表したが, ドイツ数学者ガウス*2が直後に自分こそが先に思いついたと主張し, 論争を生んだという (Abdulle & Wanner, 2002, 200 Years of Least Squares Method). しかし, いずれが先

    科学史から最小二乗法 (回帰分析) を説明してみる - ill-identified diary
  • 実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ

    気が付いたら僕がデータ分析業界に身を置くようになってそろそろ5年近くになるんですね*1。この5年間の間に色々勉強したり業界内で見聞してきた経験をもとに、「実務の現場においてモデリングを行う上での注意点」についてだらだらと書いてみようと思います。 と言うのも、色々な現場で様々なモデリング(統計学的にせよ機械学習的にせよ)が行われていることが伝わってくるようになった一方で、ともすれば「え?こんな基礎的なポイントも守ってないの?」みたいなとんでもないモデリングがまかり通る現場があると愚痴る声を業界内で聞くことが少なくないので。自戒の意も込めて重要なポイントを備忘録としてブログ記事にまとめておくのも有益かなと思った次第です。 この記事では手法選択(線形・一般化線形・ベイズ+MCMC・識別関数・識別モデル・生成モデル・樹木モデル・Deep Learning etc.)の話題は割愛しました。一般に、モ

    実務の現場においてモデリング(統計学的・機械学習的問わず)を行う上での注意点を挙げてみる - 六本木で働くデータサイエンティストのブログ
  • 初心者でもほぼ無料でR言語を勉強できるコンテンツ10選 - paiza開発日誌

    Photo by Hermann Kaser こんにちは。谷口がお送りします。 ITエンジニアの方の中には「R言語を学習したい」という方も多くいらっしゃるかと思います。 R言語は、データ分析やデータ処理に特化したオープンソースのプログラミング言語です。システムを開発をする他のプログラムミング言語とは位置付けが異なり、統計解析機能が付いていて、解析処理やその結果をグラフィカルに表示することができます。 そのため、多量のデータ解析が求められるソーシャルゲームの解析や、リサーチ、データマイニング、アソシエーション分析が必要な業務の求人が増えています。 また近年データサイエンティストが注目されていることもあり、今後求人が増えることが予想されます。 そこで今回は、プログラミング未経験~初心者の方が、なるべくコストをかけずにR言語に触れられて、学習に役立てられるコンテンツを10件ご紹介していきます。

    初心者でもほぼ無料でR言語を勉強できるコンテンツ10選 - paiza開発日誌
  • Private Presentation

    Private content!This content has been marked as private by the uploader.

  • 社会人のためのデータサイエンス入門/総務省統計局データサイエンス・オンライン講座

    講座と併せて学習していただくことで、よりデータサイエンスへの理解が深まりますので、ぜひご受講ください。 こちらのページをご参照ください。 第1週:統計データを用いた分析事例を知り、 統計リテラシーを学ぶ ・大人がデータサイエンスを学ぶべき理由 ・統計データからわかること① ・統計データからわかること② ・統計データからわかること③ ・統計リテラシーの重要性 ・統計を利用する際の注意点 第2週:データ分析に必要な統計学の基礎を学ぶ ・データの種類 ・代表値~平均・中央・最頻値 ・ヒストグラムと相対度数 ・四分位・パーセンタイル・箱ひげ図 ・分散・標準偏差 ・相関関係 ・回帰分析 ・標分布 ・信頼区間

    社会人のためのデータサイエンス入門/総務省統計局データサイエンス・オンライン講座
  • ダメな統計学:目次|Colorless Green Ideas

    2017年1月20日追記:『ダメな統計学――悲惨なほど完全なる手引書』というが出版されることになった。このは、ここに掲載されているウェブ版の『ダメな統計学』に大幅に加筆したものだ。ウェブ版の『ダメな統計学』を読んで興味を持った方は、書籍となった『ダメな統計学』をぜひ読んでいただければと思う。書籍版の詳細については「『ダメな統計学――悲惨なほど完全なる手引書』の翻訳出版」という記事をご参照願いたい。 ここに公開する『ダメな統計学』は、アレックス・ラインハート (Alex Reinhart) 氏が書いたStatistics Done Wrongの全訳である。この文章は全部で13章から構成されている。詳しくは以下の目次を参照されたい。 はじめに データ分析入門 検定力と検定力の足りない統計 擬似反復:データを賢く選べ p値と基準率の誤り 有意であるかないかの違いが有意差でない場合 停止規則と

    ダメな統計学:目次|Colorless Green Ideas
  • Python と R で連携する - Qiita

    R と Python の連携を考える 最近 R による基的なデータプロッティングやファイル入出力の方法について説明しました。 データ分析の言語としては Python ですべてをやろうという傾向があるようですが、やはり過去の膨大な R による資産は魅力的でそう簡単に切り捨てられるものではありません。 よくあるケースとしては、部分的なデータ解析については R を流用したいが、全体的なプログラミングは Python で書きたいというシーンでしょう。また、プロッティングだけ R でおこないたいという場合もあるでしょう。こんなとき Python と R で連携できれば問題が一気に解決して便利です。 Python から R を利用するライブラリ PypeR かつては RPy2 というライブラリが使われていたようですが、最近使われており主流なのは PypeR です。 PypeR のインストール インス

    Python と R で連携する - Qiita
  • 実証分析入門|日本評論社

    第1章  実証分析における心構え: これからの「実証」の話をしよう 第2章  実証分析の落とし穴: こんなの絶対おかしいよ 第3章  確率統計の基礎: 高校時代に逢った、ような…… 第4章  OLS: わたしの、最高の友達 第5章  重回帰分析: 魔女の作り方 第6章  決定係数R2: ☆もりはつ☆の59%は勢いで出来ています 第7章  仮説検定(1): お前はもう死んでいる 第8章  仮説検定(2): 私が死んでも代わりはいるもの 第9章  さまざまなモデル: ダミーも、交差も、あるんだよ 第10章  バイアス: いや、そのりくつはおかしい 第11章  不均一分散への対処: こんなこともあろうかと 第12章  目的変数が質的変数の場合の分析手法: 飛ばねぇ豚はただの豚だ 第13章  最尤法(MLE): OLSとは違うのだよ、OLSとは! 第14章  目的変数が三択以上の場合の場合の分析手

    実証分析入門|日本評論社
  • とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】
  • 統計学用語辞典 - Weblio 学問

    あ い う え お  か き く け こ さ し す せ そ  た ち つ て と な に ぬ ね の  は ひ ふ へ ほ ま み む め も  や ゆ よ ら り る れ ろ  わ を ん が ぎ ぐ げ ご  ざ じ ず ぜ ぞ だ ぢ づ で ど  ば び ぶ べ ぼ ぱ ぴ ぷ ぺ ぽ

  • データビジュアライゼーション・ツール20選 – lab.sugimototatsuo.com

    この記事はThe top 20 data visualisation toolsの原著者許諾済みの日語訳です。 By Brian Suda on September 17, 2012 Translated by Tatsuo Sugimoto 2014年4月28日更新:オリジナル記事が以前のサイトから移転したため発生していた画像の非表示に対応しました。 わたしがもっともよくきかれる質問のひとつが、データビジュアライゼーションを始める方法についてです。このブログの先へ進むには、練習し、さらに実践し、利用できるツールを理解する必要があります。この記事では、シンプルなチャートから複雑なグラフ、地図、インフォグラフィックスまで、ビジュアライゼーションを作成するための20種類のツールを紹介しようとおもいます。ほとんどのツールは無料で利用でき、そのうちいくつかはすでにインストール済みかもしれません。

    データビジュアライゼーション・ツール20選 – lab.sugimototatsuo.com
  • 統計の基本事項

    トップページ→研究分野と周辺→システムの評価→ 基統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基的な量である基統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ

  • http://bm.hus.osaka-u.ac.jp/~torii/logistic-a/ppframe.htm

  • http://upo-net.ouj.ac.jp/tokei/contents/sub_contents/c01_07_00.xml

  • 少しの手間で説得力アップ!意外と使える官公庁の統計データ利用法 : LINE Corporation ディレクターブログ

    こんにちは、ウェブサービス部の鳴海です。 突然ですが、あなたが24歳男性だったとすると、同い年の年男は日全国で何人いるでしょう? また36歳男性には、同じく年男の同級生は何人いるでしょうか? 答えは、24歳男性が64万人、36歳男性が87万人。実は、世代間で20万人以上の差があります。また、今年の年男・年女世代の中で、最も人口の少ない12歳女性(57万人)と最も人口の多い48歳男性(89万人)では1.5倍以上の開きがあります。最近、身の回りに小学生の女の子よりも中年男性の方が多いなと思っていましたが、気のせいではなかったようです。 同級生の人口なんて普段意識することはないですが、仕事をする上ではたまに大事だったりします。いま自分が手がけているサービスのターゲットはどの層で、人口で言えばどのくらいの規模なのか、前後の世代に比べてどのような傾向があるのかなどは感覚的に掴めているといいですね

    少しの手間で説得力アップ!意外と使える官公庁の統計データ利用法 : LINE Corporation ディレクターブログ
  • Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ!

    こんにちは!今年の春からWeb系企業でHTML/CSSデザイナーとして働きだしたキラキラ女子(を目指してる)のあんちべ(23)です!よろしくお願いします!私は普段自社のWebサービスCSSなどを書いている*1のですが、最近データマイニングに興味を持ち始め、データを分析して、自社サービスの売り上げ改善に貢献したいなーと思うようになりました!でも。。。私は文系出身で統計学とか全然わからない*2し、プログラミングも得意じゃない*3し、高価な統計解析ソフトを買うのも辛いです。。。無い無い尽くしですね><;!そんな私に救いの手が!インストール作業不要で、便利な統計処理機能が色々あって、しかも無料という素晴らしいソフト*4を発見しました!その名も"Incanter"です!なんでも、 Lispっていう古くから使われてきた実績のあるプログラミング言語で動いてて、Lispの文法でどんな処理をすればよいかを

    Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ!
  • 1