タグ

統計に関するAinHandのブックマーク (10)

  • 総務省|報道資料|データサイエンス・オンライン講座第2弾 「社会人のためのデータサイエンス演習」の受講者募集開始

    総務省は、日、将来の経済成長を担う“データサイエンス”力の高い人材育成のための取組として、データサイエンス・オンライン講座の第2弾「社会人のためのデータサイエンス演習」の受講者の募集を開始します。 この講座は、行政やビジネスでの活用を想定した実践編講座です。 ○ 我が国の国際競争力を強化し、経済成長を加速化させるためには、ビジネスの現場においても、公的統計やビッグデータを活用した課題解決能力の高い人材、いわゆるデータサイエンスを身に付けた人材が不可欠となっています。 ○ このような状況を踏まえ、総務省統計局及び統計研修所は、“データサイエンス”力の高い人材育成のための取組として、自らの学びをサポートするウェブ上で誰でも参加可能なオープンな講義「社会人のためのデータサイエンス入門」を2度に渡り開講し、延べ2万人を超える多くの方に受講いただきました。 ○ 日、上記入門編講座に続く第2弾の講

    総務省|報道資料|データサイエンス・オンライン講座第2弾 「社会人のためのデータサイエンス演習」の受講者募集開始
  • 統計・データ解析

    『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場

  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
  • システム・エンジニアの基礎知識

    静岡理工科大学情報学部コンピュータシステム学科菅沼研究室のページです.主として,プログラミング言語( HTML,C/C++, Java, JavaScript, PHP, HTML,VB,C# ),及び,システムエンジニアとしての基礎知識(数学,オペレーションズ・リサーチやシステム工学関連の手法)を扱っています.

  • 共分散と相関係数

    Up 共分散と相関係数 ページの改訂版を 岡安晴「データ分析のための統計学入門」、おうふう、2009 に用意した。 統計学入門レベルの学習に必要な数学の解説書として 岡安晴「統計学を学ぶための数学入門[上]」2008、培風館 を上梓した。 子供の年齢とともに体重は増え、50mを走るのに要する時間は短くなる。このような2つの変数(変量ともいう)の関係、年齢と体重、あるいは年齢と50m走の時間、を表す指標として共分散とか相関係数がある。まず、共分散について説明する。 いま、2つの変数との組のデータとして、(,1, 3)、(2, 4)、(3, 5)、(4, 6)、(5, 7)の5組があるとする。これらのデータを変数を横軸、変数を縦軸にとって点として表すと図1のようになる。 図1 散布図の例-その1 図1のような図は散布図という。この散布図に表されているように、ととの間には一方が増加すると他

  • RjpWiki - RjpWiki

    RjpWiki はオープンソースの統計解析システム R に関する情報交換を目的とした Wiki ですRjpWiki はオープンソースの統計解析システム 《R》 に関する情報交換を目的とした Wiki です † どなたでも自由にページを追加・編集できます. (初めて投稿・既存記事への追加・修正を行なう方はこのページ末の注意*1を御覧下さい) ページへのファイル添付については、画像ファイルのみパスワードなしで可能としてあります(ページ上部「画像添付」より)。その他のファイルの添付はパスワードを入力することで可能です(ページ上部「ファイル添付」より)。現在のパスワードは, Rでの round(qt(0.2,df=8),3) の実行結果です。 スパム書き込みに対処するため、書き込み系の処理に対してパスワードを設けました。ユーザ名の欄には,Rで round(qt(0.2,df=8),3) を実行

  • 統計解析用フリーソフト・R-Tips

    R は有名な統計言語『 S 言語』をオープンソースとして実装し直した統計解析ソフトです.さまざまなプラットフォーム(OS)に対応しており,誰でも自由にダウンロードすることができます.それにも関わらず,世界中の専門家が開発に携わっており,日々新しい手法・アルゴリズムが付け加えられています.とにかく計算が速い上にグラフィックも充実しているので数値計算などにも持ってこいです.このドキュメントは Windows 版 R と Mac OS X 版 R(と一部 Linux 版 R )でコマンドを調べた足跡です. ちなみに,この頁の内容を新しくした書籍は こちら ,電子書籍版は こちら で販売されております.

  • 統計的機械学習入門

    統計的機械学習入門(under construction) 機械学習歴史ppt pdf 歴史以前 人工知能の時代 実用化の時代 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise データの性質 数学のおさらいppt pdf 線形代数学で役立つ公式 確率分布 情報理論の諸概念 (KL-divergenceなど) 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 パーセプトロン カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 クラスタリングppt pdf 距離の定義 階層型クラスタリング K-means モデル推定ppt pdf 潜在変数のあるモデル EMアル

  • 適切なクラスタ数を推定するX-means法 - kaisehのブログ

    K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は(特に根拠もなく)200個に決め打ちになっていました。 これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC(ベイズ情報量規準)を比較し、値が改善しなくなるまで分割を続けます。 調べたところ、Javaのデータマイニングツー

    適切なクラスタ数を推定するX-means法 - kaisehのブログ
  • 平均と偏差、分散、相関

    調査とか測定を行って得たデータの集まりがあったとき、その集団の構造を端的に表現してしている代表的な言葉が平均値と偏差値です。 偏差値の出し方はともかくとして、平均値の出し方ぐらいはご存じだと思いますが、その概念的なものはどうでしょう。また、偏差値もよく聞く言葉ですが、何かモヤモヤした感じを抱いていませんか?これらはデータの集まりである集団構造を一言で表せる言葉ですので、統計にはよく用いられます。 ここでは、平均値・偏差値・分散及び相関などの概念について説明します。 【平均】 平均値を求めるには、データを全て加え総個数で割る事で求めていますが、このやり方は算術平均と呼ばれています。平均にはこの他に幾何平均、調和平均がありますが、これらは特殊なもので、通常特に断りが無ければ平均と言えば算術平均の事を指しています。 幾何平均は比率の平均を出したいとき、対数正規分布の中心を求めるとき、人口の増加率

  • 1