タグ

統計に関するiaskellのブックマーク (10)

  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
  • 本の虫: 確率分布の使い方

    C++0xのstd::randomには、様々な分布クラスが存在する。一体どうやって使い分ければいいのか。ここでは、ゲームにたとえて考えてみる。 もっとも簡単な分布は、一様分布(Uniform distributions)である。これは、a ≦ i ≦ b, の範囲の値iを、それぞれ等しい確率で返す分布である。 ゲームでいえば、サイコロやルーレットなどの実装に使えるだろう。 // 六面サイコロの実装 int main() { std::mt19937 rng ; // 一様分布 // 0から5までの数字を等しい確率で返す分布 std::uniform_int_distribution<> dice(0, 5) ; int a[6] = { } ; // 六面サイコロの出た目の回数を記録する配列 // 600回サイコロを振る for ( int i = 0 ; i != 600 ; ++i )

  • とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】
  • データサイエンティスト レベル表 - shakezoの日記

    プログラマレベルというページがとても面白かったのでデータサイエンティスト版つくってみました。データサイエンティストの定義は[twitter:@TJO_datasci]さんのQuantitative analystに準拠しつつ技術面に焦点をあててレベル分けしています。 レベル0 このレベルの人はデータ分析をしたことがありません。最近テレビでよく目にするビッグデータについては何だが凄そうというイメージは持っています。そしてデータサイエンティストという言葉を知らない人が大半です。 ありがちな発言 「ビッグデータってすごいらしいね」 レベル1 レベル1の人達は仕事や大学等の課題でExcelを用いた集計や簡単な相関分析などを実施したことがあります。ただし分析にあまり興味を持っておらずデータをニヤニヤしながら眺めている上位レベルの人達を変人だと思っています。彼らにとってビッグデータやデータサイエンティ

    データサイエンティスト レベル表 - shakezoの日記
  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • 統計の基本事項

    トップページ→研究分野と周辺→システムの評価→ 基統計量 平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。 そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。 統計の最も基的な量である基統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(デ

  • データサイエンティストではない人に知っておいて欲しい事 - hotokuとは

    統計を専門にしている訳ではない人と話していて感じた違和感があったので、書き留めておきたい。 疑うべき順番は モデル → 推定法 データ分析をしていれば、当然、期待を掛けたモデルのデータへの当てはまりそうが悪いという事が度々ある。こういう時、統計屋さんとして自然に浮かぶのは「モデルが間違っている」という発想である。と思うのだが、非統計屋さんと話していると、このような時に「別の推定法を試してみたらどうだろう」と言われる事がある。多分、目の前のモデルに対する過度の期待から来るのだろうと思うが、このような態度では統計的に見ると妥当性を欠いた分析をしてしまう危険を孕んでいる。 ひとつの事例 とある線型状態空間モデルのパラメータを推定した所、どうしてもデータに合わない部分があった。実は、それが合わない理由は簡単で、ある潜在変数は常に正であるはずなのだ。線型状態空間モデルでは、潜在変数の分布は正規分布で

    データサイエンティストではない人に知っておいて欲しい事 - hotokuとは
  • Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ!

    こんにちは!今年の春からWeb系企業でHTML/CSSデザイナーとして働きだしたキラキラ女子(を目指してる)のあんちべ(23)です!よろしくお願いします!私は普段自社のWebサービスCSSなどを書いている*1のですが、最近データマイニングに興味を持ち始め、データを分析して、自社サービスの売り上げ改善に貢献したいなーと思うようになりました!でも。。。私は文系出身で統計学とか全然わからない*2し、プログラミングも得意じゃない*3し、高価な統計解析ソフトを買うのも辛いです。。。無い無い尽くしですね><;!そんな私に救いの手が!インストール作業不要で、便利な統計処理機能が色々あって、しかも無料という素晴らしいソフト*4を発見しました!その名も"Incanter"です!なんでも、 Lispっていう古くから使われてきた実績のあるプログラミング言語で動いてて、Lispの文法でどんな処理をすればよいかを

    Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ!
  • 放射線によるがんリスク上昇について - aggren0xの日記

    放射線を累積1シーベルト浴びると、がんのリスクが1.5倍になるらしい。現代に生きる日人ならばもはや誰もが知っている(多分)。 で、これってどういう意味なんだろうか。というか、あなたにとってどういう意味がある数値なのか。あなたは多量の放射線を浴びたとする。あなたはがんになるのだろうか?1.5ってなんですか? がんのリスクは集団という文脈において捉えられがちだ(そしてそれは、正しい)。しかし当に知りたいのは個人のリスクだと思わないだろうか?「日人集団のがんの発症数が1.5倍になる」かどうかなんて、どうでもいい、とまでは言わないが興味の中心ではない。当は、あなたが、あるいはあなたの家族、恋人、友人が、がんになるかどうかを知りたいんじゃないだろうか? ここでは、放射線による「リスク」の個人という視点からの意味について考えてみたい*1。 で、あなたは将来がんになるのか? あなたはがんになるの

    放射線によるがんリスク上昇について - aggren0xの日記
  • 妊婦のダウン症検査の話、陽性的中率 - aggren0xの日記

    オーダーメイド医療シリーズを書くと言いながら止めておきながらこんなことをして少し後ろめたいですが、頭の体操として。 妊婦血液で出生前検査 異常99%判明 http://www3.nhk.or.jp/news/html/20120829/t10014608571000.html これにおいて 「検査の対象は、胎児の染色体異常のリスクが高まる35歳以上の高齢出産妊婦などとしたうえで」 制限つける必要あるのかねえ というid:wdnsdyさんのコメントが現時点で一番スターが多くついています。ですがこれは絶対必要な条件です。成育医療センターと昭和大の先生方は適切にもこの年齢制限を設定した、というべきです。その理由は知っていさえすれば特に難しいことはなく、ブコメ欄にもいくつも手がかりとなるコメントを残している方はいますが、わかりやすく説明できるかどうかを試みてみるものです。 個人から見た検査の精度

    妊婦のダウン症検査の話、陽性的中率 - aggren0xの日記
  • 1