タグ

statisticsに関するyassのブックマーク (67)

  • 機械学習を初めて勉強する人におすすめの入門書 - old school magic

    概要 私が機械学習の勉強を始めた頃、何から手を付ければ良いのかよく分からず、とても悩んだ覚えがあります。同じような悩みを抱えている方の参考になればと思い、自分が勉強していった方法を記事にしたいと思います。 目標としては、機械学習全般について、コンパクトなイメージを持てるようになることです。 そのためにも、簡単なから始めて、少しずつ難しいに挑戦して行きましょう。 入門書 何はともあれ、まずは機械学習のイメージを掴むことが大切です。 最初の一冊には、フリーソフトでつくる音声認識システムがおすすめします。 フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで 作者: 荒木雅弘出版社/メーカー: 森北出版発売日: 2007/10/17メディア: 単行(ソフトカバー)購入: 45人 クリック: 519回この商品を含むブログ (38件) を見るレビュー :

    機械学習を初めて勉強する人におすすめの入門書 - old school magic
  • PyMCがあれば,ベイズ推定でもう泣いたりなんかしない

    ベイズ推定の基とPyMCによる簡単な実装例です. 関連資料: https://github.com/scipy-japan/tokyo-scipy/tree/master/006/shima__shimaRead less

    PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
  • 非線形もOKな相関係数:MIC | Logics of Blue

    予測をするための一つの方法として、データ同士の関連を調べる作業があります。 気温とビールの売り上げは関連があるということがわかれば、予測に役立つでしょう。 データがもっともっと多くなると、どのデータ同士が関連しているのかが判別しにくくなります。 そこで相関係数の出番ですね。 このページでは、データ同士に関連があるかどうかを簡単に判別できる指標、MICの解説をします。 目次 1.MICの概要(スライド) 2.RでMIC 1.MICの概要 すごくざっくりとMICの解説をしてみました。 そのココロはわかっていただけるのではないでしょうか。 細かい話は、ぜひ原著論文を参照してください。 2.RでMIC MICは”minerva”と呼ばれるパッケージを使うことで簡単にRで計算できます。 install.packages(“minerva”) としたあとで library(minerva) を実行した

    yass
    yass 2014/03/10
    " MICはあくまでも大きなデータを捌く際のとっかかりとして使われるべきで、最後には人間がグラフを描いてそれを眺めるという作業をしたほうが良いでしょう。 とはいえ、使いようによってはMICはとっても便利です。"
  • MICの解説

    だいぶ前に大学で発表したMICの解説スライドです。 サイト作ってます。 http://logics-of-blue.com/Read less

    MICの解説
  • GitHub - antirez/redis-sampler: Small program to understand the composition of your Redis data set

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - antirez/redis-sampler: Small program to understand the composition of your Redis data set
    yass
    yass 2014/02/14
    " Small program to understand the composition of your Redis data set "
  • Statistical Semantic入門 ~分布仮説からword2vecまで~

    1. The document discusses various statistical and neural network-based models for representing words and modeling semantics, including LSI, PLSI, LDA, word2vec, and neural network language models. 2. These models represent words based on their distributional properties and contexts using techniques like matrix factorization, probabilistic modeling, and neural networks to learn vector representatio

    Statistical Semantic入門 ~分布仮説からword2vecまで~
  • カイ二乗値を用いた特徴選択 - 人工知能に関する断創録

    相互情報量を用いた特徴選択(2010/6/19)のつづきです。今回は、相互情報量ではなく、カイ二乗値を用いて特徴語を抽出してみます。カイ二乗検定は独立性の検定によく使いますけど、特徴語の抽出にも応用できるってのははじめて知りました。結局のところ相互情報量もカイ二乗値もカテゴリと単語がどれくらい依存しているかを表す尺度なのでアプローチは似ている感じがします。IIRの13.5を参考にして実装します。 カイ二乗値 カイ二乗値の定義は、 です。NやEが出てきますが、下のようなクロス表を用いて計算します。たとえば、単語「iPhone」とカテゴリ「IT」のカイ二乗値を求めたいとき、クロス表は下のようになります。たとえば、カテゴリがITで単語iPhoneを含む文書はデータ中にN11個あるなどと解釈します。 カテゴリがITである カテゴリがITでない 計 単語iPhoneを含む N11 (E11) N10

    カイ二乗値を用いた特徴選択 - 人工知能に関する断創録
  • 【書評・感想】「それ、根拠あるの?」と言わせない データ・統計分析ができる本

    書評・感想】「それ、根拠あるの?」と言わせない データ・統計分析ができる 2013-09-19-1 [BookReview][献][Mac] 献いただきました。ありがとうございます。著者は私の高校時代の同級生で優秀な切れ者であります。そして編集者も同じ高校で同学年。そんな書ですが、贔屓フィルターをはずしても、かなりの良著です。目的に合う人には、救いの書になるはず。 ■柏木吉基 / 「それ、根拠あるの?」と言わせない データ・統計分析ができる ◎データと統計で、誰もが納得する「根拠」がつくれる! 「プランに数字的な裏づけをつけたい」もしくは、「それ、根拠あるの?」、「計画通り行くの?」と突っ込まれて何も言えなくなってしまう……。 そんなとき、データ・統計分析が使えます。 書は、はじめてデータ分析をする新人が、データ集めから始め、分析をして、プレゼン資料を作成するまでを、ストーリ

    【書評・感想】「それ、根拠あるの?」と言わせない データ・統計分析ができる本
    yass
    yass 2013/09/19
    " 読者ターゲットを限定し、彼らにとっての必要最低限の知識だけにしぼり、到達目標まで導く、という本書の構成は素晴らしいものです。最低限の知識でスタートしても「挫折無し」でいけると思います。"
  • 標本はいくつ集めたらよいか 兵庫教育大学 成田 滋

    Updated December 25, 2001 [心理・教育のための統計の初歩][論文の書き方] [偏相関分析について][多変量解析は強力で難しくない] [ノンパラメトリック法による分散分析の方法 --Friedman][直線的関連 Correlation][データの変換/変数の変更] [データの性質と反復測定データ: Repeated Mesurement][ 共分散分析について][データの性質を知ろう][クラスター分析: Cluster Analysis][判別分析: Discriminant Analysis][重回帰分析: Multiple Regression Analysis][因子分析: Factor Analysis][データの標準化] サンプルサイズ いろいろな調査をする場合、どの位の標数(サンプル数)を集めたらよいかが問題となる。標とは、ある一定の

    yass
    yass 2013/08/26
    "母集団が100人と1,000人の場合の標本数を計算する / 母集団が100人の場合は80人、母集団が1,000人の場合は278人となる。母集団の大きさが10倍になったからといって、標本数も比例するわけではないことがわかる。"
  • JDistlib—Java Statistical Distribution Library

    A Java package that provides routines for various statistical distributions. Main Features Computation of the density (pdf), cumulative (cdf), quantile, and random variates of many popular statistical distributions, such as Ansari-Bradley, Beta, Binomial, Cauchy, Chi square, Exponential, Fisher's F, Gamma, Geometric, Hypergeometric, Kendall, Logistic, Log normal, Negative binomial, Noncentral beta

    yass
    yass 2013/08/03
    " Computation of the density (pdf), cumulative (cdf), quantile, and random variates of many popular statistical distributions "
  • むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )

    はじめに なぜか唐突にRブームが俺の中でやってきてしまってどうしようもないので、Rのを注文しまくってたりしていたら、下のようなの山が出来てしまいました。 これらのを付箋でペタペタしながら読み進めていくうちに、段々とRというのはどういう言語で、どういう風に勉強するといいのか、という方針が固まってきたので、ここにメモをしておきます。 Rとはどのような言語か 一言で、しかも乱暴に言ってしまうならば「統計に特化したPHP」というのが一番雰囲気を伝えられるかもしれない。いや、PHPの悪評は知っているし、ガチでRをやっている人にとっては嫌がられることもわかっているけど、あえてそういう説明が、あくまで入り口としてはわかりやすいのではないかと。 どういうことかというのを言い訳します。 自分が読んだ感じだと、統計というのは、「何らかのデータ」と「分析するためのツールとしての数式」と「その数式が意図する

    むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )
  • 確率過程ゼミ2013

    発表 #0 はじめに 確率過程では何を捉えるか.例えば,交通現象における「差異」と「変化」の関係を考える.「差異」は個体間の違い.「変化」は同一個体が方向性を持って変わること.変動を捉えるとき,従来では,観測において長時間の安定状態を調査してきた.しかし,社会における不確実性が増加してきたことなど,これを捉えることは必要であるが難しくなってきている.1断面だけでなく,繰り返しデータの集計を用いる.このときに確率論が必要になる.一義的には定義できない予測困難な現象を把握するときに,確率過程の理解が不可欠だと考えられる. 発表資料(pdf)  議事録 #1 確率論の基礎 ゼミのはじめに,確率過程の基礎を1)事象と確率,2)確率分布関数と確率密度関数,3)平均として復習した.1)では確率の考え方にはじまって条件付き確率、ベイズの定理を紹介し,2)では確率変数という概念を導入し,関数としての確率の

  • 確率分布曼荼羅 - archief voor stambomen

    Lawrence M. Leemis〈Univariate Distribution Relationships〉 http://www.math.wm.edu/~leemis/chart/UDR/UDR.html 有名な確率分布曼荼羅論文:Lawrence M. Leemis and Jacquelyn T. McQueston 2008. Univariate Distribution Relationships. The American Statistician, Vol. 62, No. 1, pp. 45-53, February 2008 DOI:10.1198/000313008X270448 → pdf に関わる情報は以前に拾い集めた(→「「Univariate Distribution Relationships」- 確率分布曼荼羅」).しかし,元の Lawren

    確率分布曼荼羅 - archief voor stambomen
  • Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ

    追記 2016年3月に以下の記事によってこの内容はupdateされています。今後はそちらをお読み下さい。 主に自分向けのまとめという意味合いが強いんですが(笑)、僕が実際に2013年6月現在webデータ分析&データサイエンスの実務でツール・ライブラリ・パッケージを利用しているものに限って、統計学・機械学習系の分析手法を10個挙げて紹介してみようと思います。 追記 回帰分析(特に線形重回帰分析) 独立性の検定(カイ二乗検定・フィッシャーの正確確率検定) 主成分分析(PCA) / 因子分析 クラスタリング 決定木 / 回帰木 サポートベクターマシン(SVM) ロジスティック回帰 ランダムフォレスト アソシエーション分析(バスケット分析・相関ルール抽出) 計量時系列分析 おわりに おまけ1:「素性ベクトル+分類ラベル」なるデータ前処理 おまけ2:グラフ理論*10 {igraph}パッケージでグラ

    Webデータ分析&データサイエンスで役立つ統計学・機械学習系の分析手法10選 - 銀座で働くデータサイエンティストのブログ
  • 小島寛之『数学的推論が世界を変える―金融・ゲーム・コンピューター』 - logical cypher scape2

    小島寛之が、様相論理について書いているが出たと聞いたので読んでみた。 ゲーム理論と可能世界意味論を組み合わせて共有知識を定式化し、共有知識によって通貨攻撃を説明するというもの。 様相論理といっても、必然性や可能性の話ではなく、その応用編(?)にあたる認識論理(書では「知識についての論理」と書かれている)について。 様相論理や可能世界意味論は、必然性や可能性以外にも、時制や義務、そして認識(「〜について知っている」)の分析にも使われている。 最後の章まで出てこないけど、最後の章で、共有知識をこれを使って定式化していて楽しい 以下目次(著者ブログより) まえがき −数学的推論で時代を見通す− 第1章 数学でマネーを稼ぐ人たち −ギャンブルからアルゴトレーディングまで− ブラックジャックの必勝法、ヘッジファンド、クオンツ、アルゴトレーディング、リスクの制御 第2章 数学的推論とは何か −トレ

    小島寛之『数学的推論が世界を変える―金融・ゲーム・コンピューター』 - logical cypher scape2
  • ミクの歌って覚える統計入門

    VOCALOID 初音ミクの歌のパワーで、統計の基礎を楽しく学んじゃおう。 もうつまらない教科書はいらない!

  • 統計的因果推論(傾向スコア)の勉強会資料をアプしてみた - Take a Risk:林岳彦の研究メモ

    みなさまお久しぶりです。私はけっきょくminor revisionに三ヶ月もかかってしまい他の仕事にしわ寄せキまくってます。 今回は某勉強会で傾向スコアを扱ったのでその勉強会資料をアップしてみます(環境によってはサムネ画像がでないかも)。 傾向スコア:その概念とRによる実装 View more presentations from takehikoihayashi *上のファイルはプレゼン用(差分)なので印刷用PDF資料としてはこちらのファイル( PSAseminar_file20120426.pdf )をどうぞ。 *追記:上記のプレゼン内で使っているRのscriptのfileもどうぞ( PropScore_Rscript.R ) 傾向スコアってなにそれおいしいの? 傾向スコアとは何かというと、実験ができない場合(調査観察データなど)における交絡の調整方法です。(一応言っておきますが交絡を

  • 傾向スコア:その概念とRによる実装

    連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む

    傾向スコア:その概念とRによる実装
  • 階層ベイズによるワンToワンマーケティング入門

    [読会]Causal transfer random forest combining logged data and randomized expe...shima o

    階層ベイズによるワンToワンマーケティング入門
  • 統計の教科書を公開 - 【小波の京女日記】(2013-03-12)

    _ 統計の教科書を公開 2013年度の学部の講義「統計学」で使用するための教科書を公開します. http://ruby.kyoto-wu.ac.jp/~konami/Text/ このテキストは,今年度まである出版社から出してもらっていたのですが,かなりの訂正と加筆を行い,元のからはかなり内容が離れてきてしまいました.また出版社も,売れ行きがぜんぜん悪いし,カリキュラムが変わって100人以上いた受講者が30人程度に激減して儲けのタネにならなくなり,書店から引き上げてしまったようです. そこで,思い切って改訂版はネットに公開して一般の人に自由に使ってもらい,学生が授業で使う分については,小部数印刷の業者に必要なぶんだけ印刷製してもらうことにしました.なんと2日で製までやってくれるということで,初回の授業で注文をとってから印刷すれば,次の講義では使えるわけです.便利な世の中です. どんな教