昨日の記事からのつづき. 今日は本題の順位相関係数について書く. 元々は2つのリストの類似度を測る指標としての文脈で考えていたわけだけれど,実は2つの変数が正規分布しなかったり,離散値を取る時などに相関係数を測るノンパラメトリックな方法でもあることがわかった (昨日の話). 2つの順位相関係数について解説した後,ちょっと気になること,異なる集合の順序リストの相関係数を測る方法などについて書く. 順位相関係数 情報検索や推薦などにおいて,2つの順序リストが与えられた場合に,それらがどれほど 似ているかという類似性評価のために順位相関係数を用いる. ただ,前回説明したピアソン相関係数は確率変数が正規分布している仮定を置いているので,確率変数が明らかに正規分布していない場合の計算に利用できる. 順位相関係数はケンドールの順位相関係数と,スピアマンの順位相関係数というものがある.注意するべき点は,
ソフトウェア開発の原点は可能性の追求であり、不可能を可能にすることです。ひとたび ソフトウェア が開発されると、エンジニアは次に 程度 という課題に向き合うことになります。企業向けのソフトウェアであれば、「速度はどれくらいか」と頻繁に問われ、「信頼性はどの程度か」という点が重視されます。 ソフトウェアのパフォーマンスに関する質問に答え、さらには正しい内容を語る上で欠かせないのが統計学です。 とはいえ、統計学について多くを語れる開発者はそうはいません。まさに数学と同じで、一般的なプロジェクトで統計学が話題に上ることなどないのです。では、新規にコーディングをしたり、古いコードのメンテナンスをしたりする合間に、手が空くのは誰でしょうか? エンジニアの方は、ぜひ時間を作ってください。近頃は、15分でも貴重な時間と言えるでしょうから、 こちらの記事をブックマークに追加 しておいてもいいでしょう。とに
庄野研究室は,視覚の情報処理を基盤とした画像処理,機械学習(神経回路モデル,深層学習)といった分野を中心に研究を行っています. 神経回路モデルや機械学習をベースに,計測画像などに対する情報処理技術を日夜開発しています.興味がある方はご連絡ください. 人間や動物の脳がどのような情報処理を おこなっているかは未だ人類にとって未知の領域となっています.これは情報処理の機構が異なっていることに起因していると考えられます.脳は比較的単純な部品であるニューロンと呼ばれる部品からなりたっており,ひとつひとつの ニューロンは高い能力をもっているわけでも精度の高い動作をしているわけもありません.それどころか生体の内部のさまざまな雑音によって非常に不確かな情報処理をせざるをえない状態にあります. ところが,このニューロンが莫大な個数(人間で約140億個)集まると人間のように物を視て,言葉を操り,思考を巡らすと
「相関」って何. 統計学を学んだことがあれば、誰もが一度は聞いたことがある「相関」という言葉。最近では、高校でも扱われる概念になったようですが、「相関」っていったい何でしょうか?教科書(という名のWikipedia)にはこういう風に書かれています。 相関係数(そうかんけいすう、英: correlation coefficient)とは、2 つの確率変数の間の相関(類似性の度合い)を示す統計学的指標である。原則、単位は無く、−1 から 1 の間の実数値をとり、1 に近いときは2 つの確率変数には正の相関があるといい、−1 に近ければ負の相関があるという。0 に近いときはもとの確率変数の相関は弱い。因みに 1 もしくは −1 となる場合は 2 つの確率変数は線形従属の関係にある。 ここでは、相関ではなく、相関係数という言葉を用いていますね。「相関」というのは、2つ以上のもとがあるときに、それら
相変わらずうちのチームでは論文輪読会をやってまして、先日僕が担当したのが「21世紀の相関の本命」HSIC (Hilbert-Schmidt Independence Criteria)の原論文たるこいつ↓でした。 Measuring Statistical Dependence with Hilbert-Schmidt Norms (Gretton et al., Algorithmic Learning Theory, 2005) HSICと言えば@motivic_氏の手による一昨年夏のTokyoRでの発表が一番ナイスな解説だと思います。 21世紀の手法対決 (MIC vs HSIC) 追記 HSIC関連だと鈴木先生のこれもお勧め(昔紹介したかも Bayes Independence Test - HSIC と性能を比較する- http://t.co/IMWUpB5qEu— motivi
1. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 . ...... 21 世紀の手法対決 @motivic 第 33 回 R 勉強会@東京 2013 年 8 月 31 日 @motivic 21 世紀の手法対決 2. . はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 世紀の手法対決 . . 参考 目次 ...1 はじめに 自己紹介 ...2 21 世紀の手法対決 20 世紀の独立性を見つける方法の限界 21 世紀の相関:MIC 21 世紀の検定:HSIC test いざ勝負! ...3 参考 参考文献 参考 HP @motivic 21 世紀の手法対決 3. . はじめに . . .
今年の1月にこんな話題を取り上げたわけですが。 この記事の最後にちょろっと書いた通り、実際にはこういう"too good to be true"即ち「そのモデルの精度いくら何でも高過ぎるんじゃないの?」→「実は汎化性能見てませんでした」みたいなケースって、想像よりも遥かに多くこの世の中存在するみたいなんですね。ということで、それこそ『はじパタ』の2章とかPRMLの最初の方に出てくる初歩中の初歩なんですが、その辺の話を改めてだらだら書いてみようと思います。 そもそも「精度100%」とか「相関係数0.9以上」とか見たら身構えるべき 冒頭に挙げた例は、そもそも「精度100%なんておかしい」という声があちこちから挙がったことで話題になり、蓋を開けてみたらleakageはあるわ訓練誤差でしか評価してないわで散々だったわけです。 一般に、実世界のデータセットで統計モデリングにせよ機械学習にせよモデリン
Hadley Wickham, Lisa Stryjewski. 40 years of boxplots. Download: pre-print The boxplot plot has been around for over 40 years. This paper summarises the improvements, extensions and variations since Tukey first introduced his 'schematic plot in 1970. We focus particularly on richer displays of density and extensions to 2d. @TechReport{boxplots, author = {Hadley Wickham and Lisa Stryjewski}, instit
正規分布 (normal distribution) はガウス分布 (Gaussian distribution) とも呼ばれる連続確率分布のひとつである。名前に冠されているガウスとは、19世紀のドイツの数学者 Carolus Fridericus Gauss に由来する。統計学においては理論上・実用上を問わず最も重要な確率分布といえる。応用の範囲は限りなく広く、自然科学から人文科学に至るまでの多くの現象のモデル化に用いられる。例えば、スチューデントのt検定等に代表されるパラメトリックな統計検定では多くの場合、標本変数が正規分布に従うことが仮定されている。また、身近なところではヒトの性別毎の身長の分布は正規分布に従うことがしられている。ただし、体重は正規分布ではなくガンマ分布に従う。パラメーターは期待値 μ と分散 σ2 であり、正規分布は N(μ, σ2) にて略記される。確率変数をXと
Bokeh documentation# Bokeh is a Python library for creating interactive visualizations for modern web browsers. It helps you build beautiful graphics, ranging from simple plots to complex dashboards with streaming datasets. With Bokeh, you can create JavaScript-powered visualizations without writing any JavaScript yourself. Finding the right documentation resources# Bokeh’s documentation consists
先日行われた第9回「データ解析のための統計モデリング入門」読書会にて、 「可視化で理解するマルコフ連鎖モンテカルロ法」というタイトルで発表させて頂きました。 発表スライドは以下です。 可視化で理解するマルコフ連鎖モンテカルロ法 from hoxo_m この発表は、みどりぼんに登場する、マルコフ連鎖モンテカルロ法(MCMC)のアルゴリズムである「メトロポリス法」と「ギブス・サンプラー」について、可視化して理解しようというお話です。 「マルコフ連鎖モンテカルロ法」というのは、字面だけ見ると難しそうですが、この発表で理解すべきポイントは、次のスライド 1枚に凝縮されています。 このことを念頭に置いて、それぞれの手法を見ていきましょう。 まず、メトロポリス法ですが、これは、 前の状態の近くの点を次の遷移先候補として選ぶ(マルコフ連鎖) そのときの確率比 r < 1 ならば確率 r で棄却する。それ
プログラマーのための確率プログラミングとベイズ推定¶PythonとPyMCの使い方¶ベイズ推定(Bayesian method)は,確率推論のためのもっとも適切なアプローチであるにもかかわらず,書籍を読むとページ数も数式も多いので,あまり積極的に読もうとする読者は少ないのが現状である.典型的なベイズ推定の教科書では,最初の3章を使って確率の理論を説明し,それからベイズ推論とは何かを説明する.残念ながら多くのベイズモデルは解析的に解くことが困難であるため,読者が目にするのは簡単で人工的な例題ばかりになってしまう.そのため,ベイス推論と聞いても「だから何?」と思ってしまうのである.実際,著者の私がそう思っていたのだから. 最近の機械学習のコンテストで良い成績を収めることができたので,私はこのトピックを復習しようと思い立った. 私は数学には強い方である.しかしそれでも,例題や説明を読んで頭の中で
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く