[B! 統計学] alfaladioのブックマーク

alfaladio id:alfaladio

統計学に関するalfaladioのブックマーク (3)

類似度と距離 - CatTail Wiki*
２つのデータが似ている度合いを，類似度の大きさや距離の近さといった数値にしてあらわすことで，クラスタ分析や，k-近傍法，多次元尺度構成法(MDS)をはじめとするいろいろな分析を行うことが可能となる．ここでは，よく知られている類似度や距離について述べる．類似度という概念は，２つの集合の要素がまさにどれだけ似ているかを数量化したものであり，距離とは，要素同士の離れ具合，従って非類似度とちかい概念と考えてもよい．参考までに数学における距離の概念の定義を示すと，距離空間の定義 Sを１つの空でない集合とし，dをSで定義された2変数の実数値関数 d(SxS)　→　R が，以下の４条件（距離の公理） D1 ：（非負性）　任意のx,y∈Sに対して d(x,y)≧0． D2 ：（非退化性）　x,y∈Sに対し d(x,y)=0 　⇔　x=y． D3 ：（対称性）　任意のx,y∈Sに対して d(x
alfaladio 2009/08/05
まとめ

データマイニング

研究

類似度

research

統計学

距離空間

クラスタリング
リンク
N-gramモデルを利用したテキスト分析　―インデックスページ―
↑ページ先頭 N-gramモデルを利用した事例あるテキストから、任意のN-gram単位で共起頻度を集計し（N-gram統計を取る）、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。「an」の後には、必ず母音（aiueo）で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。『論語』では「子」の後に「曰」が結びつく可能性が高い。「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める（全部で六十八種の異なる平仮名（濁点含む）が使われている）音声認識やOCR（原稿読みとりソフト）での利用読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭人文学的へのN-gramモデル導入近藤みゆ
alfaladio 2009/05/08
algorithm

N-gram

統計学
リンク
Statistics::Contingency - Calculate precision, recall, F1, accuracy, etc.
名称 Statistics::Contingency - 分割表による分析概要 use Statistics::Contingency; my $s = new Statistics::Contingency(categories => \@all_categories); while (...something...) { ... $s->add_result($assigned_categories, $correct_categories); } print "Micro F1: ", $s->micro_F1, "\n"; # 個々の統計量にアクセス print $s->stats_table; # 統計量を表に出力説明 Statistics::Contingency クラスは２×２分割表（2x2 contingency tables）に基づく統計量の計算に有効である。筆者はこ
alfaladio 2008/06/12
統計学
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx