タグ

histogramに関するyassのブックマーク (7)

  • Streaming histograms... faster

    yass
    yass 2013/11/24
    " The algorithm is online/streaming, so it only needs on pass over the data and it can always give you an estimate of the distribution so far. "
  • Home - Metamarkets

    All is well and good if we content ourselves with computations that can be distributed efficiently such as summing hourly revenue to produce daily revenue, or calculating click-through rates. In the language of Gray et al., the former calculation is distributive: we can sum the raw event prices to produce hourly revenue over each combination of dimensions and in turn sum this intermediary for furt

    Home - Metamarkets
  • Something went wrong...

  • ヒストグラムの分類幅の目安【研究者向け】 | 沿岸環境の研究日記

    ヒストグラムはデータの分布をみるときに使いますが、 分類幅を決める目安を知っておくと便利です。 自分自身に対するメモの意味も込めて、ここに書いておきます。 Sturges(1926) k = 1 + log2(n) = 1 + 3.32 log10(n) ここで、kは分類クラスの数、nはサンプル数、log2は2を底とするlogの意味。 例えば、n=1000の場合、k=10.96≒11となるので、 データの最大値、最小値を見て分類幅を決める。 ただし、Sturgesの方法はヒストグラムが滑らかになりすぎるので使わない方が良いといわれています。 Scott(1979) h = 3.5 s n^{-1/3} ここで、hは分類幅、sは標準偏差、n^{-1/3}はサンプル数の-1/3乗を表わす。 Freedman and Diaconis(1981) h = 2 IQR n^{-1/3} ここで、I

    ヒストグラムの分類幅の目安【研究者向け】 | 沿岸環境の研究日記
  • ヒストグラムの比較 - にのせき日記

    OpenCVを使ってヒストグラムの比較を行ってみる。 どうやるかというと、二つの画像のヒストグラムを計算してから、cvCompareHistを用いてそれらを比較すればいい。 今回は以下の二つの画像を使ってみた。自分の手の画像です。 myhand1.jpg myhand2.jpg cvCompareHistには四つのメソッド(Correlation、Chi-square、Intersection、Bhattacharyya distance)がサポートされている。 Correlationを用いると 結果が高いほうがよりマッチしている 完璧なマッチだった場合は1 完璧なミスマッチの場合は-1 Chi-squareを用いると 結果が低いほうがよりマッチしている 完璧なマッチだった場合は0 完璧なミスマッチだった場合は際限のない値が得られる(ヒストグラムのサイズに依存する) Intersectio

    ヒストグラムの比較 - にのせき日記
  • Earth Mover's Distance (EMD) - 人工知能に関する断創録

    Earth Mover's Distance (EMD) について調べたことを整理しておきます。EMDは、ユークリッド距離のような距離尺度の一つで、二つの分布の間の距離を測ることができます。言語処理ではあまり聞いたことなかったのですが、画像処理や音声処理では比較的有名な距離尺度のようです。 EMDが使える問題設定は下図のようになります。 EMDは特徴量と重みの集合(シグネチャと呼ぶ)で与えられる分布Pと分布Qの間の距離です。ここで、特徴量間では距離 が定義されているのが前提です。特徴量がベクトルのときはユークリッド距離、特徴量が確率分布のときはカルバック・ライブラー距離(情報量)などです。EMDは、特徴量の集合が2つ与えられたときに、1個1個の特徴量間の距離をもとに、特徴量集合間の距離を求められるんですね。これはすごい。 重みは具体的な応用によって使い方が変わりますが、その特徴量の重要度を

    Earth Mover's Distance (EMD) - 人工知能に関する断創録
  • 類似画像検索システムを作ろう - 人工知能に関する断創録

    C++版のOpenCVを使ってカラーヒストグラムを用いた類似画像検索を実験してみました。バッチ処理などのスクリプトはPythonを使ってますが、PerlでもRubyでも似たような感じでできます。 指定した画像と類似した画像を検索するシステムは類似画像検索システムと言います。GoogleYahoo!のイメージ検索は、クエリにキーワードを入れてキーワードに関連した画像を検索しますが、類似画像検索ではクエリに画像を与えるのが特徴的です。この分野は、Content-Based Image Retrieval (CBIR)と呼ばれており、最新のサーベイ論文(Datta,2008)を読むと1990年代前半とけっこう昔から研究されてます。 最新の手法では、色、形状、テクスチャ、特徴点などさまざまな特徴量を用いて類似度を判定するそうですが、今回は、もっとも簡単な「色」を用いた類似画像検索を実験してみます

    類似画像検索システムを作ろう - 人工知能に関する断創録
  • 1