2022年10月22日のブックマーク (2件)

  • 接尾辞配列(Suffix Array) - Shogo Computing Laboratory

    接尾辞配列(Suffix Array)は,全文検索などに用いられるデータ構造です. それ以外にも,単語の出現回数を高速に求められたり, データ圧縮に使えたりなど,様々な応用例が提案されています. 2012年現在,SA-ISと呼ばれる手法がもっとも効率的に Suffix Array を求められるようです. その基礎となる考え方を1つずつ見ていくことにしましょう. Suffix Arrayとは Suffix Array とはどんなものなのでしょう? 定義にそった,もっとも簡単なアルゴリズムを紹介します. バケットソート 基数ソートとバケットソートは,ソートする対象の種類が有限で範囲がはっきりしている場合に 非常に有効なソート手法です. これを使って Suffix Array を求めてみます. 2段階ソート 隣り合った接尾辞の比較は非常に簡単にできます. ことのことを利用してソートを高速化します

  • Multinomial distributionとCategorical distributionの違い | LESS IS MORE

    些細な違いなんだけど調べたのでメモ。Multinomial distributionは多項分布のこと。Categorical distributionは、一般的な日語表現が見つからなかった(なのでタイトルは英語)。打つのが大変なので、以下カテゴリカル分布と書く。 結論としては、多項分布のn=1の特殊な場合がカテゴリカル分布ですよってこと。以下少しまとめる。 分布を仮定する離散変数をカテゴリと呼ぶとして、 多項分布は、n回試行したときに各カテゴリが何回出るかを表す確率分布 多項分布は、二項分布を多カテゴリに一般化したもの カテゴリカル分布は、多項分布のn=1の場合に相当する カテゴリカル分布は、ベルヌーイ分布を多カテゴリに一般化したもの 以上 nokunoさんによるこの記事→ 多項分布の最尤推定 は、多項分布というよりカテゴリカル分布の話。文には書いてあるけどね。あと最尤推定の結果はどち

    Multinomial distributionとCategorical distributionの違い | LESS IS MORE