レコメンドやデータ分析に使われることも多い類似度計算を簡単にできるmoduleを作りました。 対応している類似度は以下の3つ。 コサイン類似度 JacCard係数 Dice係数 多少汎用的に算出ができるように、配列とハッシュに対応。 ① 二つの配列を渡すと類似度が返ってくる ② 二つのハッシュを渡すと類似度が返ってくる ③ モデルとカラムを渡せば類似度を全てのレコードの組み合わせの類似度を算出してくれる(未完成) ※③は、例えばUserテーブルを持っていたとしたら、Userというクラス名と、Userモデルから取得できるデータやカラム名と重みを渡すだけで、user-user全ての類似度を算出してくれたら便利だなと思って作ってみました。 ①、②については以下のsimilarity_generator.rbで算出できる module SimilarityGenerator #data1,data