ぴいこは研究で、類似度を求める機能をシステムに組み込んでいます。そこで、どうしたら人間の思う「似ている」に機械が近づけるかな?と思って試行錯誤しているのですが、似ているといえばコサイン類似度以外にもN-gram(えぬぐらむ)というやり方があるということにたどり着きました。 今回は、こちらのページを大いに参考にしています!研究のソースでも、ベースにこちらのプログラムを利用させてもらって、カスタマイズして組み込んでいます。やりたいことから技術を得るのにわかりやすいページでした NEO INSPIRATION – Ngramを利用したページ類似度チェッカー+Ngram計算のphpクラス N-gramのNには、1(ユニグラム)とか2(バイグラム)とか3(トリグラム)とか、Nは好きな数字にできますが、一般的には1~3が有効です。私のシステムには2-gramを取り入れています。今回はそのN-gramに