こんにちは。俺やで。 前回の投稿に続き(間が空きましたが)、 ビッグデータに対応したHiveで使える機械学習ライブラリ、 「Hivemall」の使い方、第2弾となります。 今回はMinhashという手法について書きたいと思います。 ※前回 【超入門】Hivemallで機械学習 〜Treasure Dataでロジスティック回帰編〜 しかし! Hivemallは一言で言えば「機械学習ライブラリ」ではありますが、 Minhash、これ自体は機械学習の分野の言葉ではないです… すみません。でもおもしろい考え方(手法?)なので! よろしくお願いします。 ■1. Minhashとは? 2つの集合の重なり度合いを推定する! Jaccard係数という数字をご存知でしょうか。 「難しいそうな言葉出てきた」と思われるかもしれませんが、 そんなことないです。 Jaccard係数は「2つの集合がどれだけ重なってい
![HivemallでMinhash!〜似てる記事を探し出そう。〜 | DACエンジニアブログ:アドテクゑびす界](https://cdn-ak-scissors.b.st-hatena.com/image/square/4ed9dfc0936aae73d79e9e198ed8ea5aab874504/height=288;version=1;width=512/http%3A%2F%2Fimg.ak.impact-ad.jp%2Fic%2Fpone%2Fivt%2Fyebisupress%2Fimg%2Fth_ogp_image.png)