この記事はアクトインディ Advent Calendar 2015 1日目になります。 どうぞよろしくお願いします。 要旨 アクトインディの運営する子どもとお出かけ情報サイト いこーよでは、日々、おでかけスポットの口コミがユーザーから投稿されています。 中には、おでかけスポットへの苦情や不満が書かれた口コミがあります。 そういったものを早期に検出するためSolrの類似文書検索(MoreLikeThis)機能を使用し機械的な検出を試みました。 決して精度は高くありませんが、Sunspotを使用し極めて簡単に実装できました。 使用しているデータは実際のものとは異なります。 検出方法 やりたいことは文書分類問題なので、機械学習などいろいろな方法があります。 いこーよでは全文検索エンジンにSunspot経由でSolrを使っているため、手軽に実装できることから、今回はMoreLikeThisを試して