Elasticsearchには色々なAPIが用意されているので、それらのAPIを色々使って今回やろうとしていることに近いこともできるのですが、今回は機械学習に Amazon Machine Learning 使ってみようかと。 やりたいことは、各ドキュメントの文章を元に、3つ以上の分類を予測するための機械学習モデルの作成です。いわゆる多項分類(Multiclass Classification)。 Elasticsearchはこのモデルを作成するための、教師データ作成に使います。Elasticsearchを使うことで、言語処理などの正規化をElasticsearchに任せてしまうことができるというメリットがあります。 正解データの作成正解データの作成は、Elasticsearchに文章とカテゴリが付与されたデータをインデックスするだけです。既に商品データなど、インデックスされていればそれを