タグ

2015年12月20日のブックマーク (3件)

  • Elasticsearch with Amazon Machine Learning

    Elasticsearchには色々なAPIが用意されているので、それらのAPIを色々使って今回やろうとしていることに近いこともできるのですが、今回は機械学習Amazon Machine Learning 使ってみようかと。 やりたいことは、各ドキュメントの文章を元に、3つ以上の分類を予測するための機械学習モデルの作成です。いわゆる多項分類(Multiclass Classification)。 Elasticsearchはこのモデルを作成するための、教師データ作成に使います。Elasticsearchを使うことで、言語処理などの正規化をElasticsearchに任せてしまうことができるというメリットがあります。 正解データの作成正解データの作成は、Elasticsearchに文章とカテゴリが付与されたデータをインデックスするだけです。既に商品データなど、インデックスされていればそれを

    Elasticsearch with Amazon Machine Learning
  • Elasticsearch Twitter ツィート情報リアルタイム分類

    機械学習を使った多項分類では、教師データが必要で、教師データがない場合には、この正解データを作成することがかなり大変です。例えば今回のタイトルにあるように Twitter のツィート情報をもとに任意のカテゴリーに分類したい場合、教師データを作成することも大変ですが、Twitter の特性上、特徴を抽出するためのテキスト情報も少なく、さらにせっかく作成した教師データもすぐに古くなってしまう(使い物にならない)可能性があります。 なので、今回は Elasticsearch のパワーを使って大量のツィート情報をリアルタイムに分類したいと思います。 システム概要一般に公開されている Twitter Streaming API (statuses/filter)を使って言語を ja のみ、キーワードを twitter にすると、実績値では、ツィート数:約450万件/日、インデックスサイズ:約20GB

    Elasticsearch Twitter ツィート情報リアルタイム分類
  • AWS再入門 Amazon Elasticsearch Service編 | DevelopersIO

    はじめに 当エントリはDevelopers.IOで弊社AWSチームによる2015年アドベントカレンダー 『AWS サービス別 再入門アドベントカレンダー 2015』の17日目のエントリです。昨日16日目のエントリは鈴木の『Amazoon Kinesis』でした。 このアドベントカレンダーの企画は、普段AWSサービスについて最新のネタ・深い/細かいテーマを主に書き連ねてきたメンバーの手によって、今一度初心に返って、基的な部分を見つめ直してみよう、解説してみようというコンセプトが含まれています。 日18日目のテーマは『Amazon Elasticsearch Service』です。2015/10/1にリリースと約2ヶ月半前にリリースされたサービスなので再入門と呼ぶには少し微妙な感じはありますが。。。 目次 サービスの基的な説明 Elasticsearchとは Amazon Elastic

    AWS再入門 Amazon Elasticsearch Service編 | DevelopersIO