タグ

Pythonと全文検索に関するSyunpeiのブックマーク (2)

  • Elasticsearchで分散表現を使った類似文書検索

    概要 Elasticseachに分散表現のベクトルに対する類似文書検索が実装されたということで、以下のElasticのブログ記事を参考に類似文書検索を試してみました。 Text similarity search in Elasticsearch using vector fields | Elastic Blog 類似文書検索とは、与えられたクエリの文書と似ている文書を文書集合内から検索する技術です。この際に必要となるのが「似ている」という概念で、計算機上でどうやって2つの文書間の類似度を数値として表現するかがポイントになります。例えば、互いの文書に出現する単語の一致度や重複度合いを測ったり、TF-IDFやBM25などで文書をベクトル化して比較する方法があります。ただしこれらの方法では、言い換え表現や表記の違いにより同じ意味の単語が異なる単語だと判定されたり、文書の中では重要でない単語に

    Elasticsearchで分散表現を使った類似文書検索
  • Google AnalyticsのアクセスデータをElasticsearchに投入してみる! - Qiita

    どうも。縁あって某グループ会社のGoogle Analytics(以下GAと呼びます)にアクセスすることができましたので、GAを使ったアクセス解析をやらせて貰ってました。 流石Googleさん!色々なデータが入っており、機能も充実していてとても面白かったのですが、もっと柔軟なこともやりたいなとも思いました。そこで、GAの生データを取得できないかなぁと調べていたらあるじゃないですか〜!しかも、その生データをPythonを使って取得することもできるなんて最高かよっ! ということで、今回は、GAの生データをGoogle Analytics APIを使ってPythonで取得し、そいつをElasticsearchに突っ込んで可視化してみました! 導入環境 OS : Ubuntu 16.04 LTS / 64bit Python : 3.6 Elasticsearch : 6.0.0 事前準備 GAの

    Google AnalyticsのアクセスデータをElasticsearchに投入してみる! - Qiita
  • 1