タグ

ブックマーク / yubessy.hatenablog.com (2)

  • Word Mover's Distance: word2vecの文書間距離への応用 - yubessy.hatenablog.com

    word2vecによって得られる語の分散表現を用いて文書間の距離(非類似度)を計算する手法についての論文を読みました。 せっかくなので解説してみます。 [1] Kusner, Matt J., et al. “From word embeddings to document distances.” Proceedings of the 32nd International Conference on Machine Learning (ICML 2015). 2015. TL;DR この論文では Word Mover’s Distance(WMD) という文書間距離の計算手法を提案しています。 提案手法は手っ取り早く言うと次のようなものです。 文書A, B間の距離 = A, Bの語同士を対応付けることでAをBに変換するとき、 対応付けのコストが最も低い場合のコストの総和 語xを語yに対応付

  • 学習アルゴリズム以外のscikit-learn便利機能と連携ライブラリ - yubessy.hatenablog.com

    Python機械学習を使う場合、scikit-learnには何かとお世話になる。 豊富な学習アルゴリズムの実装を利用できるのが長所だが、実はアルゴリズムそのもの以外にも、前処理や評価のための様々な便利機能を有している。 これらを知らずに使っていると,車輪の再発明をしてしまうことになる。 また、機械学習関連のPythonライブラリはscikit-learnと連携できるAPIをもつものも多い。 scikit-learnを中心とするエコシステムが成立しているとも言える。 中にはコードをほとんど書かずに簡単なモデリングができるようなツールまである。 この記事では個々の学習アルゴリズムではなく、scikit-learnに予め用意されている便利機能やscikit-learnと連携できるライブラリなどを紹介する。 便利モジュール・パッケージ 前処理や評価で使われる一般的なテクニックの多くは既に実装され

    学習アルゴリズム以外のscikit-learn便利機能と連携ライブラリ - yubessy.hatenablog.com
  • 1