タグ

fasttextと自然言語処理に関するDe_Loreanのブックマーク (2)

  • FacebookのfastTextでFastに単語の分散表現を獲得する - Qiita

    「フランス」-「パリ」+「東京」=「日」 こんな単語同士の演算ができる、と話題になったのがGoogleが発表したWord2Vecです。これは端的に言えば単語を数値で表現する技術で、これにより単語同士の「近さ」を測ったり、上記のような演算をすることが可能になります。この、単語を数値表現にしたものを分散表現と呼びます。 今回紹介するFacebookの発表したfastTextはこのWord2Vecの延長線上にあるもので、より精度が高い表現を、高速に学習できます。稿ではその仕組みと日語文書に対しての適用方法について解説していきます。 fastTextの仕組み fastTextでは、Word2Vecとその類型のモデルでそれまで考慮されていなかった、「活用形」をまとめられるようなモデルになっています。具体的には、gogoes、そしてgoing、これらは全て「go」ですが、字面的にはすべて異なる

    FacebookのfastTextでFastに単語の分散表現を獲得する - Qiita
  • fastTextの学習済みモデルを公開しました - Qiita

    fastTextの学習済みモデルを公開しました。 以下から学習済みモデルをダウンロードすることができます: Download Word Vectors Download Word Vectors(NEologd) 埋め込みベクトルの情報は以下のリポジトリにまとめているので、こちらもよろしく。 awesome-embedding-models Motivation 以下の記事では icoxfog417 が GitHub で公開していたリンクを貼りました。 いますぐ使える単語埋め込みベクトルのリスト ただ、公開されていたベクトルをダウンロードするのにGit LFSが必要であったり場所がわかりにくいといった問題がありました。そのため、今回は簡単にダウンロードできるように学習・公開しました。 How to make fastTextの使い方は以下の記事を参考にしました。fastTextの理論と使い

    fastTextの学習済みモデルを公開しました - Qiita
  • 1