タグ

word2vecとfastTextに関するshikimihuaweiのブックマーク (4)

  • Embeddingについてまとめた。 - For Your ISHIO Blog

    下記の日OR学会の論文を参考に、Embeddingについて整理しました。 Word Embeddingモデル再訪 オペレーション・リサーチ学会 2017年11月号 20190621追記 こちらの記事もご覧ください。 ishitonton.hatenablog.com 目次 Embeddingとは何か Embeddingの各種アルゴリズム One-hot表現 共起関係の利用 LSI(Latent Semantic Indexing) Word2vec Glove fastText Character-based Embedding Word Embedding モデルのアンサンブル 日語環境下でのEmbedding ファインチューニング Embeddingとは何か 自然言語処理におけるEmbedding(埋め込み)とは、「文や単語、文字など自然言語の構成要素に対して、何らかの空間における

    Embeddingについてまとめた。 - For Your ISHIO Blog
  • Word2Vec で見つけられなかった自分らしさに fastText で速攻出会えた話 - GMOインターネットグループ グループ研究開発本部

    D. M. です。昨今はテキスト解析が非常にやりやすい時代になりました。チーム内でも活発に検証・活用されており、私も流れに乗って Word2Vec や Doc2Vec を触りだしましたが、参考になる日語の記事多いですね。よくあるのはニュース記事・青空文庫Wikipedia の解析ですが、各社の独自の文字列データ、しかも結構なサイズのデータをわせて関連語を出す記事などもあったりして、実利用可能かどうかは関係無しに楽しそうです。 やりたいこと 類語判定について、ウェブ上では既に相当いろんな種類の記事を上げられていて凄いなあと思いつつ、結構簡単に見えたので私も何か検証しようと思いました。ただ同じことをやってもあまり面白みが無いですし小規模でも始められるようなことを考えて、ひとまず自分の Twitter のつぶやきをわせて類語を見てみることにしました。今日はそんな初歩的な試みの紹介です。

    Word2Vec で見つけられなかった自分らしさに fastText で速攻出会えた話 - GMOインターネットグループ グループ研究開発本部
  • 学習済みword2vecモデルを調べてみた | hassaku's blog

    語の自然言語処理で分散表現を使おうと思った場合、まず頭に浮かぶのはword2vecだと思います。 特に分散表現自体の精度とかには興味がなく、それを使った対話システムを作りたいだけだったりするのであれば、 データクレンジングや学習には結構時間もかかるので、学習済みの公開モデルを使わせていただくのが手っ取り早そうです。 (単語ベクトルの準備に手間取り、モチベーション低下に繋がる悪い例:対話システムを作りたい!【準備編1】) 調べてみると、よく出来ていそうな公開モデルを2つ見つけたので、その利用方法と気になるベクトル次元数と単語数を調べてみました。 なお、どちらもWikipedia語版を学習元にしているようです。 word2vecを使うには、以下のバージョンのgensimを利用します。 $ pip freeze | grep gensim gensim==1.0.0 白ヤギコーポレーショ

  • FacebookのfastTextでFastに単語の分散表現を獲得する - Qiita

    「フランス」-「パリ」+「東京」=「日」 こんな単語同士の演算ができる、と話題になったのがGoogleが発表したWord2Vecです。これは端的に言えば単語を数値で表現する技術で、これにより単語同士の「近さ」を測ったり、上記のような演算をすることが可能になります。この、単語を数値表現にしたものを分散表現と呼びます。 今回紹介するFacebookの発表したfastTextはこのWord2Vecの延長線上にあるもので、より精度が高い表現を、高速に学習できます。稿ではその仕組みと日語文書に対しての適用方法について解説していきます。 fastTextの仕組み fastTextでは、Word2Vecとその類型のモデルでそれまで考慮されていなかった、「活用形」をまとめられるようなモデルになっています。具体的には、gogoes、そしてgoing、これらは全て「go」ですが、字面的にはすべて異なる

    FacebookのfastTextでFastに単語の分散表現を獲得する - Qiita
  • 1