タグ

word2vecとqiitaに関するni66lingのブックマーク (4)

  • いますぐ使える単語埋め込みベクトルのリスト - Qiita

    はじめに 単語埋め込みとは、単語を低次元(と言っても200次元程度はある)の実数ベクトルで表現する技術のことです。近い意味の単語を近いベクトルに対応させることができるとともに、ベクトルの足し引きで意味のある結果(例えば king - man + women = queen)が得られるのが特徴です。 単語埋め込みベクトルは品詞タグ付け、情報検索、質問応答などの様々な自然言語処理アプリケーションに使われる重要な技術です。とはいえ、実際に用意するのはなかなか骨の折れる作業です。大規模なデータをダウンロードし、前処理をかけ、長い時間をかけて学習させ、結果を見てパラメータチューニングを行う・・・。 そのため、単に使いたいだけなら学習済みのベクトルを使うのが楽です。というわけで、そんな単語埋め込みベクトルの中から今すぐ使えるものをピックアップしてみました。 埋め込みベクトルの情報は以下のリポジトリにま

    いますぐ使える単語埋め込みベクトルのリスト - Qiita
  • Word2VecとNetworkXで任意の単語をおっぱいに収束させたかった - Qiita

    Word2VecとはTomas Mikolov氏の率いるGoogleの研究チームによって発表されましたニューラルネットワーク(CBOW, Skip-gram)をオープンソースとして実装したもので、文字通り単語をベクトル表現するためのライブラリです。 出始めが2014年のようなので新しいライブラリではないのですが、ちょっちょっとググってみた感じでは上記要件を満たすために最適のようでした。 詳細は以下に詳しく記載されています Word2Vecとは? Word2vecの目的及び有用性は、類似語のベクトルをベクトルスペースにグループ化することです。つまり、数値に基づいて類似性を検知するのです。 今回はこの機能に注目してみました。 任意の言語から、『おっぱい』までのベクトルの長さの合計が一番小さな最短経路を出せばよいのではないかと思ったわけです。 gensim ディープラーニングに相性のよさそうなp

    Word2VecとNetworkXで任意の単語をおっぱいに収束させたかった - Qiita
  • 【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる - Qiita

    はじめに LivesenseAdventCalendar 2016 の20日目を担当する @naotaka1128 です。 現在、転職会議という転職クチコミサービスのデータアナリストを担当しております。 転職会議は会社のクチコミが数百万件集まっている日最大級の転職クチコミサービスです。現状はクチコミや評点を表示しているだけなのですが、今後はクチコミを自然言語処理などで分析して今までは手に入らなかったような有益な情報を世の中に提供していきたいと思っております。 今回はその取っ掛かりとして word2vec および doc2vec という自然言語処理の技術を用いてクチコミを分析し、会社の分類などを行ってみようと思います。 使用する自然言語処理技術 昨今、word2vecという自然言語処理の技術が話題です。ご存じの方も多いかと思いますが、大量の文章をもちいて単語をベクトル表現で数値化し、以下の

    【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる - Qiita
  • 文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)

    前置きというか概要 今年のEMNLP2017で提案されていたSCDV(Sparse Composite Document Vectors)について、日語のコーパス(livedoor ニュースコーパス)で検証しました。 20171114追記 fasttextベースのSCDVによるテキスト分類精度を追記しました。 SCDVのモチベーション (https://dheeraj7596.github.io/SDV/) いい感じのランディングページまで用意していてすげえなって思いました。論文は当然のようにarxivで公開されています。大正義。 https://arxiv.org/pdf/1612.06778.pdf HTMLで読みたい方はこちら。https://www.arxiv-vanity.com/papers/1612.06778/ これを読んでいる皆様に、「どうにかして文章のベクトルが欲しい

    文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017)
  • 1