[B! word2vec] hohoho_ho2005のブックマーク

hohoho_ho2005 id:hohoho_ho2005

word2vecに関するhohoho_ho2005のブックマーク (9)

Loading...
hohoho_ho2005 2017/05/13
python

word2vec
リンク
word2vec, fasttextの差と実践的な使い方 - にほんごのれんしゅう
word2vec, fasttextの差と実践的な使い方目次 Fasttextとword2vecの差を調査する実際にあそんでみよう Fasttext, word2vecで行っているディープラーニングでの応用例具体的な応用例として、単語のバズ検知を設計して、正しく動くことを確認したので、紹介する Appendix (発表用の資料も掲載いたします,小さくて見づらいので、直リンはこちら) 原理の表面的な説明 Skip gramではある特定の単語の前後の単語の出現確率を測定することでベクトル化する図1. ある目的の単語から、周辺の単語の確率を計算してベクトル化する Word2vecとfasttextではこれを実装したものただし、fasttextにはsubwordという仕組みが入っている図2. softmaxで共起確率を計算するあそんでみよう 2017年2～3月のTwitterのデータ
hohoho_ho2005 2017/04/01
word2vec
リンク
文章をベクトル化して類似文章の検索 - Qiita
Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとはコンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。単語の意味をベクトル化する手法としてWord2Vecが存在します。詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。こうすることで、例えば「犬」と「猫」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。実装サンプル今回Doc2Vecを用いて実現するのは、以下の2つの機能です。単語で文章を検索類似文章の検索サンプルとして、青空文庫の文章を使用しました。なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzipに
hohoho_ho2005 2017/02/28
word2vec

mecab

python
リンク
【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる - Qiita
はじめに LivesenseAdventCalendar 2016 の20日目を担当する @naotaka1128 です。現在、転職会議という転職クチコミサービスのデータアナリストを担当しております。転職会議は会社のクチコミが数百万件集まっている日本最大級の転職クチコミサービスです。現状はクチコミや評点を表示しているだけなのですが、今後はクチコミを自然言語処理などで分析して今までは手に入らなかったような有益な情報を世の中に提供していきたいと思っております。今回はその取っ掛かりとして word2vec および doc2vec という自然言語処理の技術を用いてクチコミを分析し、会社の分類などを行ってみようと思います。使用する自然言語処理技術昨今、word2vecという自然言語処理の技術が話題です。ご存じの方も多いかと思いますが、大量の文章をもちいて単語をベクトル表現で数値化し、以下の
hohoho_ho2005 2016/12/21
word2vec

python
リンク
サンプルコード word2vec_basic.py をガッツリ読んでみる
仕事上でわかったことのうち顧客に関わる情報が無い物、一般公開して差し障りのなさそうな事をたまーに投稿しています。ちなみに、記事上に載せた私が書いたコードは、用途問わず再利用いただいてかまいませんが、保障は一切いたしませんので、あしからず。ですます調の記事とである調の記事が混ざりますが..こちらも、あしからず。 ※本記事は、TensorFlow Advent Calendar 2016 参加記事(2016/12/04)です。先日ふとTVを見ていたら池上彰さんまで "AI" について語っておられました.. 2016/11/23 TBS 『池上彰のニュース2016総決算! 今そこにある7つの危機を考える!ニッポンが“危ない”』番組ではシンギュラリティについての話が出ていて他国と比べ日本は仕事奪われる可能性が一番高いとでてました。国は少子化対策で既婚家族の優遇ではなくひょっとした
hohoho_ho2005 2016/12/10
word2vec
リンク
ディープラーニングで文書分類（２） | developer's blog
はじめに前回ディープラーニング（CNN）を使って、文書分類を行う方法を示した。今回は、前回示した方法を使って、Livedoor Newsコーパスをカテゴリー分類する分類器をTensorflowで実装していく。全体像おさらい今回作成するモデルの全体像は以下の図の通り。詳細は前回の記事参照。インプットデータの作成 Livedoor Newsコーパスの各文書を以下の図のような行列にする。行=各文書の単語。行数を合わせる為に、500単語で区切っている。列=各単語をWord2Vecで変換した100次元のベクトル。 models = { # ファイル名で当該文書の行列が取得できるようにする 'it-life-hack-6292880.txt':[ [-2.27736831e-01, -6.95074769e-03,...], # 旧式 [1.1219008 , -2.06810808,
hohoho_ho2005 2016/08/24
word2vec

python

tensorflow
リンク
examples\word2vecを読む - chainerで自然言語処理できるかマン
examples\word2vecに用意してあるコードを読んでいきたいと思います。 word2vecとはいろんな意味で使われているような気がしますが、正確には word2vec - Tool for computing continuous distributed representations of words. - Google Project Hosting のプログラムのことを指すと思います。 Mikolovら(2013)によって、単語の分散表現(複数の計算要素で表現するもの。ベクトルとか)を高速に得る手法が提案、ツールが公開され、得られた分散表現で単語の足し算・引き算ができたり、単語の類似性があったりで話題になっていました。岡崎先生の分散表現に関する資料：単語の分散表現と構成性の計算モデルの発展 word2vecでは、ネットワークの形として「Continuous Bag of
$examples\word2vecを読む - chainerで自然言語処理できるかマン$
hohoho_ho2005 2016/01/03
word2vec

chainer
リンク
GitHub - koji-ohki-1974/word2vec
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
hohoho_ho2005 2015/09/12
golang

word2vec
リンク
Word2Vecをhubotから使う
概要 overlast さんによる Word2Vec の WebAPI である word-vector-web-api を hubotから利用するスクリプトを書きました。 knjcode/hubot-word-vector-script Word2Vecとは Word2Vecというのは予め構築したモデル内で各単語を多次元のベクトルとして定義し、単語同士のベクトルの近似度や単語間のベクトルの近似度を求める手法です。詳細はgoogleの公式サイト等を御覧ください。例えば、(SONY – PlayStation + Nintendo) という表現は、NintendoにおけるSONYのPlayStationに相当するものを表現します。 word-vector-web-apiに付属のモデルでは、(SONY – PlayStation + Nintendo) は Wii、ゲームボーイアドバンス、ニン
hohoho_ho2005 2015/07/29
hubot

word2vec
リンク
1