[B! word2vec][python] hohoho_ho2005のブックマーク

hohoho_ho2005 id:hohoho_ho2005

word2vecとpythonに関するhohoho_ho2005のブックマーク (4)

Loading...
hohoho_ho2005 2017/05/13
python

word2vec
リンク
文章をベクトル化して類似文章の検索 - Qiita
Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとはコンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。単語の意味をベクトル化する手法としてWord2Vecが存在します。詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。こうすることで、例えば「犬」と「猫」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。実装サンプル今回Doc2Vecを用いて実現するのは、以下の2つの機能です。単語で文章を検索類似文章の検索サンプルとして、青空文庫の文章を使用しました。なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzipに
hohoho_ho2005 2017/02/28
word2vec

mecab

python
リンク
【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる - Qiita
はじめに LivesenseAdventCalendar 2016 の20日目を担当する @naotaka1128 です。現在、転職会議という転職クチコミサービスのデータアナリストを担当しております。転職会議は会社のクチコミが数百万件集まっている日本最大級の転職クチコミサービスです。現状はクチコミや評点を表示しているだけなのですが、今後はクチコミを自然言語処理などで分析して今までは手に入らなかったような有益な情報を世の中に提供していきたいと思っております。今回はその取っ掛かりとして word2vec および doc2vec という自然言語処理の技術を用いてクチコミを分析し、会社の分類などを行ってみようと思います。使用する自然言語処理技術昨今、word2vecという自然言語処理の技術が話題です。ご存じの方も多いかと思いますが、大量の文章をもちいて単語をベクトル表現で数値化し、以下の
hohoho_ho2005 2016/12/21
word2vec

python
リンク
ディープラーニングで文書分類（２） | developer's blog
はじめに前回ディープラーニング（CNN）を使って、文書分類を行う方法を示した。今回は、前回示した方法を使って、Livedoor Newsコーパスをカテゴリー分類する分類器をTensorflowで実装していく。全体像おさらい今回作成するモデルの全体像は以下の図の通り。詳細は前回の記事参照。インプットデータの作成 Livedoor Newsコーパスの各文書を以下の図のような行列にする。行=各文書の単語。行数を合わせる為に、500単語で区切っている。列=各単語をWord2Vecで変換した100次元のベクトル。 models = { # ファイル名で当該文書の行列が取得できるようにする 'it-life-hack-6292880.txt':[ [-2.27736831e-01, -6.95074769e-03,...], # 旧式 [1.1219008 , -2.06810808,
hohoho_ho2005 2016/08/24
word2vec

python

tensorflow
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx