nagayamaのブックマーク - はてなブックマーク

RubyとグラフデータベースNeo4jでソーシャルデータをいじくる - Qiita
Neo4jって何？ Neo4jはJavaで実装された、オープンソースの最も人気のあるグラフデータベースです。グラフデータベースでは、データセット全体をひとつの巨大な高密度ネットワーク構造としてモデル化します。細かい説明は、ここを見てください。 Neo4jでできることグラフデータをそのままの構造でデータベースに保存することができて、そのグラフデータを元に検索やデータの引き出しなどができます。グラフデータベースの構造は至ってシンプルで、以下の3つで構成されています。 node：関係を持つ対象 relation：方向を有する関係性 property：ノードとリレーションシップが持つ属性具体的に、弊社で運営しているTalentBaseのデータ構造をグラフデータベースで管理したらどんなことが出来るかをまとめてみます。 TalentBaseの場合、 - node：ユーザー、企業、求人 -
nagayama 2015/11/09
neo4j
リンク
Word2Vecの進化形Doc2Vecで文章と文章の類似度を算出する - Qiita
■ doc2vec.pyをカスタマイズ変更点① デフォルトのdoc2vec.pyだと、レスポンスのときのlabelがカスタマイズできなかったので、設定したlabelで結果を呼び出せるように変更してみました。変更点② doc2vec.pyのデフォルトでは、文書の似ているものは？って叩くと、文書も単語も出力されてしまうので、文書の似ている文書だけを出力するメソッドも作成しました。 #!/usr/bin/env python # -*- coding: utf-8 -*- # # Copyright (C) 2013 Radim Rehurek <me@radimrehurek.com> # Licensed under the GNU LGPL v2.1 - http://www.gnu.org/licenses/lgpl.html """ Deep learning via the d
nagayama 2015/11/06
リンク
米googleの研究者が開発したWord2Vecで自然言語処理(独自データ) - Qiita
「Word2Vec」は、米グーグルの研究者であるトマス・ミコロフ氏らが提案した手法であり、いくつかの問題について従来のアルゴリズムよりも飛躍的な精度向上を可能にした自然言語処理の手法。 Word2Vecは、その名前の表す通り、単語をベクトル化して表現するする定量化手法である。例えば日本人が日常的に使う語彙数は数万から数十万といわれるが、Word2Vecでは各単語を200次元くらいの空間内におけるベクトルとして表現する。その結果、今まで分からなかったり精度を向上するのが難しかった単語同士の類似度や、単語間での加算・減算などができるようになり、単語の「意味」を捉えられるようになった。というわけで、かなり興味深いないようなので、早速実践してみることにします。 1.環境構築 subversionを使ってWord2Vecのソースコードをcheckoutする。 mkdir ~/word2vec_t
nagayama 2015/11/06
word2vec
リンク
1