dotredのブックマーク / 2017年8月25日

dotred id:dotred

2017年8月25日のブックマーク (6件)

pythonのgensimライブラリを利用して日本語wikipediaの全文からword2vecを学習させるまでの全手順 - marmarossa’s blog
Word2Vecを計算するまでの全手順を書いておこうと思います。ご存知の方も多いと思いますが、Word2Vecは、単語をvector化して扱う技術です。以下の解説がわかりやすいと思います。 Vector Representations of Words | TensorFlow 同じような使われ方をする単語同士が近くなります。例えば、「夏」という単語の近くには、「冬」が配置されます。さらに、vector化することで、単語の足し引きができるようになります。例えば、「叔母」ー「女」＋「男」＝「叔父」となります。前置きは、これくらいにして、実際に計算するまでの手順に移りたいと思います。 Word2Vecを計算するまでの概要学習に利用する文章の収集今回は、wikipediaの全文から学習させます。フィルタリング wikipediaには、学習には必要のないXMLのコンテナ部分や
dotred 2017/08/25
word2vec

jawiki
リンク
doc2vecでWikipediaを学習する - TadaoYamaokaの開発日記
先日の日記でTF-IDFでFAQに回答することを試したが、TF-IDFでは質問文の類似度を単語の頻度に重み付けをして測っている。そのため、単語が完全に一致している必要があり、同じ意味の単語でも異なる単語として認識してしまう。 word2vecを使用すると単語をベクトル化することができ、意味が近ければ近いベクトルを出力することができる。 word2vecを文に適用する場合、単語ベクトルの平均をとる方法もあるが、語順が失われるという欠点がある。 doc2vecを使用すると、文の語順を考慮して、文自体をベクトル化することができる。 doc2vecには、PV-DMとPV-DBOWの2種類があり、PV-DMとPV-DBOWのベクトルを組み合わせて使用することで精度を上げることができる。 PV-DMは、文と単語にユニークな固定次元のベクトルを割り当て、文の単語列をウィンドウサイズ幅ごとに抽出し、文の
dotred 2017/08/25
doc2vec

jawiki
リンク
word2vecをwikipediaコーパスで学習 - 人生成り行き
作業動機今更ながら練習として映画推薦サービスを作ってみようかなと思った．とりあえず MovieLens | GroupLens をいじってみようと思ってダウンロード．内容はこんな感じ． genome-scores.csv: タグと映画の関連性 genome-tags.csv: タグID links.csv: 別データ・セットとの映画ID対応表 movies.csv: 映画ID・タイトル・ジャンル(複数) ratings.csv: ユーザの，映画に対する評価値(悪0.5~5良)と評価した時刻． tags.csv: ユーザが映画に対してつけたtagとその時刻．ぱっと思い浮かんだのは，ユーザに幾つかの映画に対する評価をしてもらい，ratingから似た評価をしているユーザを取ってきて，そのユーザの評価が高い映画を薦めるという能動学習的な方法．その方法だときっちりユーザ登録型のWebサイト
dotred 2017/08/25
jawiki
リンク
Postgresqlでtree構造にWith句を使ってみる - Qiita
postgresql9.5で実行していますがマテビューは9.3以上、with句はもっと昔から使えます。コメントやカテゴリの管理などを行う場合に使うtree構造をDBで管理するのは結構面倒くさい。ここのnative treeの所に幾つか実装方法が書いてあるがどれもこれも結構面倒というか難しい。一番直感的に分かりやすい実装方法はやはり親IDを持つ方法だろう。ただ、JOINを使って階層を辿ろうと思うと大変なことになる。そもそも階層に限りが無いのでJOINを何回行えばいいかもわからなかったりするので、条件分岐も必要になってくる。そこでWith句。しかもRECURSIVE。例えば下記の様なテーブルとレコードがあるとする。 CREATE TABLE it ems ( id INT PRIMARY KEY, parent_id INT, name TEXT NOT NULL ); ALTER
dotred 2017/08/25
postgresql
リンク
TwitterAPI で取得したツイートを MongoDB に保存する（Windows、pythonで） | コード７区
以前に書いた、こちらの記事「Twitter API でツイートを大量に取得」で、ツイートを取得するプログラムを作ってみました。この時は、取得したツイートを print して終わりだったのですが、せっかくなので保存することを考えてみます。保存先は Mongo DB です。スキーマの定義が不要で楽そうだし、キー・バリュー形式でデータ保存するので Twitter API との相性もよさそうだからです。
dotred 2017/08/25
リンク
TwitterAPI でツイートを大量に取得。サーバー側エラーも考慮（pythonで） | コード７区
Twitter API とはツイートを投稿、閲覧するための API です。簡単に利用できるので、ツイッターにアクセスする独自アプリケーションを手軽に作成できます。 Twitter API を利用するにはアプリケーションの登録４つの認証キー取得が必要にになります。手順はいろいろなサイトで紹介されていますが、たとえばここで確認できます。仕組み REST形式で要求を出し、JSON形式で結果を受け取るのが基本的な仕組みです。用途に応じて様々なエンドポイントが定義されており、パラメータもそれぞれ異なります。いくつか例をあげると ●キーワードを指定してツイートを取得したければ
dotred 2017/08/25
Python

Twitter

API
リンク
- 2017年8月26日
- 2017年8月25日
- 2017年8月23日