タグ

2017年8月25日のブックマーク (6件)

  • pythonのgensimライブラリを利用して日本語wikipediaの全文からword2vecを学習させるまでの全手順 - marmarossa’s blog

    Word2Vecを計算するまでの全手順を書いておこうと思います。 ご存知の方も多いと思いますが、Word2Vecは、単語をvector化して扱う技術です。 以下の解説がわかりやすいと思います。 Vector Representations of Words  |  TensorFlow 同じような使われ方をする単語同士が近くなります。 例えば、「夏」という単語の近くには、「冬」が配置されます。 さらに、vector化することで、単語の足し引きができるようになります。 例えば、「叔母」ー「女」+「男」=「叔父」となります。 前置きは、これくらいにして、実際に計算するまでの手順に移りたいと思います。 Word2Vecを計算するまでの概要 学習に利用する文章の収集 今回は、wikipediaの全文から学習させます。 フィルタリング wikipediaには、学習には必要のないXMLのコンテナ部分や

    pythonのgensimライブラリを利用して日本語wikipediaの全文からword2vecを学習させるまでの全手順 - marmarossa’s blog
  • doc2vecでWikipediaを学習する - TadaoYamaokaの開発日記

    先日の日記でTF-IDFでFAQに回答することを試したが、TF-IDFでは質問文の類似度を単語の頻度に重み付けをして測っている。 そのため、単語が完全に一致している必要があり、同じ意味の単語でも異なる単語として認識してしまう。 word2vecを使用すると単語をベクトル化することができ、意味が近ければ近いベクトルを出力することができる。 word2vecを文に適用する場合、単語ベクトルの平均をとる方法もあるが、語順が失われるという欠点がある。 doc2vecを使用すると、文の語順を考慮して、文自体をベクトル化することができる。 doc2vecには、PV-DMとPV-DBOWの2種類があり、PV-DMとPV-DBOWのベクトルを組み合わせて使用することで精度を上げることができる。 PV-DMは、文と単語にユニークな固定次元のベクトルを割り当て、文の単語列をウィンドウサイズ幅ごとに抽出し、文の

    doc2vecでWikipediaを学習する - TadaoYamaokaの開発日記
  • word2vecをwikipediaコーパスで学習 - 人生成り行き

    作業動機 今更ながら練習として映画推薦サービスを作ってみようかなと思った. とりあえず MovieLens | GroupLens をいじってみようと思ってダウンロード. 内容はこんな感じ. genome-scores.csv: タグと映画の関連性 genome-tags.csv: タグID links.csv: 別データ・セットとの映画ID対応表 movies.csv: 映画ID・タイトル・ジャンル(複数) ratings.csv: ユーザの,映画に対する評価値(悪0.5~5良)と評価した時刻. tags.csv: ユーザが映画に対してつけたtagとその時刻. ぱっと思い浮かんだのは,ユーザに幾つかの映画に対する評価をしてもらい,ratingから似た評価をしているユーザを取ってきて,そのユーザの評価が高い映画を薦めるという能動学習的な方法. その方法だときっちりユーザ登録型のWebサイト

    word2vecをwikipediaコーパスで学習 - 人生成り行き
  • Postgresqlでtree構造にWith句を使ってみる - Qiita

    postgresql9.5で実行していますがマテビューは9.3以上、with句はもっと昔から使えます。 コメントやカテゴリの管理などを行う場合に使うtree構造をDBで管理するのは結構面倒くさい。 ここのnative treeの所に幾つか実装方法が書いてあるがどれもこれも結構面倒というか難しい。 一番直感的に分かりやすい実装方法はやはり親IDを持つ方法だろう。ただ、JOINを使って階層を辿ろうと思うと大変なことになる。 そもそも階層に限りが無いのでJOINを何回行えばいいかもわからなかったりするので、条件分岐も必要になってくる。 そこでWith句。しかもRECURSIVE。 例えば下記の様なテーブルとレコードがあるとする。 CREATE TABLE items ( id INT PRIMARY KEY, parent_id INT, name TEXT NOT NULL ); ALTER

    Postgresqlでtree構造にWith句を使ってみる - Qiita
  • TwitterAPI で取得したツイートを MongoDB に保存する(Windows、pythonで) | コード7区

    以前に書いた、こちらの記事 「TwitterAPI でツイートを大量に取得」 で、ツイートを取得するプログラムを作ってみました。この時は、取得したツイートを print して終わりだったのですが、せっかくなので保存することを考えてみます。 保存先は MongoDB です。スキーマの定義が不要で楽そうだし、キー・バリュー形式でデータ保存するので TwitterAPI との相性もよさそうだからです。

    dotred
    dotred 2017/08/25
  • TwitterAPI でツイートを大量に取得。サーバー側エラーも考慮(pythonで) | コード7区

    TwitterAPI とは ツイートを投稿、閲覧するための API です。簡単に利用できるので、ツイッターにアクセスする独自アプリケーションを手軽に作成できます。 TwitterAPI を利用するには アプリケーションの登録 4つの認証キー取得 が必要にになります。 手順はいろいろなサイトで紹介されていますが、たとえば ここ で確認できます。 仕組み REST形式で要求を出し、JSON形式で結果を受け取るのが基的な仕組みです。用途に応じて様々なエンドポイントが定義されており、パラメータもそれぞれ異なります。いくつか例をあげると ●キーワードを指定してツイートを取得したければ