![Loading...](https://cdn-ak-scissors.b.st-hatena.com/image/square/8994a8ea2536dd15087c3a841b85a3a38a6ea349/height=288;version=1;width=512/https%3A%2F%2Fi0.wp.com%2Fwww.blog.umentu.work%2Fwp-content%2Fuploads%2F2015%2F12%2Fadmin-ajax.jpeg%3Ffit%3D200%252C200%26ssl%3D1)
word2vec, fasttextの差と実践的な使い方 目次 Fasttextとword2vecの差を調査する 実際にあそんでみよう Fasttext, word2vecで行っているディープラーニングでの応用例 具体的な応用例として、単語のバズ検知を設計して、正しく動くことを確認したので、紹介する Appendix (発表用の資料も掲載いたします,小さくて見づらいので、直リンはこちら) 原理の表面的な説明 Skip gramではある特定の単語の前後の単語の出現確率を測定することでベクトル化する 図1. ある目的の単語から、周辺の単語の確率を計算してベクトル化する Word2vecとfasttextではこれを実装したもの ただし、fasttextにはsubwordという仕組みが入っている 図2. softmaxで共起確率を計算する あそんでみよう 2017年2~3月のTwitterのデータ
Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとは コンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。 単語の意味をベクトル化する手法としてWord2Vecが存在します。 詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。 こうすることで、例えば「犬」と「猫」は同じような文脈で使われるため、似た「意味」であると考えることができます。 Doc2VecはWord2Vecを応用し、文章をベクトル化するものです。 実装サンプル 今回Doc2Vecを用いて実現するのは、以下の2つの機能です。 単語で文章を検索 類似文章の検索 サンプルとして、青空文庫の文章を使用しました。 なお、この記事で使用するコードはGitHubで公開しています。 (学習に使用した文章もzipに
はじめに LivesenseAdventCalendar 2016 の20日目を担当する @naotaka1128 です。 現在、転職会議という転職クチコミサービスのデータアナリストを担当しております。 転職会議は会社のクチコミが数百万件集まっている日本最大級の転職クチコミサービスです。現状はクチコミや評点を表示しているだけなのですが、今後はクチコミを自然言語処理などで分析して今までは手に入らなかったような有益な情報を世の中に提供していきたいと思っております。 今回はその取っ掛かりとして word2vec および doc2vec という自然言語処理の技術を用いてクチコミを分析し、会社の分類などを行ってみようと思います。 使用する自然言語処理技術 昨今、word2vecという自然言語処理の技術が話題です。ご存じの方も多いかと思いますが、大量の文章をもちいて単語をベクトル表現で数値化し、以下の
仕事上でわかったことのうち顧客に関わる情報が無い物、一般公開して差し障りのなさそうな事をたまーに投稿しています。 ちなみに、記事上に載せた私が書いたコードは、用途問わず再利用いただいてかまいませんが、保障は一切いたしませんので、あしからず。 ですます調の記事とである調の記事が混ざりますが..こちらも、あしからず。 ※本記事は、TensorFlow Advent Calendar 2016 参加記事(2016/12/04)です。 先日ふとTVを見ていたら 池上彰さんまで "AI" について語っておられました.. 2016/11/23 TBS 『池上彰のニュース2016総決算! 今そこにある7つの危機を考える!ニッポンが“危ない”』 番組ではシンギュラリティについての話が出ていて 他国と比べ日本は仕事奪われる可能性が一番高いとでてました。 国は少子化対策で既婚家族の優遇ではなく ひょっとした
はじめに 前回ディープラーニング(CNN)を使って、文書分類を行う方法を示した。 今回は、前回示した方法を使って、Livedoor Newsコーパスをカテゴリー分類する分類器をTensorflowで実装していく。 全体像おさらい 今回作成するモデルの全体像は以下の図の通り。 詳細は前回の記事参照。 インプットデータの作成 Livedoor Newsコーパスの各文書を以下の図のような行列にする。 行=各文書の単語。行数を合わせる為に、500単語で区切っている。 列=各単語をWord2Vecで変換した100次元のベクトル。 models = { # ファイル名で当該文書の行列が取得できるようにする 'it-life-hack-6292880.txt':[ [-2.27736831e-01, -6.95074769e-03,...], # 旧式 [1.1219008 , -2.06810808,
examples\word2vecに用意してあるコードを読んでいきたいと思います。 word2vecとは いろんな意味で使われているような気がしますが、正確には word2vec - Tool for computing continuous distributed representations of words. - Google Project Hosting のプログラムのことを指すと思います。 Mikolovら(2013)によって、単語の分散表現(複数の計算要素で表現するもの。ベクトルとか)を高速に得る手法が提案、ツールが公開され、得られた分散表現で単語の足し算・引き算ができたり、単語の類似性があったりで話題になっていました。 岡崎先生の分散表現に関する資料:単語の分散表現と構成性の計算モデルの発展 word2vecでは、ネットワークの形として「Continuous Bag of
概要 overlast さんによる Word2Vec の WebAPI である word-vector-web-api を hubotから利用するスクリプトを書きました。 knjcode/hubot-word-vector-script Word2Vecとは Word2Vecというのは予め構築したモデル内で各単語を多次元のベクトルとして定義し、単語同士のベクトルの近似度や単語間のベクトルの近似度を求める手法です。詳細はgoogleの公式サイト等を御覧ください。 例えば、(SONY – PlayStation + Nintendo) という表現は、NintendoにおけるSONYのPlayStationに相当するものを表現します。 word-vector-web-apiに付属のモデルでは、(SONY – PlayStation + Nintendo) は Wii、ゲームボーイアドバンス、ニン
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く