2016年9月2日のブックマーク (8件)

  • word2vec可視化するやつをipython notebookから見れるようにした - once upon a time,

    オライリーから出てる、word2vecの付録についてくる id:nishiohirokazu さんが書いた可視化のコードがあります。 word2vecのword-analogyを可視化した - 西尾泰和のはてなダイアリー これを、ipython notebookから扱えるようにしました。 Visualizer word2vec data for ipython notebook 今回ipython notebookから使えるようにしたのは、厳密には上記のコードではなくて、こちらのコードなのですが、ある単語の周辺にある単語をPCAで2次元に縮退させて可視化してくれます。 大きくする ipython notebookに関しての説明は、過去の記事を参照してください。 Docker上にnbviewerを立ててiruby+Nyaplotで描いたグラフを共有できるようにしてみた - once upo

    word2vec可視化するやつをipython notebookから見れるようにした - once upon a time,
    catindog
    catindog 2016/09/02
    次元圧縮してしまうと
  • Word2VecとNetworkXで任意の単語をおっぱいに収束させたかった - Qiita

    Word2VecとはTomas Mikolov氏の率いるGoogleの研究チームによって発表されましたニューラルネットワーク(CBOW, Skip-gram)をオープンソースとして実装したもので、文字通り単語をベクトル表現するためのライブラリです。 出始めが2014年のようなので新しいライブラリではないのですが、ちょっちょっとググってみた感じでは上記要件を満たすために最適のようでした。 詳細は以下に詳しく記載されています Word2Vecとは? Word2vecの目的及び有用性は、類似語のベクトルをベクトルスペースにグループ化することです。つまり、数値に基づいて類似性を検知するのです。 今回はこの機能に注目してみました。 任意の言語から、『おっぱい』までのベクトルの長さの合計が一番小さな最短経路を出せばよいのではないかと思ったわけです。 gensim ディープラーニングに相性のよさそうなp

    Word2VecとNetworkXで任意の単語をおっぱいに収束させたかった - Qiita
    catindog
    catindog 2016/09/02
    人間の脳内の連想モデルにすごく近そうですごいと思うのだけれど、どうなのだろう
  • Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力

    Word2Vecとは Word2Vecで演算処理する Word2Vecとニューラルネットワーク Word2Vecの仕組み CBoW Skip-gram Word2Vecを応用することができる分野 レコメンド 機械翻訳 Q&A・チャットボット 感情分析 Word2Vecの弱点 Word2Vecの派生系や類似ツール GloVe WordNet Doc2Vec fastText まとめ 参考 世界中のWebサイトの数は2014年に10億件を超えたようだ。そして、Facebookのユーザー数だけでも16億人を超えている。 そして、そのいずれもコンテンツの中身の大部分はテキストから成り立っていることだろう。 ということは、莫大に増大し続けるネット上のデータのほとんどはどこかの国の言葉だってことだ。世界中の人が毎日テキストデータを生成し続けたことはこれまでの歴史上無かったんじゃないだろうか。 もしそん

    Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力
    catindog
    catindog 2016/09/02
  • word2vec - Qiita

    Motivation ・word2vecは大量のテキストを与えるだけで、単語の意味をイイ感じに表現できるベクトルが得られる ・そのイイ感じのベクトルを特徴量に使えば、様々なタスクにおいて精度向上が期待できる ・・情報推薦の精度を上げたい ・・FXの予測タスクに特徴量として使って精度上げるなど ・・可視化 ・(deep learningの一端に触れる) スタンス ・word2vecの理解はともかく、それを使って面白いことをやったり、タスクの精度を上げたりしたい Agenda | Plan ・word2vecによって得られるベクトルがどのくらいイイかを体感する (今日はこれ) ・word2vecによって得られるベクトルを情報推薦タスクに応用して、普通のベクトルの結果と比較する ・word2vecによって得られるベクトルを為替予測タスクに応用して、普通のベクトルの結果と比較する ・word2ve

    word2vec - Qiita
    catindog
    catindog 2016/09/02
    ほーん、わかりやすい
  • Pythonで主成分分析 - old school magic

    概要 主成分分析(Principal Component Analysis, PCA)とは、 データの無相関化 データの次元の削減 を行う手法です。 簡単に言うと、データを分析しやすいように再構成し、可能なら次元を下げることです。 なぜ次元を削減する必要があるかと言うと、機械学習や統計において、データの次元が大きすぎると認識精度が悪くなる、次元の呪いという現象を回避するためです。 (2次元や3次元に変換できると可視化できる、というメリットもあります。) 今回は、Pythonを使って主成分分析を試してみようと思います。 主成分分析の例 ライブラリとしてscikit-learn、テストデータとしてiris datasetを用います。 scikit-learnはPython機械学習ライブラリです。主成分分析も実装されています。 導入等については、次の記事をご参照ください。 MacPython

    Pythonで主成分分析 - old school magic
    catindog
    catindog 2016/09/02
    恥ずかしながら、そういうことだったんだと理解したレベルです
  • 機械学習ビジネス研究会(未踏研究会)

    第三回未踏研究会で発表した資料です。 https://atnd.org/events/78591 Read less

    機械学習ビジネス研究会(未踏研究会)
  • 問題文の意味がわからない人のための 言語処理100本ノック 第9章 ベクトル空間法 (I) - Qiita

    0 はじめに 言語処理100ノックは、東北大学の乾・岡崎研究室で公開されている、実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です。 これまでに、「第4章 形態素解析」、「第5章 係り受け解析」、「第8章 機械学習」を解いてきました。 引き続き「第9章 ベクトル空間法 (I)」を進めていきます。 0.1 この章でやること enwiki-20150112-400-r10-105752.txt.bz2は,2015年1月12日時点の英語Wikipedia記事のうち,約400語以上で構成される記事の中から,ランダムに1/10サンプリングした105,752記事のテキストをbzip2形式で圧縮したものである.このテキストをコーパスとして,単語の意味を表すベクトル(分散表現)を学習したい.第9章の前半では,コーパスから作成した単語文脈共起行

    問題文の意味がわからない人のための 言語処理100本ノック 第9章 ベクトル空間法 (I) - Qiita
    catindog
    catindog 2016/09/02
    Scalaほえー
  • Googleがめざす、誰もが使える機械学習

    ニューラルネットワークとは何か? ディープラーニングはなぜ注目を集めているのか? 実開発での利用の課題は? このセッションでは、これらの疑問について議論し、さらにGoogleフォトやAndroidGoogle検索等で利用されているGoogleにおける大規模なニューラルネットワーク導入事例を紹介します。…

    Googleがめざす、誰もが使える機械学習
    catindog
    catindog 2016/09/02
    TensorFlowようのプロセッサがあったとは。。。