[B! word2vec] somemoのブックマーク

word2vecにニンジャスレイヤーを解析させてみて思ったこと

今回は形態素解析関連のまとめよりも忍殺成分がかなり低めなので、あまり興味が湧かなければ読み飛ばし推奨です。

somemo 2014/09/19

word2vec
NLP

リンク

Word2vecの並列実行時の学習速度の改善

情報処理学会第217回自然言語処理研究会 http://www.nl-ipsj.or.jp/NL217program.html

somemo 2014/09/17

word2vec
nlp

リンク

青空文庫のデータでword2vecした出力結果のメモ : mwSoft blog

Wikipediaのデータに続いて、青空文庫のデータ（10,975タイトル、554MB）をword2vecに突っ込んでみた。青空文庫は普通にgithubに置いてある（https://github.com/aozorabunko/aozorabunko）ので、そこからcloneし、ルビや改頁指定などは除去。タイトル、底本などに関する記述も除去。ホントはあと1500タイトルほど文書があるはずなんだけど、不要な部分を除去する処理を噛ませた時にうまくいかなかったのをすっ飛ばしたので１万タイトル程度に収まる。形態素解析時に姓名は連結、カタカナの連続は連結。中黒の前後も連結。動詞は基本形に変換している。以下、distanceの結果。田中天野, 佐藤, 河崎, 津下, 大村, 服部, 中村憲吉, 土屋文明, 主筆, 塩田真佐藤森田,藤田,梅原,友枝,河村,小林,田中,西村,若井,河崎,茂

somemo 2014/09/17

word2vec
NLP

リンク

Magic: The Gathering + word2vec = "card2vec" 〜M:TGで自然言語処理〜 - 学生時代に頑張ったことが何もない

概要最近word2vecという単語のベクトル表現を学習して単語の意味を足したり引いたりできるものが流行っていて面白そうだったので試しにMagic: The Gatheringについて学習させてみました．card2vecは勝手に作った造語です．手順自然言語処理をなにも知らない私がword2vecを走らせるまで: 最尤日記，自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ！を参考にしました． 1. 必要なソフトウェアをインストールする word2vec MeCab（日本語を単語ごとに分かち書きするのに使います） 2. M:TGについて書かれた文章を用意するとりあえず以下の3つをwget -rとか使いながらダウンロードして，タグなどを消して必要そうなところ（MTG Wikiなら記事の本文，Astral Guildと2chは各書き込みの本文）だけ抽

somemo 2014/09/17

word2vec
NLP

リンク

ニューラルネットによる単語のベクトル表現の学習〜 Twitterのデータでword2vecしてみた - 病みつきエンジニアブログ

最近にわかにword2vecが流行っています。ので、乗っかってみました的記事です。理論に関してはあまり詳しくしらないので、印象だけで語っているかもしれません。何かありましたらTwitterかコメント等でご指摘いただけますと幸いです。ちなみに、失敗した話が多いです。 word2vecと単語のベクトル表現 word2vecは、機械学習の分野で使われる、ニューラルネットというモデルを使ったツール／ライブラリです*1。名前の通り、wordをvectorにします。vectorにする、というのは、ベクトル表現を獲得するということで、意味(みたいなもの)の獲得というか、素性の獲得というか。単語のベクトル表現の獲得自体は、別にword2vecにしかないわけではありません。言い換えると、昔からあります。LDAを使って単語のトピック分布のようなものを学習したり(vingowでやりました)。余談ですが、こ

somemo 2014/09/17

word2vec
NLP

リンク

手持ちの MacBook Air (OS X 10.9.2) で word2vec を動かしてみる

手持ちの MacBook Air (OS X 10.9.2) で word2vec を動かしてみる 2014-05-21-1 [Algorithm][Mac][NLP] 今個人マシンとしてメインで使っている MacBook Air (OS X 10.9.2) で word2vec を動かしてみましたよ、というお話。 - word2vec - Tool for computing continuous distributed representations of words. - Google Project Hosting https://code.google.com/p/word2vec/ マシン環境 - MacBook Air 13-inch (Mid 2013) - Mac OS X 10.9.2 (Mavericks) - 1.3GHzデュアルコアIntel Core i5 -

somemo 2014/09/17

word2vec
NLP

リンク

Statistical Semantics入門の発表をしました

先週のPFIセミナーで、Statistical Semantics入門という発表をしました。主に分布仮説をベースにした、単語の意味を文脈の分布で表現する研究を纏めました。 LSIから始まって、PLSI、LDAと続く言語モデル系、NMFなどの行列分解系、そしてNNLM、RNNLMと来て昨年流行したニューラルネット系の3つでまとめるという形をとっています。あまり専門的になりすぎず、過去からの歴史や流れを踏まえ、一方で実用面や研究テーマのココロ、問題意識を重視するような内容になるように心がけたつもりではあります。当初、他の「いわゆる意味論」との比較みたいなスライドもあったのですが、変なコト言うと刺されると思ったので消しましたｗところで、応用の観点でこれらの話をどう考えているか、というような点について触れるのを忘れたな、と思ったのでこちらに書いてみます。基本的に私見ですが。私自身は、単

somemo 2014/09/17

リンク

自然言語処理をなにも知らない私がword2vecを走らせるまで - 最尤日記

googleの中の人たちが作ったword2vecというモノがあります。deep learningを自然言語(N-gram?)に適用することにより単語を100次元くらいのベクトル空間にマップする物だと思います。面白さは以下のベージの通りですが、たったこれだけの事で、ほとんど意味理解の一歩手前まで到達していると思います。 Taku Kudo : word2vec で少し遊んでみた。いわゆる deep… 面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。（中略） A B C → X (A → Bの関係に対し、 C → X に当てはまるXを探す) グーグルヤフートヨタ → 日産渋谷新宿札幌 → 旭川警察泥棒正義 → くそ平和戦争左 → 右社員会社生徒 → 小学校空海天井 → 床板生きる死ぬ動く → 止まる・・・ Deep-le

somemo 2014/09/17

word2vec
nlp

リンク

NIPS2013読み会でword2vec論文の紹介をしました

先週、 @sla さん主催のNIPS2013読み会で、word2vec論文（正確には続報）の紹介をしました。ちょっと解説を書きます。このところの深層学習ブームは自然言語処理にも来ていて、それらのウチの1つと言われています（が、全然deepっぽさはない）。最初のモチベーションがどういうところにあったかというのは、ちょっと色々だと思いますが（おそらく最初は言語モデルにおける低頻度語の確率をウマイことモデル化・推定したかったんではないかな）、何はともあれ単語の意味的なあるいは統語的な振る舞いをベクトル表現で表すという研究が流行っております。ベクトル表現というのは、1つの単語wに対して、その単語を「表現」するようなベクトル v(w) を作ります。そんなこといわれても、作れば？ということなんですが、できたベクトルに対して何かしら「都合のいい」性質ができることが真の目標です。「都合のいい」

somemo 2014/09/17

リンク

意識高すぎて休日にword2vecをいじるしかやることなかった - 驚異のアニヲタ社会復帰の予備

word2vecという、ニューラルネットワーク的なことを用いて文書集合からコーパスを構築して、単語のベクトル演算ができるようになる手法があるらしい。艦これ加賀さんから乳を引いてみるという話を聞いてスゲー!!ってなったので、Twitterでやってみたとか英辞郎でやってみたとかMagic: The Gatheringとかwikipediaいろいろあるなか、何番煎じだよｿﾚｪ…って思われそうだけれどもやってみる。こちらを参考にword2vecをインストールする。今回はPythonではなくターミナルでカチャカチャやることにする。 demo-word.sh の中にtext8というデータがあるが、これは100MBほどのコーパスで、 anarchism originated as a term of abuse first used against early working class radic

somemo 2014/09/17

word2vec
NLP

リンク

「word2vecで遊んでみた」はてなニュース連動企画

個人のお客様0570-550-760法人・個人事業主のお客様0570-550-922年中無休 ( 10:00 ～ 18:00 ) 事前電話予約サービスで時間外も受付実験背景など 2014-4-22 第一回の実験テーマとして「重たい解析処理」という事で色々考えていたのですが、なかなか良いものが浮かびませんでした。そこで思いついたのが「株式会社はてなさん(http://www.hatena.ne.jp/)に相談しよう」です。はてなさんというとエンジニアの集まる情報サイト運営のみならず、過去には自社サービス提供用のハードウェア環境をほぼ自前で構築していたという、IT猛者集団です。早速相談してみたところ「word2vecというツールが結構重いよ」という情報を即答で頂きました。（流石です）正直、「word2vecって何ですか？」という状態でしたが、教えて頂いたサイトで確認するとハードウェア

somemo 2014/09/17

word2vec
NLP

リンク

word2vecに英辞郎データを放り込んでみた - naoya_t@hatenablog

英辞郎をword2vecに放り込んでみたらちょっと面白かったのでメモを。word2vecについては前回の記事を参照。使ったのはEIJI-138.TXT（最新より１つ古いバージョンです） EDPさんから1980円ぐらいで買えます。 ■semantically-motivated {形} : 意味論的｛いみろんてき｝に動機付けられた ■semantically-restricted {形} : 意味的｛いみてき｝に制限｛せいげん｝された ■semantics {名-1} : 意味論｛いみろん｝、記号論｛きごうろん｝ ■semantics {名-2} : 《コ》〔プログラムの〕動作 ■semantics : 【＠】セマンティックス、【分節】se・man・tics ■semantics course : 意味論｛いみろん｝のコース ■semaphore {名-1} : 手旗信号｛てばたしん

somemo 2014/09/17

nlp
word2vec

リンク

word2vecのword-analogyを可視化した - 西尾泰和のはてなダイアリー

word2vecについての解説は省略。参考文献: Taku Kudo - Google+ - https://code.google.com/p/word2vec/ で少し遊んでみた。いわゆる deep… Deep-learningはラテン語の動詞活用を学習できるか？ Can deep-learning learn latin conjugation? - naoya_t@hatena blog word2vecは簡単に説明すると単語をベクトルにするツール。デフォルトの設定だと400次元の実ベクトル空間に単語を射影する。わぁい、ベクトル空間！ man king womanと3単語のクエリを投げると、ベクトル空間上で king - man + woman に最も近い単語を探して queen と答えてくれる。ベクトル空間上で3点が与えられればそれを通る平面が決まるので、その平面に対して投影して

somemo 2014/09/17

word2vec
NLP

リンク

Python - Perl + Java = ？はてなブログのデータとパソコン工房のPCを使って「word2vec」で遊んでみた - はてなニュース

統計処理用のマシンを使って、自然言語処理で遊ぼう！ BTOパソコンで有名な「パソコン工房」から「統計処理用のPCを企画しているので、何かできないか」と相談された編集部は、はてなエンジニアと相談して「word2vec」を使って遊んでみることに。はてなブログのデータとかっこいいパソコンを使って、最新の自然言語処理で楽しむ様子をお楽しみください！記事の終わりには2TBの外付けHDDが当たるプレゼントのお知らせも。（※この記事は株式会社ユニットコムによるPR記事です） ―― BTOパソコンのショップ／サイトで有名な「パソコン工房」さんから、以下のような依頼が来ました。データサイエンティスト向けに、統計処理用に使えるパソコンをいろいろと考えています。なので、何か面白い処理に使って、PR記事にしてほしいんです！ ▽ 【パソコン工房公式サイト】BTOパソコン（PC）の通販 ―― ということで、はて

somemo 2014/09/17

word2vec
NLP

リンク

word2vec playground

The domain has expired and may be available at auction. If this is your domain, you can still renew it. Register or transfer domains to Dynadot.com to save more and build your website for free! fz-qqq.net 2022 著作権. 不許複製プライバシーポリシー