今回は形態素解析関連のまとめよりも忍殺成分がかなり低めなので、あまり興味が湧かなければ読み飛ばし推奨です。
![word2vecにニンジャスレイヤーを解析させてみて思ったこと](https://cdn-ak-scissors.b.st-hatena.com/image/square/7c59ceef3b4a0da790b042144b761550238b8eb5/height=288;version=1;width=512/https%3A%2F%2Fs.togetter.com%2Fogp2%2Fdf49e265d4303337758c9f968bd11fe0-1200x630.png)
今回は形態素解析関連のまとめよりも忍殺成分がかなり低めなので、あまり興味が湧かなければ読み飛ばし推奨です。
情報処理学会 第217回自然言語処理研究会 http://www.nl-ipsj.or.jp/NL217program.html
Wikipediaのデータに続いて、青空文庫のデータ(10,975タイトル、554MB)をword2vecに突っ込んでみた。 青空文庫は普通にgithubに置いてある(https://github.com/aozorabunko/aozorabunko)ので、そこからcloneし、ルビや改頁指定などは除去。タイトル、底本などに関する記述も除去。 ホントはあと1500タイトルほど文書があるはずなんだけど、不要な部分を除去する処理を噛ませた時にうまくいかなかったのをすっ飛ばしたので1万タイトル程度に収まる。 形態素解析時に姓名は連結、カタカナの連続は連結。中黒の前後も連結。動詞は基本形に変換している。 以下、distanceの結果。 田中 天野, 佐藤, 河崎, 津下, 大村, 服部, 中村憲吉, 土屋文明, 主筆, 塩田真 佐藤 森田,藤田,梅原,友枝,河村,小林,田中,西村,若井,河崎,茂
概要 最近word2vecという単語のベクトル表現を学習して単語の意味を足したり引いたりできるものが流行っていて面白そうだったので試しにMagic: The Gatheringについて学習させてみました.card2vecは勝手に作った造語です. 手順 自然言語処理をなにも知らない私がword2vecを走らせるまで: 最尤日記,自然言語処理の最新手法"word2vec"で艦これ加賀さんから乳を引いてみる - あんちべ!を参考にしました. 1. 必要なソフトウェアをインストールする word2vec MeCab(日本語を単語ごとに分かち書きするのに使います) 2. M:TGについて書かれた文章を用意する とりあえず以下の3つをwget -rとか使いながらダウンロードして,タグなどを消して必要そうなところ(MTG Wikiなら記事の本文,Astral Guildと2chは各書き込みの本文)だけ抽
最近にわかにword2vecが流行っています。ので、乗っかってみました的記事です。 理論に関してはあまり詳しくしらないので、印象だけで語っているかもしれません。何かありましたらTwitterかコメント等でご指摘いただけますと幸いです。 ちなみに、失敗した話が多いです。 word2vecと単語のベクトル表現 word2vecは、機械学習の分野で使われる、ニューラルネットというモデルを使ったツール/ライブラリです*1。名前の通り、wordをvectorにします。vectorにする、というのは、ベクトル表現を獲得するということで、意味(みたいなもの)の獲得というか、素性の獲得というか。 単語のベクトル表現の獲得自体は、別にword2vecにしかないわけではありません。言い換えると、昔からあります。LDAを使って単語のトピック分布のようなものを学習したり(vingowでやりました)。余談ですが、こ
手持ちの MacBook Air (OS X 10.9.2) で word2vec を動かしてみる 2014-05-21-1 [Algorithm][Mac][NLP] 今個人マシンとしてメインで使っている MacBook Air (OS X 10.9.2) で word2vec を動かしてみましたよ、というお話。 - word2vec - Tool for computing continuous distributed representations of words. - Google Project Hosting https://code.google.com/p/word2vec/ マシン環境 - MacBook Air 13-inch (Mid 2013) - Mac OS X 10.9.2 (Mavericks) - 1.3GHzデュアルコアIntel Core i5 -
先週のPFIセミナーで、Statistical Semantics入門という発表をしました。 主に分布仮説をベースにした、単語の意味を文脈の分布で表現する研究を纏めました。 LSIから始まって、PLSI、LDAと続く言語モデル系、NMFなどの行列分解系、そしてNNLM、RNNLMと来て昨年流行したニューラルネット系の3つでまとめるという形をとっています。 あまり専門的になりすぎず、過去からの歴史や流れを踏まえ、一方で実用面や研究テーマのココロ、問題意識を重視するような内容になるように心がけたつもりではあります。 当初、他の「いわゆる意味論」との比較みたいなスライドもあったのですが、変なコト言うと刺されると思ったので消しましたw ところで、応用の観点でこれらの話をどう考えているか、というような点について触れるのを忘れたな、と思ったのでこちらに書いてみます。 基本的に私見ですが。 私自身は、単
googleの中の人たちが作ったword2vecというモノがあります。deep learningを自然言語(N-gram?)に適用することにより単語を100次元くらいのベクトル空間にマップする物だと思います。面白さは以下のベージの通りですが、たったこれだけの事で、ほとんど意味理解の一歩手前まで到達していると思います。 Taku Kudo : word2vec で少し遊んでみた。いわゆる deep… 面白いのは、2つのベクトルの差が、2つの単語の関係をよく近似してくれること。 (中略) A B C → X (A → Bの関係に対し、 C → X に当てはまるXを探す) グーグル ヤフー トヨタ → 日産 渋谷 新宿 札幌 → 旭川 警察 泥棒 正義 → くそ 平和 戦争 左 → 右 社員 会社 生徒 → 小学校 空 海 天井 → 床板 生きる 死ぬ 動く → 止まる ・・・ Deep-le
先週、 @sla さん主催のNIPS2013読み会で、word2vec論文(正確には続報)の紹介をしました。 ちょっと解説を書きます。 このところの深層学習ブームは自然言語処理にも来ていて、それらのウチの1つと言われています(が、全然deepっぽさはない)。 最初のモチベーションがどういうところにあったかというのは、ちょっと色々だと思いますが(おそらく最初は言語モデルにおける低頻度語の確率をウマイことモデル化・推定したかったんではないかな)、何はともあれ単語の意味的なあるいは統語的な振る舞いをベクトル表現で表すという研究が流行っております。 ベクトル表現というのは、1つの単語wに対して、その単語を「表現」するようなベクトル v(w) を作ります。 そんなこといわれても、作れば?ということなんですが、できたベクトルに対して何かしら「都合のいい」性質ができることが真の目標です。 「都合のいい」
word2vecという、ニューラルネットワーク的なことを用いて文書集合からコーパスを構築して、単語のベクトル演算ができるようになる手法があるらしい。 艦これ加賀さんから乳を引いてみるという話を聞いてスゲー!!ってなったので、Twitterでやってみたとか英辞郎でやってみたとかMagic: The Gatheringとかwikipediaいろいろあるなか、何番煎じだよソレェ…って思われそうだけれどもやってみる。 こちらを参考にword2vecをインストールする。今回はPythonではなくターミナルでカチャカチャやることにする。 demo-word.sh の中にtext8というデータがあるが、これは100MBほどのコーパスで、 anarchism originated as a term of abuse first used against early working class radic
個人のお客様0570-550-760法人・個人事業主のお客様0570-550-922年中無休 ( 10:00 ~ 18:00 ) 事前電話予約サービスで時間外も受付 実験背景など 2014-4-22 第一回の実験テーマとして「重たい解析処理」という事で色々考えていたのですが、なかなか良いものが浮かびませんでした。 そこで思いついたのが「株式会社はてなさん(http://www.hatena.ne.jp/)に相談しよう」です。 はてなさんというとエンジニアの集まる情報サイト運営のみならず、過去には自社サービス提供用のハードウェア環境をほぼ自前で構築していたという、IT猛者集団です。 早速相談してみたところ「word2vecというツールが結構重いよ」という情報を即答で頂きました。(流石です) 正直、「word2vecって何ですか?」という状態でしたが、教えて頂いたサイトで確認するとハードウェア
英辞郎をword2vecに放り込んでみたらちょっと面白かったのでメモを。word2vecについては前回の記事を参照。 使ったのはEIJI-138.TXT(最新より1つ古いバージョンです) EDPさんから1980円ぐらいで買えます。 ■semantically-motivated {形} : 意味論的{いみろん てき}に動機付けられた ■semantically-restricted {形} : 意味的{いみ てき}に制限{せいげん}された ■semantics {名-1} : 意味論{いみろん}、記号論{きごうろん} ■semantics {名-2} : 《コ》〔プログラムの〕動作 ■semantics : 【@】セマンティックス、【分節】se・man・tics ■semantics course : 意味論{いみろん}のコース ■semaphore {名-1} : 手旗信号{てばた しん
word2vecについての解説は省略。参考文献: Taku Kudo - Google+ - https://code.google.com/p/word2vec/ で少し遊んでみた。いわゆる deep… Deep-learningはラテン語の動詞活用を学習できるか? Can deep-learning learn latin conjugation? - naoya_t@hatenablog word2vecは簡単に説明すると単語をベクトルにするツール。デフォルトの設定だと400次元の実ベクトル空間に単語を射影する。わぁい、ベクトル空間! man king womanと3単語のクエリを投げると、ベクトル空間上で king - man + woman に最も近い単語を探して queen と答えてくれる。 ベクトル空間上で3点が与えられればそれを通る平面が決まるので、その平面に対して投影して
統計処理用のマシンを使って、自然言語処理で遊ぼう! BTOパソコンで有名な「パソコン工房」から「統計処理用のPCを企画しているので、何かできないか」と相談された編集部は、はてなエンジニアと相談して「word2vec」を使って遊んでみることに。はてなブログのデータとかっこいいパソコンを使って、最新の自然言語処理で楽しむ様子をお楽しみください! 記事の終わりには2TBの外付けHDDが当たるプレゼントのお知らせも。 (※この記事は株式会社ユニットコムによるPR記事です) ―― BTOパソコンのショップ/サイトで有名な「パソコン工房」さんから、以下のような依頼が来ました。 データサイエンティスト向けに、統計処理用に使えるパソコンをいろいろと考えています。なので、何か面白い処理に使って、PR記事にしてほしいんです! ▽ 【パソコン工房公式サイト】BTOパソコン(PC)の通販 ―― ということで、はて
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く