Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
もう既に山ほど解説記事が出回っていて、あまつさえそれを利用したwebサービスまで出てきてしまっているword2vecですが、うちの現場でも流行っているのでせっかくなので僕もやってみようと思い立ったのでした。 word2vecそのものについては昨年来大量にブログやら何やらの記事が出回っているので、詳細な説明は割愛します。例えばPFIの海野さんのslideshare(Statistical Semantic入門 ~分布仮説からword2vecまで~)なんかは非常に分かりやすいかと思います。 要するにword2vecって何よ Recurrent Neural Network(再帰型ニューラルネットワーク)で、単語同士のつながり(というか共起関係)に基づいて単語同士の関係性をベクトル化(定量化)し、これを100次元とか200次元に圧縮して表現するもの。。。みたいです(汗)*1。 ※以下のようにご指
環境 OS X El Capitan 10.11.5 MacBook Pro (Retina 13-inch、Early 2015) [2016/8/1現在] MeCab, mecab-ipadic-NEologd のインストール MeCabはオープンソースの日本語形態素解析ソフトです。 mecab-ipadic-neologdは、Web上のリソースから新しい言葉を登録したMecab用の辞書のことです。さらに、定期的に新しい言葉をアップデートするので、最新の言葉を正しく形態素解析をすることができます。 必要なライブラリをインストール brew install mecab mecab-ipadic git curl xz git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git cd mecab-ipadi
こんにちわ。白ヤギコーポレーションでエンジニアをしている谷田です。 自然言語処理では、テキストに含まれる単語をベクトルとして表現するというタスクが頻繁に発生します。最近ではそのために、日本語テキストが来たらMeCabに渡してword2vecに投入する、というのが定番パターンのひとつかと思います。word2vecは単語を分散表現と呼ばれる低次のベクトルに変換するモデルですが、単語をベクトルに変換するためには事前に学習を走らせておく必要があります。word2vecモデルの学習にはよくWikipedia日本語版をコーパスとして使ったりするのですが、全記事で学習を走らせると結構時間がかかります。 そこで、白ヤギが作った日本語word2vecモデルを公開します! http://public.shiroyagi.s3.amazonaws.com/latest-ja-word2vec-gensim-mo
近況 はじめに 最近、ちょっと大喜利を始めていて、如何に面白いことを言えるのか、ということを考えたりしているんだけど、考えてみれば、自分は少しプログラミングができるし、むしろ形態素解析や自然言語処理という観点から「質問」と「ボケ」を考えてみると面白いかもしれない、と思って、力技でそういうことをやってみた次第。 今回の方針 とはいえ、何となく「質問に対して上手いボケを返してほしいな」ということであるならば、それこそ単語のランダム検出でもいいという話になってしまうので、ある程度仮説を立てて実装する。今回の仮説としては、「ある文が連想する知識の、派生する知識がその文と結びつけられた場合、人は上手いと思うのではないか」ということだ。 どういうことか。 例えば、謎かけの場合、「Aとときまして、Bととく。その心はCです」と言った際に、一見無関係の文(あるいは単語)が、Cという意味づけによって接続するこ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く