ようこそゲストさん ブログトップ 記事一覧 ログイン無料ブログ開設 日報
はじめに Stanford CoreNLPは、英語テキストの自然言語処理用の全部入りライブラリである。 今回はCoreNLPをPythonから利用する方法を紹介する。 Stanford CoreNLPのダウンロードと解凍 ダウンロード 最新版ではなくVersion 3.2.0(2013-06-20公開)を以下のリンクからダウンロードする。 なぜ最新版ではないのかについては後述。 http://nlp.stanford.edu/software/stanford-corenlp-full-2013-06-20.zip $ curl -L -O http://nlp.stanford.edu/software/stanford-corenlp-full-2013-06-20.zip
米googleの研究者が開発した「 Word2Vec 」という技術をベースに、「単語」だけではなく「文書」にも意味を持たせてベクトルとして捉えて利用できる技術「 Doc2Vec 」をいじってみました。 Word2Vecのおさらい 過去Qiitaに投稿したので、そのリンクを張っておきます。 http://qiita.com/okappy/items/e16639178ba85edfee72 Doc2Vecとは? Word2VecはWord(単語)をベクトルとして捉えるが、Doc2Vec(Paragraph2Vec)はDocument(文書)をWordの集合として見てベクトルを割り当てることで、文書間の類似度やベクトル計算などを実現することができる。 例えば、ニュース記事同士の類似度、レジュメ同士の類似度、本同士の類似度、もちろん人のプロフィールと本の類似度なども算出することができ、テキストで
概要 今週の 週刊 pandas は文字列処理について。やたらと文字数が多くなったのだが、これはデータを都度表示しているせいであって自分の話がムダに長いわけではない、、、と思いたい。 今回はこちらの記事に書いた内容も使うので、適宜ご参照ください。 サンプルデータ なんか適当な実データないかな?と探していたら 週間少年ジャンプの過去作品の連載作品 / ジャンルなどがまとめられているサイトをみつけた。これを pandas で集計できる形まで整形することをゴールにしたい。 KTR's Comic Room: Weekly Jump Database データの読み込み 上記リンクの "ジャンプ連載データ表" を、ファイル名 "jump_db.html" としてローカルに保存した。 補足 pd.read_html では引数に URL を渡して 直接ネットワークからファイルを読むこともできる。が、今回
Introduction¶ This module implements the word2vec family of algorithms, using highly optimized C routines, data streaming and Pythonic interfaces. The word2vec algorithms include skip-gram and CBOW models, using either hierarchical softmax or negative sampling: Tomas Mikolov et al: Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov et al: Distributed Representations of Wor
まず最初に、word2vec の仕様 を ① Mikolov 氏ほか共著論文 と ② O'Reilly本 から適宜 転載しつつ確認 Mikolov 氏 他 word2vec 論文 を読み解くと、、、以下の知見が掲載されている Mikolov ほか共著 ( 論文 )"Efficient Estimation of Word Representation in Vector Space" ① コーパスの単語数が多けれは多いほど、モデルの次元数が大きければ大きいほど、意味演算の正確性の精度は高まる。(モデルの次元数が大きい場合は、コーパスサイズも相応にないと精度は落ちる) ② 文法的 ( Syntactic )には、 NNLM が、意味的 ( Semantic ) には Skip-gram が精度が高い ③ コーパスのサイズが2倍になれば、モデルの次元数も2倍にするべきである ( 以下、Miko
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く