ようこそゲストさん ブログトップ 記事一覧 ログイン無料ブログ開設 日報
はじめに Stanford CoreNLPは、英語テキストの自然言語処理用の全部入りライブラリである。 今回はCoreNLPをPythonから利用する方法を紹介する。 Stanford CoreNLPのダウンロードと解凍 ダウンロード 最新版ではなくVersion 3.2.0(2013-06-20公開)を以下のリンクからダウンロードする。 なぜ最新版ではないのかについては後述。 http://nlp.stanford.edu/software/stanford-corenlp-full-2013-06-20.zip $ curl -L -O http://nlp.stanford.edu/software/stanford-corenlp-full-2013-06-20.zip
■ doc2vec.pyをカスタマイズ 変更点① デフォルトのdoc2vec.pyだと、レスポンスのときのlabelがカスタマイズできなかったので、 設定したlabelで結果を呼び出せるように変更してみました。 変更点② doc2vec.pyのデフォルトでは、文書の似ているものは?って叩くと、文書も単語も出力されてしまうので、文書の似ている文書だけを出力するメソッドも作成しました。 #!/usr/bin/env python # -*- coding: utf-8 -*- # # Copyright (C) 2013 Radim Rehurek <me@radimrehurek.com> # Licensed under the GNU LGPL v2.1 - http://www.gnu.org/licenses/lgpl.html """ Deep learning via the d
概要 今週の 週刊 pandas は文字列処理について。やたらと文字数が多くなったのだが、これはデータを都度表示しているせいであって自分の話がムダに長いわけではない、、、と思いたい。 今回はこちらの記事に書いた内容も使うので、適宜ご参照ください。 サンプルデータ なんか適当な実データないかな?と探していたら 週間少年ジャンプの過去作品の連載作品 / ジャンルなどがまとめられているサイトをみつけた。これを pandas で集計できる形まで整形することをゴールにしたい。 KTR's Comic Room: Weekly Jump Database データの読み込み 上記リンクの "ジャンプ連載データ表" を、ファイル名 "jump_db.html" としてローカルに保存した。 補足 pd.read_html では引数に URL を渡して 直接ネットワークからファイルを読むこともできる。が、今回
Introduction¶ This module implements the word2vec family of algorithms, using highly optimized C routines, data streaming and Pythonic interfaces. The word2vec algorithms include skip-gram and CBOW models, using either hierarchical softmax or negative sampling: Tomas Mikolov et al: Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov et al: Distributed Representations of Wor
まず最初に、word2vec の仕様 を ① Mikolov 氏ほか共著論文 と ② O'Reilly本 から適宜 転載しつつ確認 Mikolov 氏 他 word2vec 論文 を読み解くと、、、以下の知見が掲載されている Mikolov ほか共著 ( 論文 )"Efficient Estimation of Word Representation in Vector Space" ① コーパスの単語数が多けれは多いほど、モデルの次元数が大きければ大きいほど、意味演算の正確性の精度は高まる。(モデルの次元数が大きい場合は、コーパスサイズも相応にないと精度は落ちる) ② 文法的 ( Syntactic )には、 NNLM が、意味的 ( Semantic ) には Skip-gram が精度が高い ③ コーパスのサイズが2倍になれば、モデルの次元数も2倍にするべきである ( 以下、Miko
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く