[B! python][自然言語処理] rishidaのブックマーク

rishida id:rishida

pythonと自然言語処理に関するrishidaのブックマーク (6)

日報
ようこそゲストさんブログトップ記事一覧ログイン無料ブログ開設日報
rishida 2015/08/18
windowsでnltkを解してstanford core nlpを使う

python

nltk

自然言語処理

ツール
リンク
Stanford CoreNLPをPythonから使う - Qiita
はじめに Stanford CoreNLPは、英語テキストの自然言語処理用の全部入りライブラリである。今回はCoreNLPをPythonから利用する方法を紹介する。 Stanford CoreNLPのダウンロードと解凍ダウンロード最新版ではなくVersion 3.2.0（2013-06-20公開）を以下のリンクからダウンロードする。なぜ最新版ではないのかについては後述。 http://nlp.stanford.edu/software/stanford-corenlp-full-2013-06-20.zip $ curl -L -O http://nlp.stanford.edu/software/stanford-corenlp-full-2013-06-20.zip
rishida 2015/07/30
python

ツール

自然言語処理
リンク
Word2Vecの進化形Doc2Vecで文章と文章の類似度を算出する - Qiita
■ doc2vec.pyをカスタマイズ変更点① デフォルトのdoc2vec.pyだと、レスポンスのときのlabelがカスタマイズできなかったので、設定したlabelで結果を呼び出せるように変更してみました。変更点② doc2vec.pyのデフォルトでは、文書の似ているものは？って叩くと、文書も単語も出力されてしまうので、文書の似ている文書だけを出力するメソッドも作成しました。 #!/usr/bin/env python # -*- coding: utf-8 -*- # # Copyright (C) 2013 Radim Rehurek <me@radimrehurek.com> # Licensed under the GNU LGPL v2.1 - http://www.gnu.org/licenses/lgpl.html """ Deep learning via the d
rishida 2015/07/22
word2vec

python

自然言語処理

ツール
リンク
Python pandas strアクセサによる文字列処理 - StatsFragments
概要今週の週刊 pandas は文字列処理について。やたらと文字数が多くなったのだが、これはデータを都度表示しているせいであって自分の話がムダに長いわけではない、、、と思いたい。今回はこちらの記事に書いた内容も使うので、適宜ご参照ください。サンプルデータなんか適当な実データないかな？と探していたら週間少年ジャンプの過去作品の連載作品 / ジャンルなどがまとめられているサイトをみつけた。これを pandas で集計できる形まで整形することをゴールにしたい。 KTR's Comic Room: Weekly Jump Database データの読み込み上記リンクの "ジャンプ連載データ表" を、ファイル名 "jump_db.html" としてローカルに保存した。補足 pd.read_html では引数に URL を渡して直接ネットワークからファイルを読むこともできる。が、今回
rishida 2014/12/07
python

自然言語処理

ツール
リンク
Gensim: topic modelling for humans
Introduction¶ This module implements the word2vec family of algorithms, using highly optimized C routines, data streaming and Pythonic interfaces. The word2vec algorithms include skip-gram and CBOW models, using either hierarchical softmax or negative sampling: Tomas Mikolov et al: Efficient Estimation of Word Representations in Vector Space, Tomas Mikolov et al: Distributed Representations of Wor
rishida 2014/10/17
pythonでword2vecを使う方法

自然言語処理

python
リンク
word2vec ～モデル仕様の詳細調査とモデルのパラメータ設定ケース別意味「類似度」計算結果の比較・考察（①モデル次元数 ②window幅を変えて挙動を確認）～コーパス事例：和文学術論文（西田幾多郎）『善の研究』 - Qiita
まず最初に、word2vec の仕様を ① Mikolov 氏ほか共著論文と　② O'Reilly本から適宜転載しつつ確認 Mikolov 氏他　word2vec 論文を読み解くと、、、以下の知見が掲載されている Mikolov ほか共著（論文）"Efficient Estimation of Word Representation in Vector Space" ① コーパスの単語数が多けれは多いほど、モデルの次元数が大きければ大きいほど、意味演算の正確性の精度は高まる。（モデルの次元数が大きい場合は、コーパスサイズも相応にないと精度は落ちる） ② 文法的（ Syntactic ）には、 NNLM が、意味的（ Semantic ）には Skip-gram が精度が高い ③ コーパスのサイズが2倍になれば、モデルの次元数も2倍にするべきである（以下、Miko
rishida 2014/10/17
実用word2vec

自然言語処理

機械学習

python
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx