[B! python][nlp] sudo1101のブックマーク

sudo1101 id:sudo1101

pythonとnlpに関するsudo1101のブックマーク (5)

研究者流コーディングの極意言語処理学会第19回年次大会(NLP2013) チュートリアル資料（岡崎担当分）
言語処理学会第19回年次大会 (NLP2013) チュートリアル資料（岡崎担当分）岡崎直観東北大学大学院情報科学研究科 okazaki at ecei.tohoku.ac.jp http://www.chokkan.org/ @chokkanorg 研究者流コーディングの極意 1 研究におけるコーディングの極意？ • 今回のチュートリアルをきっかけにサーベイ – ソフトウェアエンジニア向けの指南書は存在 – でも，研究者向けの資料は数少ない • 自分が修士課程の頃は完全に我流だった – 複数文書自動要約のプログラムをすべてC++で実装 – *NIXを使うスキルはなく，すべてWindows上で実行 – 今から考えると，無駄だらけの実験作法だった • ほとんどの大学では実験の講義があるが… – 研究のためのコーディング作法は教えてくれない 2 繰り返される残念な光景 • 論文の締切前日
sudo1101 2015/06/30
研究

Python

programming

nlp
リンク
moco(beta)'s backup: 辞書内包／Pure Python実装の形態素解析器 Janome を公開しました
一応の基本機能がととのったので、できたてほやほやではありますが、Python製の形態素解析器 Janome を公開しました。 http://mocobeta.github.io/janome/ インストール方法や使い方は上記ページを見てください。ソースコードはGithubにおいています: https://github.com/mocobeta/janome 【公開にいたった背景など】日本語テキストを分析したりテキストマイニングする場合、まずは形態素解析から始めると思います。 Python の場合、そのためには MeCab をインストールして、mecab-ipadic をインストールして、mecab-python をインストールする、という手順を踏むことが多いと思うのですが、環境依存のところでハマって面倒な思いをしたり、サーバ構築の手間がかかったり、しますよね。なので、Pythonモジュ
sudo1101 2015/06/20
なんて素敵な！！ありがたやありがたや…。

Python

NLP
リンク
tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算
tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算メモ。 tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算ツイッターの@ts_3156のフォロー情報を使って、ツイッターユーザーの類似度計算を行いました。結論だけ先に書いておくと、プロフィール情報だけを使って類似度計算を行なっても、全然いい結果にはならないです(^^) その理由あれこれは下の方に書いてあります。「じゃあ、正確なツイッターユーザーの類似度計算はどうやればいいの？」についても下の方に書いておきました(^^) 今回書いたプログラムは、ツイッタープロフィールだけでなく文章集合の類似度計算全般に使えるので、よかったら各自で何かしら使ってみてください(^^) サンプルコードの動作環境 python2.7(2系なら何でもOKかも) もしない場合は、「yum install python27」でイン
sudo1101 2015/04/28
nlp

Python

gensim

研究
リンク
言語処理100本ノック 2015
言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています
sudo1101 2015/03/12
機械学習

プログラミング

python

nlp
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
sudo1101 2014/11/05
『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「 Python による日本語自然言語処理」

Python

自然言語処理

NLP

programming

TextMining
リンク
1