[B! Python][自然言語処理] Kesinのブックマーク

Kesin id:Kesin

Pythonと自然言語処理に関するKesinのブックマーク (9)

Charming Python: Functional programming in Python, Part 3
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
Kesin 2012/11/08
python

自然言語処理

機械学習
リンク
Charming Python: Functional programming in Python, Part 3
Kesin 2012/11/08
python

自然言語処理

機械学習
リンク
SciPyを用いて潜在的意味解析(LSA) - 未来は僕以外の手の中
自然言語処理の技法の１つに、潜在的意味解析(LSA)というものがある。単語文書行列Ａがあった場合、特異値分解(SVD)によりＡ=ＵΣＶに分解し、特異値を大きいほうからk個使ってＡk=ＵkΣkＶk のように階数の低減を行うことで、階数kのＡへの近似を最小誤差で得ることができる。つまり特異値分解の計算さえできてしまえばLSAもすぐできるわけだが、 pythonの数値解析モジュールScipyにかかれば特異値分解もあっという間である。まずは特異値分解まで↓ from numpy import * from scipy import linalg A = matrix([ [5, 8, 9, -4, 2, 4], [2, -4, 9, 4, 3, 3], [-3, 4, 8, 0, 5, 6], [-2, 5, 4, 7, 0, 2] ]) u, sigma, v = linalg.sv
Kesin 2011/10/22
自然言語処理

python

SciPy
リンク
http://blog.yuku-t.com/entry/20110623/1308810518
Kesin 2011/10/17
python

自然言語処理

nlp
リンク
テキストからWikipedia見出し語を抽出 - 人工知能に関する断創録
WindowsでMeCab Pythonを使う（2010/11/21）のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。たとえば、人工知能は、コンピュータに人間と同様の知能を実現させようという試み、あるいはそのための一連の基礎技術をさす。人工知能という名前は1956年にダートマス会議でジョン・マッカーシーにより命名された。現在では、機械学習、自然言語処理、パターン認識などの研究分野がある。（Wikipedia『人工知能』を改変）という文章をMeCabで形態素解析して名詞のみ取り出すと、人工知能コンピュータ人間同様知能実現試みため一連基礎技術人工知能名前 1956 年ダートマス会議ジョンマッカーシー
Kesin 2011/07/09
wikipedia

自然言語処理

python
リンク
Tnal研究室wikiページ -
#!/usr/bin/env python # -*- coding:utf-8 -*- """ feature_vector.py % python feature_vector.py file import feature_vector result = feature_vector.analyse(text) """ import MeCab def analyse(text): while node: surface = node.surface.decode('utf-8') node = node.next return feature_vector if __name__ == '__main__': import sys filename = sys.argv[1] file = open(filename).read() feature_vector = analyse(
Kesin 2011/07/09
python

自然言語処理
リンク
Webstemmer（クローラーツール）
日本語サイトでは、具体的な性能は測定していませんが、以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞日刊スポーツ信濃毎日新聞 livedoor ニュース使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。取得したページのレイアウトを学習する。別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから本文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。ひとたびサイトのレイアウトを学習してしまえば、あとはレイアウトが大きく変更さ
Kesin 2011/06/20
自然言語処理

python
リンク
NLTK :: Natural Language Toolkit
Natural Language Toolkit¶ NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an ac
Kesin 2011/04/17
python

自然言語処理
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
Kesin 2011/04/09
Python

自然言語処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx