[B! python][自然言語処理] yuisekiのブックマーク

yuiseki id:yuiseki

pythonと自然言語処理に関するyuisekiのブックマーク (10)

たぶん1分くらいでできる形態素解析とtfidf(テストコードつき) - Qiita
# !/usr/bin/env python # -*- encoding: utf-8 -*- import nltk import MeCab import urllib2 from urllib2 import HTTPError from itertools import chain def tfidf(doc,docs): """対象の文書と全文の形態素解析した単語リストを指定すると対象の文書のTF-IDFを返す""" tokens = list(chain.from_iterable(docs)) #flatten A = nltk.TextCollection(docs) token_types = set(tokens) return [{"word":token_type,"tfidf":A.tf_idf(token_type, doc)} for token_type
yuiseki 2015/08/06
python

nltk

自然言語処理
リンク
Charming Python: Functional programming in Python, Part 3
IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.
yuiseki 2015/08/06
python

nltk

自然言語処理
リンク
Pystanで自然言語処理　scikit.learnのdatasetで試す - xiangze's sparse blog
scikit.learnは様々な機械学習のアルゴリズムのみならず、データセットも充実しています。stanのpythonラッパーpystanでこれを利用し、Stan manualのLDAのコードの性能を評価することを行いました。 20 newsgroupsというデータセットは名前の通りUsenetの20のカテゴリー、２０００0の文書(英語)からなるデータセットです。これをsklearn.feature_extraction.text のCounterVectizerを用いて単語数をカウントした行列形式に変換し、Stanのコードに入力します。コードは以下のようになります。行列は疎行列形式で保存されているのでこれを変換し、またStanの添え字形式である1始まりに変換します。beroberoさんが高速化のために書かれたコード(あらかじめ計算しておいた各wordの頻度を用いて尤度を足し合わせる
yuiseki 2014/03/05
pystan

自然言語処理

tech

scikit.learn

python
リンク
Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出 - Y's note
入門自然言語処理作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型本購入: 20人クリック: 639回この商品を含むブログ (44件) を見る TF・IDF計算自然言語処理の勉強としてTF・IDFによる重要単語の抽出をwikipediaのデータに対して試してみます。TF・IDFを一言でまとめると、とある単語の重要度を出現頻度から計算する手法です。計算結果は重みを表します。TFは単語の出現数(Term Frequency)、IDFは総文書数 / 単語が出現する文書の総数の対数(Inverted Document Frequency)、TFIDFはその積になります。数式にすると以下のようになりますが、Webを検索してみると人によって計算の仕方が異
yuiseki 2013/02/15
tfidf

python

wikipedia

自然言語処理
リンク
Twitter において自分がよく使う語は何か？ - (主に)プログラミングのメモ
自分のツイートに含まれる語の傾向を知るため，頻度分布を求めた。手順は以下のとおり：１．Twitter API を利用し，自らのタイムラインを取得する。(tweepy.API.user_timeline) $ python mytweets.py > mytweets.txtmytweets.py #coding: utf-8 import tweepy consumer_key = 'consumer key' consumer_secret = 'consumer secret' oauth_token = 'oauth token' oauth_token_secret = 'oauth token secret' # auth オブジェクトの初期化 auth = tweepy.OAuthHandler(consumer_key, consumer_secret) # あらかじめ取
yuiseki 2012/12/29
数学

python

nltk

twitter

自然言語処理
リンク
nltk.FreqDist および nltk.ConditionalFreqDist の plot() で日本語を出力させる方法 - (主に)プログラミングのメモ
nltk.FreqDist クラスおよび nltk.ConditionalFreqDist クラスに含まれる plot() メソッドを利用した場合，軸（特に横軸）で日本語フォントが使えないという問題がある。 plot() メソッドでは内部的に matplotlib.pyplot を利用しており，日本語を出力するためには fontproperties を明示的に指定する必要がある。以上の事情を踏まえ，nltk 自体に手を入れる。対象とするファイル： /usr/local/lib/python2.7/dist-packages/nltk/probability.py probability.py 内の class FreqDist および class ConditionalFreqDist それぞれに含まれる plot() メソッドを次のように書き換える。pylab.xticks() に
yuiseki 2012/12/29
数学

自然言語処理

python

nltk
リンク
nltk を用いたバイグラムの処理 - (主に)プログラミングのメモ
頻度分布やバイグラムの練習下記のページから「2009年1月20日，オバマ氏の大統領就任演説」のテキストを取得し，ファイル obama_inaugural_transcript.txt として保存する。 http://gaikoku.info/english/column/obama_inaugural_transcript.htm >>> import nltk >>> f = open('obama_inaugural_transcript.txt') >>> raw = f.read() >>> tokens = nltk.word_tokenize(raw) #テキストをトークンに分割 >>> raw #元のテキスト 'I stand here today humbled by the task before us, grateful for the trust you've be
yuiseki 2012/12/18
数学

nltk

自然言語処理

python

バイグラム
リンク
no workaround: ubuntu へ nltk をインストール
2012/05/07 ubuntu へ nltk をインストール N・L・P！！N・L・P！！自然言語処理を勉強しようと ubuntu 10.04 へnltk(Natural Language Toolkit) を導入しためも使えるデータが何もないので nltk のプロジェクトが提供しているデータをダウンロードします。ここから python のシェルでとりあえずここまで投稿者 MASAKI Asato 時刻: 14:40 メールで送信BlogThis!Twitter で共有するFacebook で共有するラベル: NLP, python, ubuntu 0 コメント: コメントを投稿
yuiseki 2012/05/07
python

ubuntu

nltk

自然言語処理
リンク
My Portfolio
Web site created using create-react-app
yuiseki 2011/07/20
あとで読む

python

自然言語処理
リンク
Python による日本語自然言語処理
はじめにこの文書は、 Steven Bird, Ewan Klein, Edward Loper 著萩原正人、中山敬広、水野貴明　訳『入門自然言語処理』 O'Reilly Japan, 2010. の第12章「Python による日本語自然言語処理」を、原書 Natural Language Processing with Python と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
yuiseki 2010/11/16
超便利

あとで読む

便利

自然言語処理

python
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx