blueleのブックマーク / 2012年4月26日

bluele id:bluele

2012年4月26日のブックマーク (3件)

FSNLP 5.4 Mutual Information(相互情報量) - 木曜不足
"Foundations of Statistical Natural Language Processing"(FSNLP, サイコロ本)を読んでいるが、5.4 Mutual Information で詰まった。書いてあることがいろいろ腑に落ちない。まあエントロピー関連がどうにも苦手というのもあるのだが、いくつか「本当にそうなの？　なんかおかしくない？」という部分があるので、そこら辺含めてちょっとまとめてみた。【追記】フォロー記事書きました　→　http://d.hatena.ne.jp/n_shuyo/20101006/pmi 【／追記】なお、章題は "Mutual Information" だが、実際に扱っているのは pointwise mutual information(PMI) の事ばかり。まず self-information(自己情報量) を定義しておこう。確率
bluele 2012/04/26
pmi

nlp
リンク
RSSからマルコフ連鎖で文章生成する(Python)
マルコフ連鎖自体あんまり理解してないけど、とりあえず実際のソース読んで勉強しようかなーと思ってぐぐったら、一番上に出てきたページが繋がらなかったので、キャッシュからソースコードを拾ってそれをPythonに移植してちょっといじってみた。可変変数久しぶりに見た。やってること 1) ニュースサイトのRSSを習得 2) そのなかからランダムにエントリーを選んでMeCabへつっこむ。 3) MeCabからの結果をマルコフ連鎖によりつなげて出力。マルコフ連鎖についてはこのあたりとか読むといいかもしれない。形態素解析についてはここを読んだ。実際にはMeCabにお任せですが。 # -*- coding: utf-8 -*- import MeCab import string import random import feedparser import re import sys # http://
bluele 2012/04/26
マルコフ連鎖

python

nlp
リンク
aria2 project
aria2 について aria2 は、複数のサーバーから複数のプロトコルを用いてファイルを高速にダウンロードできるユーティリティです。 HTTP(S)/FTP/ BitTorrent (DHT, PEX, MSE/PE) /Metalink をサポートしてます。ファイルをHTTP(S)/FTPとBitTorrentの両方から同時にダウンロードする機能を持っています。HTTP(S)/FTPからダウンロードしたデータは、BitTorrentネットワークにアップロードされます. 信頼性という意味でもっともすぐれたHTTP(S)/FTPダウンロードユーティリティです。なぜなら、Metalink のチャンクチェックサムをサポートしており、 BitTorrentのようにダウンロードした部分部分のチェックサムを照合する機能をもつからです。チェックサムが違っていればその部分だけダウンロード
bluele 2012/04/26
分割ダウンロードユーティリティ

HTTP
リンク
- 2012年4月27日
- 2012年4月26日
- 2012年4月25日