タグ

2012年4月26日のブックマーク (3件)

  • FSNLP 5.4 Mutual Information(相互情報量) - 木曜不足

    "Foundations of Statistical Natural Language Processing"(FSNLP, サイコロ)を読んでいるが、5.4 Mutual Information で詰まった。 書いてあることがいろいろ腑に落ちない。 まあエントロピー関連がどうにも苦手というのもあるのだが、いくつか「当にそうなの? なんかおかしくない?」という部分があるので、そこら辺含めてちょっとまとめてみた。 【追記】フォロー記事書きました → http://d.hatena.ne.jp/n_shuyo/20101006/pmi 【/追記】 なお、章題は "Mutual Information" だが、実際に扱っているのは pointwise mutual information(PMI) の事ばかり。 まず self-information(自己情報量) を定義しておこう。 確率

    FSNLP 5.4 Mutual Information(相互情報量) - 木曜不足
    bluele
    bluele 2012/04/26
    pmi
  • RSSからマルコフ連鎖で文章生成する(Python)

    マルコフ連鎖自体あんまり理解してないけど、とりあえず実際のソース読んで勉強しようかなーと思ってぐぐったら、一番上に出てきたページが繋がらなかったので、キャッシュからソースコードを拾ってそれをPythonに移植してちょっといじってみた。可変変数久しぶりに見た。 やってること 1) ニュースサイトのRSSを習得 2) そのなかからランダムにエントリーを選んでMeCabへつっこむ。 3) MeCabからの結果をマルコフ連鎖によりつなげて出力。 マルコフ連鎖についてはこのあたりとか読むといいかもしれない。 形態素解析についてはここを読んだ。実際にはMeCabにお任せですが。 # -*- coding: utf-8 -*- import MeCab import string import random import feedparser import re import sys # http://

    RSSからマルコフ連鎖で文章生成する(Python)
    bluele
    bluele 2012/04/26
    マルコフ連鎖
  • aria2 project

    aria2 について aria2 は、複数のサーバーから複数のプロトコルを用いてファイルを高 速にダウンロードできるユーティリティです。 HTTP(S)/FTP/ BitTorrent (DHT, PEX, MSE/PE) /Metalink をサポー トしてます。ファイルをHTTP(S)/FTPとBitTorrentの両方から同時にダウ ンロードする機能を持っています。HTTP(S)/FTPからダウンロードしたデー タは、BitTorrentネットワークにアップロードされます. 信頼性 という意味でもっともすぐれたHTTP(S)/FTPダウンロードユーティリティ です。なぜなら、Metalink のチャンクチェックサムをサポートしており、 BitTorrentのようにダウンロードした部分部分のチェックサムを照合す る機能をもつからです。チェックサムが違っていればその部分だけダウ ンロード

    bluele
    bluele 2012/04/26
    分割ダウンロードユーティリティ