Baidu さんの不自然言語処理コンテスト( http://www.baidu.jp/unlp/ )が始まったそうで。 5-gram までのコーパスも配布ということでとりあえず応募するしないはおいといてダウンロードダウンロード……。 2-gram でマルコフ連鎖で文章生成って誰でも考えるよなあ。サンプルスクリプトもあるし、早い者勝ちだよなあ。 というわけでさっくり書いてみた。サンプルスクリプトをちょこちょこっと削って、ちょこちょこっと足しただけ。numpy 使ってます。 import sys, codecs, numpy sys.stdout = codecs.getwriter('utf_8')(sys.stdout) if len(sys.argv) != 2: print >>sys.stderr, "Usage: randomtext.py <2gm file>" exit(1)