http://code.google.com/p/nokuno/downloads/detail?name=pron.tar.bz2Wikipedia本文データから「漢字(ひらがな)」という形式のかっこ表現をマイニングしてみました.難読語の読みを推定したいときに使えると思います.$ head pron.txt87 竹麦魚 ほうぼう53 渾名 あだな47 松平 まつだいら43 本多 ほんだ33 塔頭 たっちゅう33 九十九王子 くじゅうくおうじ27 磐座 いわくら26 八幡神社 はちまんじんじゃ24 北高 きたこう21 西高 にしこう$ wc pron.txt 169333 577603 6237666 pron.txt #!/usr/bin/env python #encoding: utf-8 from sys import stdin, exit from optparse impo