[B! parser][utf-8] clavierのブックマーク

clavier id:clavier

parserとutf-8に関するclavierのブックマーク (1)

ついカッとなってWikipediaからカッコ表現をマイニングしてみた - nokunoの日記
http://code.google.com/p/nokuno/downloads/detail?name=pron.tar.bz2Wikipedia 本文データから「漢字（ひらがな）」という形式のかっこ表現をマイニングしてみました．難読語の読みを推定したいときに使えると思います．$ head pron.txt87 竹麦魚ほうぼう53 渾名あだな47 松平まつだいら43 本多ほんだ33 塔頭たっちゅう33 九十九王子くじゅうくおうじ27 磐座いわくら26 八幡神社はちまんじんじゃ24 北高きたこう21 西高にしこう$ wc pron.txt 169333 577603 6237666 pron.txt #!/usr/bin/env python #encoding: utf-8 from sys import stdin, exit from optparse impo
clavier 2011/11/17
utf-8

regexp

parser

テキスト・マイニング
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx