タグ

ブックマーク / www.mwsoft.jp (1)

  • WikipediaとTwitterで使われている漢字上位3000を出してみる | mwSoft

    概要 一般的によく使われている漢字を知りたかったので(使用頻度の低い文字を足切りしたかった)、Wikipediaの記事内とTwitterの手持ちのデータをざっくりとカウントして、出現数上位3000を出してみた。 ググれば「漢字出現頻度表」とか普通に出てくるので、一般的にはそちらを参考にした方が良いかもしれない。 集計手順 Wikipediaは毎度お馴染みのjawiki-latest-pages-articles.xmlを利用。2012年6月のデータ。 Twitterは2010年11月〜2011年5月の間に収集した日語Tweet(日語判定条件:平仮名か片仮名を含む)、4億件ほどを利用。ちょっと古い。 実行前にNFKCで正規化している。 漢字判定はざっくりとUnicodeBlockが「CJK」で始まるもの(記号を除く)を取っている。 Scalaでこんな感じで判定。 UnicodeBlock

  • 1