plansetのブックマーク - はてなブックマーク

planset id:planset

ブックマーク / www.mwsoft.jp (1)

WikipediaとTwitterで使われている漢字上位3000を出してみる | mwSoft
概要一般的によく使われている漢字を知りたかったので（使用頻度の低い文字を足切りしたかった）、Wikipediaの記事内とTwitterの手持ちのデータをざっくりとカウントして、出現数上位3000を出してみた。ググれば「漢字出現頻度表」とか普通に出てくるので、一般的にはそちらを参考にした方が良いかもしれない。集計手順 Wikipediaは毎度お馴染みのjawiki-latest-pages-articles.xmlを利用。2012年6月のデータ。 Twitterは2010年11月〜2011年5月の間に収集した日本語Tweet（日本語判定条件:平仮名か片仮名を含む）、4億件ほどを利用。ちょっと古い。実行前にNFKCで正規化している。漢字判定はざっくりとUnicodeBlockが「CJK」で始まるもの（記号を除く）を取っている。 Scalaでこんな感じで判定。 UnicodeBlock
planset 2014/11/01
twitter

漢字
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx