タグ

wikipediaとTwitterに関するtailtameのブックマーク (2)

  • WikipediaとTwitterで使われている漢字上位3000を出してみる | mwSoft

    概要 一般的によく使われている漢字を知りたかったので(使用頻度の低い文字を足切りしたかった)、Wikipediaの記事内とTwitterの手持ちのデータをざっくりとカウントして、出現数上位3000を出してみた。 ググれば「漢字出現頻度表」とか普通に出てくるので、一般的にはそちらを参考にした方が良いかもしれない。 集計手順 Wikipediaは毎度お馴染みのjawiki-latest-pages-articles.xmlを利用。2012年6月のデータ。 Twitterは2010年11月〜2011年5月の間に収集した日語Tweet(日語判定条件:平仮名か片仮名を含む)、4億件ほどを利用。ちょっと古い。 実行前にNFKCで正規化している。 漢字判定はざっくりとUnicodeBlockが「CJK」で始まるもの(記号を除く)を取っている。 Scalaでこんな感じで判定。 UnicodeBlock

    tailtame
    tailtame 2021/08/29
    via https://twitter.com/nal_ew/status/1431461541069529090 ( *´艸`) 「艸」あー、漢字か…そうだよな…
  • 𝕏 - アンサイクロペディア

    の生産性を下げるための情報戦略兵器として開発されたが、世界中の生産性が下がったために世界同時株安の原因となったことはあまりにも有名。芸能人のアカウント名はアンサイクロペディア並と信頼性抜群。また𝕏は、ユーザー同士がトラブルになっても、一切仲裁しないと宣言している。したがってフリージャーナリストを中傷するような荒らしユーザーが現れても、𝕏当局は一切関知しないのである。また最近は𝕏でもヤバすぎる発言をしてアカウントを凍結されるユーザーも出現するようになった。構ってちゃん系を主に、努力不足な道理の無い女性に高い人気をもち、ネットとしてはいい迷惑である。また幼女とと飯が数多く存在し世界平和を脅かしている。 ローマ字カナ入力モードにした状態でTwitterと打ち込むと「とぃってr」つまり日語で「と言ってる」となり、利用者がこうつぶやいてると言う意味になる。このことからも𝕏は日向けの

    tailtame
    tailtame 2009/03/31
    あんまりアンサイでもないwww
  • 1