タグ

資料と統計に関するseuzoのブックマーク (3)

  • 青空文庫の使用漢字を集計してみた

    青空文庫の文字セットの扱いは次のようになっている。 青空文庫のxhtmlファイルは、JIS X 0208文字セットのShift-JISで記述されている。 JIS X 0208に無いJIS X 0213に含まれる漢字は、画像外字として挿入。 JIS X 0213に無い漢字は、文中に注記として記述。 作品の著者名、タイトル、文について、JIS X 0213文字は画像外字含めUnicode文字に変換し、集計した。注記は別途抽出して集計する。 対象となる作品は、2013/4/4時点で登録されていた著作権切れの11638作品。 青空文庫のxhtml取得およびUnicode変換、集計はプログラムで行った。サンプリングして誤りがないかは確認はしているが、間違ったデータが含まれていないことを保証するものではない。

  • 反社会学講座 第2回 キレやすいのは誰だ

    お知らせ この回の内容は、『反社会学講座』(ちくま文庫版)で大幅に加筆修正されています。引用などをする際は、できるだけ文庫版を参照してください。 私はこのグラフを新聞、雑誌、テレビなどで何十回となく見た記憶があります。おそらくみなさんもそうでしょう。 カウンセラーという職業の人が書いた、少年非行についてのにも掲載されていました。これみよがしに、冒頭にこの統計グラフを掲げ、凶悪な少年犯罪の急増を示唆します。当然、読者は不安な気持ちでいっぱいになります。「そうよねえ、毎日のようにマスコミでは事件が報道されているし、やっぱり統計で裏づけられてるのね。ところで、うちの子は大丈夫かしら。最近ピアスの穴なんか開けたし、家に帰ってもちっとも話もしないし。不安だわ……」 こうなれば、しめたものです。読者はページをめくらずにはいられません。そして、著者がいかに長年カウンセラーとして少年たちと向き合い、非行

  • 新・都道府県別統計とランキングで見る県民性 [とどラン]

    様々な都道府県別統計データを単位人口あたりの数値で比較。県民性を数字で表します。あなたの出身地は何位?チェーン店第二弾はセブンイレブン。日最大のコンビニチェーンだが、一地域に集中的に店舗展開する方針のため、地図にも濃淡がはっきり現れている。 [続きを読む]

  • 1