タグ

2009年5月8日のブックマーク (3件)

  • 第4回 UTF-8の冗長なエンコード | gihyo.jp

    今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1~4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U+0000からU+007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C(\⁠)⁠、0x2F(/)などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。 表1 UTF-8でのビットパターン

    第4回 UTF-8の冗長なエンコード | gihyo.jp
    kiryuu
    kiryuu 2009/05/08
    「自前でUTF-8を処理しない」
  • 確かに“読めてしまう”コピペに2ch住人が「人間すげー」と驚く

    「なんだこりゃ」と思ってよく“読んで”みると「へー」と驚くコピペ文章が最近2ちゃんねるに登場し、スレッド(スレ)の題そっちのけでコピペに関する考察レスが交わされる……なんてことも起きている。 コピペ文はひらがなとカタカナだけで書かれており、一見すると2chでたまに見かけるうわごとにしか見えない。だがよくよく“読んで”みると、「確かに読める」と、ちょっと驚く。どうして「読める」のかは、コピペ文自体が説明してくれている。 「【ネット】「ウィキペディアが与える影響を調べるため」学生がもっともらしい嘘の書き込み 多数の欧米大手紙がだまされて引用」では、このコピペが2レス目に登場。「読めた」「人間の脳すげー」といったレスが相次ぎ、題へのレスと入り交じって何のスレなのか分からない状態になっていた。 コピペが登場したスレには、人の記憶と認識に仕組みについて考察や、読める人と読めない人の違い、現象学的

    確かに“読めてしまう”コピペに2ch住人が「人間すげー」と驚く
    kiryuu
    kiryuu 2009/05/08
    PerlでUTFフラグつけて処理して、形態要素解析で助詞とかはそのままに……とか考えてたら続々ジェネレータが(出遅れた!
  • 日本製「性暴力ゲーム」欧米で販売中止、人権団体が抗議活動 : 社会 : YOMIURI ONLINE(読売新聞)

    少女を含む女性3人をレイプして妊娠や中絶をさせるという内容の日製のパソコンゲームソフトに海外で批判が高まっている。 日での販売中止を求める抗議活動を国際人権団体が始めた。このゲームは2月に英国の国会で問題になり、ビデオ・書籍のネット販売大手「アマゾン」が扱いを中止した。しかし、児童ポルノなどの規制が緩い日では今でも流通している。 このゲームは、未成年と見られる女子2人とその母親を電車内で痴漢した後にレイプし妊娠や中絶をさせるまでを、コンピューターグラフィックスを使った画像で疑似体験するという内容。横浜市のゲームソフトメーカーが2006年に売り出した。 今年に入り海外の人権団体で問題視されるようになり、英国ではこのゲームをアマゾンで入手できることに驚いた国会議員らが同国内での流通に反対する動議を提出した。こうした動きが英国などのメディアで報じられ、英国アマゾンは2月にこのゲームの取り扱

    kiryuu
    kiryuu 2009/05/08
    性暴力とロリとペドは=か/内政干渉にならないように御注意/日本国内向けのをわざわざ欲しがっているのはおたくの国の(ry/左派人権派出番です。表現の自由が(ry/"我々と違う価値観は認めない"ですか。クジラは友達