タグ

unicodeに関するbeakmarkのブックマーク (25)

  • UTF-8小話 - Plan9日記

    UTF-8Wikipediaに書かれている通り、 当初は、Plan 9で用いるエンコードとしてベル研究所で考案された。 ものだけど、最近古屋で見つけた「インターネットヒストリー」の村井純先生のあとがきに気になる記述があった。 ちょっと長くなるけど引用する。 かなり昔の話だが、ベル研のUNIXを作ったオペレーティングシステムを担当していたグループにオペレーティングシステムについての講演を頼まれたときに「日語」の話をしたことがある。正直にいうと、ケン・トンプソンやデニスリッチなど、コンピュータ界のノーベル賞といわれるチューリング賞をとった錚々たるメンバーを前にして、当時「ただの研究者」であった自分がオペレーティングシステムについて何を話したらよいのだろうと悩んでしまった。結局開き直って話すことにしたのが漢字の問題だったわけだ。しかし、このときの講演の内容が、彼らにとっては1バイト1文字と

    UTF-8小話 - Plan9日記
    beakmark
    beakmark 2008/10/06
    へぇ
  • Winnyネットワークはやっぱり真っ黒,NTTコミュニケーションズの小山氏に聞く:ITpro

    ボットネット研究で知られるNTTコミュニケーションズの小山覚氏。小山氏の新しい研究対象は「Winnyネットワークの実態」だ。小山氏は「悪意のある人物がワームを撒き散らしているWinnyネットワークは『真っ黒』としか言いようがない」と指摘する。小山氏にWinnyネットワークに関する最新事情を聞いた(聞き手は中田 敦=ITpro)。 小山さんは最近,Winnyネットワークの調査を始められているそうですね。 これは,4月25日の「RSA Conference 2007」で話そうと思っていた内容なのですが,私が出るセッションは,ラックの新井悠さん,JPCERTの伊藤友里恵さん,マイクロソフトの奥天陽司さんというセキュリティ界の論客が揃ったパネル・ディスカッションなので(モデレータは日経パソコン副編集長の勝村幸博),私だけが長い時間発表するのは無理そうです(笑)。そこで,今回のインタビューで全部お話

    Winnyネットワークはやっぱり真っ黒,NTTコミュニケーションズの小山氏に聞く:ITpro
    beakmark
    beakmark 2008/01/24
    UnicodeのRLOにやられたのでついでにぶくま
  • 文字とXSSの関係

    beakmark
    beakmark 2007/12/26
    あとでよむ
  • Python の unicodedata モジュール - bkブログ

    Python の unicodedata モジュール Unicode のちょっとしたテキスト処理をしようと思い、 Python の unicodedata モジュールを使ってみました。これは非常に便利です。 unicodedata は Python に標準で付属するため、別途のインストールは不要です。次のようなことができます。 文字の名前を取得する 文字の名前を取得することができます。Unicode の文字にはすべて一意の名前がつけられています。ソースコード内で Unicode のコードポイントを使うときは U+20AC (EURO SIGN) などとコメントをつけておくと便利でしょう。 >>> unicodedata.name(u'A') 'LATIN CAPITAL LETTER A' >>> unicodedata.name(u'あ') 'HIRAGANA LETTER A' 文字の

    beakmark
    beakmark 2007/12/23
    これは便利そう
  • Unicodeメモ

    最も短い文字名 (Unicode 3.2.0) 3字 U+22BB (XOR) U+22BD (NOR) U+2312 (ARC) U+2609 (SUN) U+264C (LEO) 最も長い文字名 (Unicode 3.2.0) 83字 U+FBF9 (ARABIC LIGATURE UIGHUR KIRGHIZ YEH WITH HAMZA ABOVE WITH ALEF MAKSURA ISOLATED FORM) 四種の正規形 (NFD, NFC, NFKD, NFKC) がすべて異なる文字 (Unicode 3.2.0) 以下の通り。 U+03D3 (GREEK UPSILON WITH ACUTE AND HOOK SYMBOL): NFD <U+03D2, U+0301>, NFC <U+03D3>, NFKD <U+03A5, U+0301>, NFKC <U+038E>

    beakmark
    beakmark 2007/11/21
    あれ、これ昔ぶくましたっけ?