タグ

unicodeに関するsivadselimのブックマーク (9)

  • UTF-8の冗長なエンコードとは何で、なんでそれがセキュリティ的に危ないのか?を文字コード知識レヴェル3くらいの凡プログラマが考えてみる - tohokuaikiのチラシの裏

    何故かあたり前にならない文字エンコーディングバリデーション | yohgaki's blog ってあるように、いまいち文字コードの不正な判定による危険性ってのが分かってない。 SJISの問題は、(2/3)SQLインジェクションを根絶!セキュア開発の極意 - 第5回■注目される文字コードのセキュリティ問題:ITproの記事がわかりやすかった。 というか、やっぱりPHP使ってると誰でも一度は「なんじゃこの『¥』は?」って思うもんなんで。 なるほど、確かに↓の図のように「あるバイト」が2つの意味を持つっていう文字コード形態はやばいんだなと。 EUC-JPはそんなことはしないで、1つのバイトには1つの意味しか取らせない。 だけど、これでも文字化けが起こることがある。経験的には、「マルチバイトをXX文字で切り落としたい」とかやった場合。ちゃんと文字コードを判定してくれるPHPでいえばmb_subst

    sivadselim
    sivadselim 2009/09/11
    「われわれPHPerにとって大切なのは すぐ使えるサンプルか、コピペで動くコードだけだ。 PHPerを買いかぶらないでもらいたい」
  • Unicode table for you

    The code for this toy is contained in this page, and is available under both the GPL and MIT licenses. View source and help yourself.

  • Servlet Garden » Unicode and Character Sets (Translation)

    勉強を兼ねての勝手に翻訳シリーズ第3弾です。今回はJoel Spolsky氏のブログに掲載されていたThe Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)です。掲載されたのは2003年10月と、5年近く前のことなので、現状にそぐわないところもあるかもしれませんが、とても参考になる解説です。 ソフトウェ開発者なら絶対に最低限知っていなければならないユニコードと文字セットについて(言い訳はなしですよ!) 不可解なContent-Typeタグについてかつて疑問に思ったことはないでしょうか?おそらくHTMLファイルに書き込むものということは知ってるでしょうが、なんのためにそれなければいけないのかまでは知ら

  • Winnyネットワークはやっぱり真っ黒,NTTコミュニケーションズの小山氏に聞く:ITpro

    ボットネット研究で知られるNTTコミュニケーションズの小山覚氏。小山氏の新しい研究対象は「Winnyネットワークの実態」だ。小山氏は「悪意のある人物がワームを撒き散らしているWinnyネットワークは『真っ黒』としか言いようがない」と指摘する。小山氏にWinnyネットワークに関する最新事情を聞いた(聞き手は中田 敦=ITpro)。 小山さんは最近,Winnyネットワークの調査を始められているそうですね。 これは,4月25日の「RSA Conference 2007」で話そうと思っていた内容なのですが,私が出るセッションは,ラックの新井悠さん,JPCERTの伊藤友里恵さん,マイクロソフトの奥天陽司さんというセキュリティ界の論客が揃ったパネル・ディスカッションなので(モデレータは日経パソコン副編集長の勝村幸博),私だけが長い時間発表するのは無理そうです(笑)。そこで,今回のインタビューで全部お話

    Winnyネットワークはやっぱり真っ黒,NTTコミュニケーションズの小山氏に聞く:ITpro
  • Unicodeは「使える」から「知らずに使う」フェーズへ | 日経 xTECH(クロステック)

    Windowsにおいて「Unicode」は,長らく「使える」けれども「あまり使われない」存在だった。その状況が「Windows Vista」と「the 2007 Microsoft Office」で変わろうとしている。この2製品に付属する「Microsoft IME」で,「WindowsではUnicodeでしか扱えない文字」が,変換候補として頻出するようになったからだ。Unicodeはいよいよ,一般ユーザーが「知らずに使う」存在になるだろう。 マイクロソフトがUnicodeに対応したのは,「Windows 98」と「Windows NT 4.0」からだ。このとき,「JIS X 0212」の「補助漢字」も,エンコーディングにUnicodeを使えばWindowsで利用できるようになった。同時に,JIS X 0212の補助漢字などを使った単語が,Windows OSやMicrosoft Offi

    Unicodeは「使える」から「知らずに使う」フェーズへ | 日経 xTECH(クロステック)
  • シフトJISを捨てられるか? - 記者のつぶやき:ITpro

    これまで,Windows Vistaの文字の扱いに関する事柄を何度か取り上げてきた。同じキャラクタ・コードで,Windows XPのときと文字の形が変わったり,Unicodeでしか扱えない文字があったりするという話題だ。今回は,エンコーディングについて考えてみたい。 これまでの記事でも書いてきたが,文字処理とエンコーディングに関する問題は,何もWindows Vistaに始まったわけではない。Windows XPやWindows 2000など,既存のWindowsでも同様だ。例えば,「鴎」の旧字である「シナカモメ」は,Unicodeでしか扱えない文字だが,Windows XP以前のMS-IMEでも入力できる。石鹸の「鹸」の旧字もそうである。これらの文字を扱うには,アプリケーション・ソフトが,文字列をUnicodeで処理しなればならない。シフトJISに変換した瞬間に,文字情報が無くなってしま

    シフトJISを捨てられるか? - 記者のつぶやき:ITpro
  • 複数の事象を混同しがちなVistaの文字問題

    既にいくつかの記事で報道されているように,Windows Vistaでは,JIS X 0213:2004(JIS2004)と呼ぶ規格に対応し,利用できる文字数が増えるとともに一部の文字の形が変わる。そのことで,Windows Vistaを使うと文字に関して何か問題を起こすかのように思われている節があるようだ。 私が書いた記事でも,「これらの文字を使ってWindows Vistaで作った文書を,JIS2004に対応していない既存のWindowsで開くと,『・』や『■』などで表示される恐れがある」と記述しており,読者に対して余計な不安を与えてしまったかもしれない。また,「追加文字を使った文書を保存するときは,エンコーディングをUnicodeにする必要がある」との記述は,Windows Vistaだけのことかと誤解を与えてしまったかもしれない。これは,後で説明するようにWindows 98/NT

    複数の事象を混同しがちなVistaの文字問題
  • 文字コード規格の基礎:ITpro

    この記事は,日経ソフトウエア 1999年10月号に掲載したものです。それ以降の情報が盛り込まれていませんので,現在とは異なる場合があります。 文字コード規格の基礎を手早く理解したい場合などにお役立てください。 文字コードは間違いなく情報を交換するための「決まりごと」なので,正確を期すため厳密な仕様が規定されている。だが,その仕様そのものを実装するプログラムを作る場合を除けば,プログラマが仕様の詳細を隅々まで理解している必要はない。六法全書を読んでいなくても問題なく普段の生活ができるようなものだ。 ここでは,通常のプログラミングをするうえで必要と思われる範囲のことを,なるべく簡潔に説明したい。「半角カナ」のような呼び名は正確さを欠くものだが,多くの人に伝わりやすいので説明の中でも使っていく。説明を簡略化するため「正確な仕様を知りたいときは規格書そのものを必ず参照してほしい」と書きたいところだ

    文字コード規格の基礎:ITpro
  • シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

    2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。 変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。 変換表に求めら

  • 1