何故かあたり前にならない文字エンコーディングバリデーション | yohgaki's blog ってあるように、いまいち文字コードの不正な判定による危険性ってのが分かってない。 SJISの問題は、(2/3)SQLインジェクションを根絶!セキュア開発の極意 - 第5回■注目される文字コードのセキュリティ問題:ITproの記事がわかりやすかった。 というか、やっぱりPHP使ってると誰でも一度は「なんじゃこの『¥』は?」って思うもんなんで。 なるほど、確かに↓の図のように「あるバイト」が2つの意味を持つっていう文字コード形態はやばいんだなと。 EUC-JPはそんなことはしないで、1つのバイトには1つの意味しか取らせない。 だけど、これでも文字化けが起こることがある。経験的には、「マルチバイトをXX文字で切り落としたい」とかやった場合。ちゃんと文字コードを判定してくれるPHPでいえばmb_subst
Visual Studioでファイルのエンコード(文字コード)を変更するには?:.NET TIPS 連載目次 Visual Studio .NET 2002/2003(以降、VS.NET)の日本語版で作成したソース・ファイルの多くは「シフトJIS」でエンコードされており、逆にVisual Studio 2005(以降、VS 2005)のソース・ファイルは基本的に「UTF-8」でエンコードされている。そのため、VS.NETからVS 2005へ開発環境を移行する場合などで、(VS 2005のエンコード形式に統一したいなどの理由により)そのエンコード(文字コード)を変更したいということはある。このようなファイルのエンコードを変更する機能がVisual Studioには搭載されている。それが[保存オプションの詳細設定]だ。 [保存オプションの詳細設定]を利用するには、Visual StudioのI
id:tomi-ru さんが [http://e8y.net/mag/015-encode/:title] というとてもプラクティカルな [http://search.cpan.org/perldoc?Encode:title=Encode] 入門をお書きになったので,わたしも違う切り口で書いてみたくなりました。 いちおうの基礎(読み飛ばし可) 文字セット, キャラクタセット, 文字集合, 文字集合 - Wikipedia エンコーディング, 符号化方式, 文字符号化方式 - Wikipedia この2つは異なります。とくに知らなくても下記の文書を読むことはできますが,理解しているとためになります。くわしく知りたい人は自習してください。 文字セットの例 Unicode JIS X 0208 ひらがなとかカタカナとか漢字とか ASCII 文字 エンコーディングの例 UTF-8 ISO-202
UCSとUTFとは? [2003-11-11] Unicode正規化とは [2008-01-14] Unicodeに関するメモ [2002-06-15] JIS X 0213とUCS/Unicodeとの対応について [2006-12-30] Unicode文字の表示例 (Unicode 4.1.0) [2005-04-23] JIS/SHIFTJISとWINDOWS/CP932との相違 [2001-07-08] JIS X 0208とUnicodeとの対応表/ZIP版 [2002-06-01] Shift_JIS-2004 (JIS X 0213:2004)とUnicode 3.2.0の対応表/ZIP版 [2007-01-03] [同じくShift_JIS-2004 (JIS X 0213:2004)とUnicode 3.2.0の対応表/非圧縮テキスト] ・JIS X 0213:2000
2005年09月30日14:33 カテゴリLightweight Languages ちゃんとUTF-8 flagを処理する ちょ、ちょっとまったぁ。 naoyaのはてなダイアリー - XML::Parser を Hack して utf8 フラグ問題から解放される ちゃんとやりたい方は、 Unicode::RecursiveDowngrade Object::Apply あたりを使いましょう。 これ、「ちゃんとした」方法って言われちゃうとなあ。 Perl 5 Portersのラフコンセンサスとしては、UTF-8 flagの処理のガイドラインは、 文字列としての処理はflagを付けて バイト列としての処理はflagを落として というもので、翻訳すると 内部で扱いはflag付き 外部に出す寸前でflag落とし ということになります。よって「いつflagを落とすか」は、「出力時」というのが望まし
use encoding 'utf-8' & encoding::warnings Perl ネタ。 XML まわりなんかを扱うときについて回る UTF-8 フラグ (Unicode フラグ)をどう落とすか的ネタがもりあがっていますねぇ。このネタは拙書の Blog Hacks でも 1 Hack さいて解説してあります。 Blog Hacks ―プロが教えるテクニック&ツール100選posted with amazlet on 05.09.30宮川 達彦 伊藤 直也 オライリー・ジャパン (2004/08/07) 売り上げランキング: 20,714 Amazon.co.jp で詳細を見る たしかに内部的に UTF-8 フラグを落としてバリバリつなげちゃえば、場当たり的に楽は楽なんだけど、内部的に Unicode フラグをもったまま処理して、最後に出力するときに落とす(encode する)と
……を先日考えていたところ、NiAOUさんよりサンプルスクリプトを提示して頂きましたが、面白そうなので自分でも他のやり方がないか考えてみました(Perlクイズばりに)。 # hint: uft-8 の一文字の正規表現 # [\x00-\x7F]| # [\xC0-\xDF][\x80-\xBF]| # [\xE0-\xEF][\x80-\xBF][\x80-\xBF]| # [\xF0-\xF7][\x80-\xBF][\x80-\xBF][\x80-\xBF]| # [\xF8-\xFB][\x80-\xBF][\x80-\xBF][\x80-\xBF][\x80-\xBF]| # [\xFC-\xFD][\x80-\xBF][\x80-\xBF][\x80-\xBF][\x80-\xBF][\x80-\xBF] 実のところ知りたかったのはこの部分で、最高何バイトまであり得るのかとか、各
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く