[B! unicode] satojkovicのブックマーク

Loading...

satojkovic 2011/02/01

リンク

UTF-8の冗長なエンコードとは何で、なんでそれがセキュリティ的に危ないのか？を文字コード知識レヴェル3くらいの凡プログラマが考えてみる - tohokuaikiのチラシの裏

何故かあたり前にならない文字エンコーディングバリデーション | yohgaki's blog ってあるように、いまいち文字コードの不正な判定による危険性ってのが分かってない。 SJISの問題は、（2/3）SQLインジェクションを根絶！セキュア開発の極意 - 第5回■注目される文字コードのセキュリティ問題：ITproの記事がわかりやすかった。というか、やっぱりPHP使ってると誰でも一度は「なんじゃこの『￥』は？」って思うもんなんで。なるほど、確かに↓の図のように「あるバイト」が2つの意味を持つっていう文字コード形態はやばいんだなと。 EUC-JPはそんなことはしないで、1つのバイトには1つの意味しか取らせない。だけど、これでも文字化けが起こることがある。経験的には、「マルチバイトをXX文字で切り落としたい」とかやった場合。ちゃんと文字コードを判定してくれるPHPでいえばmb_subst

satojkovic 2009/09/12

unicode

リンク

Visual Studioでファイルのエンコードを変更するには？

Visual Studioでファイルのエンコード（文字コード）を変更するには？：.NET TIPS 連載目次 Visual Studio .NET 2002／2003（以降、VS.NET）の日本語版で作成したソース・ファイルの多くは「シフトJIS」でエンコードされており、逆にVisual Studio 2005（以降、VS 2005）のソース・ファイルは基本的に「UTF-8」でエンコードされている。そのため、VS.NETからVS 2005へ開発環境を移行する場合などで、（VS 2005のエンコード形式に統一したいなどの理由により）そのエンコード（文字コード）を変更したいということはある。このようなファイルのエンコードを変更する機能がVisual Studioには搭載されている。それが［保存オプションの詳細設定］だ。［保存オプションの詳細設定］を利用するには、Visual StudioのI

satojkovic 2008/07/18

リンク

図解: Perl と Unicode 文字列 - daily dayflower

id:tomi-ru さんが [http://e8y.net/mag/015-encode/:title] というとてもプラクティカルな [http://search.cpan.org/perldoc?Encode:title=Encode] 入門をお書きになったので，わたしも違う切り口で書いてみたくなりました。いちおうの基礎（読み飛ばし可）文字セット, キャラクタセット, 文字集合, 文字集合 - Wikipedia エンコーディング, 符号化方式, 文字符号化方式 - Wikipedia この2つは異なります。とくに知らなくても下記の文書を読むことはできますが，理解しているとためになります。くわしく知りたい人は自習してください。文字セットの例 Unicode JIS X 0208 ひらがなとかカタカナとか漢字とか ASCII 文字エンコーディングの例 UTF-8 ISO-202

satojkovic 2008/06/21

これはいい

リンク

今日のCPANモジュール（跡地）目次

Redirecting… Click here if you are not redirected.

satojkovic 2008/05/11

リンク

使いこなそうユニコード

UCSとUTFとは？ [2003-11-11] Unicode正規化とは [2008-01-14] Unicodeに関するメモ [2002-06-15] JIS X 0213とUCS/Unicodeとの対応について [2006-12-30] Unicode文字の表示例 (Unicode 4.1.0) [2005-04-23] JIS/SHIFTJISとWINDOWS/CP932との相違 [2001-07-08] JIS X 0208とUnicodeとの対応表/ZIP版 [2002-06-01] Shift_JIS-2004 (JIS X 0213:2004)とUnicode 3.2.0の対応表/ZIP版 [2007-01-03] [同じくShift_JIS-2004 (JIS X 0213:2004)とUnicode 3.2.0の対応表/非圧縮テキスト] ・JIS X 0213:2000

satojkovic 2005/10/10

unicode

リンク

ちゃんとUTF-8 flagを処理する : 404 Blog Not Found

2005年09月30日14:33 カテゴリLightweight Languages ちゃんとUTF-8 flagを処理するちょ、ちょっとまったぁ。 naoyaのはてなダイアリー - XML::Parser を Hack して utf8 フラグ問題から解放されるちゃんとやりたい方は、 Unicode::RecursiveDowngrade Object::Apply あたりを使いましょう。これ、「ちゃんとした」方法って言われちゃうとなあ。 Perl 5 Portersのラフコンセンサスとしては、UTF-8 flagの処理のガイドラインは、文字列としての処理はflagを付けてバイト列としての処理はflagを落としてというもので、翻訳すると内部で扱いはflag付き外部に出す寸前でflag落としということになります。よって「いつflagを落とすか」は、「出力時」というのが望まし

satojkovic 2005/10/02

perl
unicode

リンク

use encoding 'utf-8' & encoding::warnings: blog.bulknews.net

use encoding 'utf-8' & encoding::warnings Perl ネタ。 XML まわりなんかを扱うときについて回る UTF-8 フラグ (Unicode フラグ）をどう落とすか的ネタがもりあがっていますねぇ。このネタは拙書の Blog Hacks でも 1 Hack さいて解説してあります。 Blog Hacks ―プロが教えるテクニック&ツール100選posted with amazlet on 05.09.30宮川達彦伊藤直也オライリー・ジャパン (2004/08/07) 売り上げランキング: 20,714 Amazon.co.jp で詳細を見るたしかに内部的に UTF-8 フラグを落としてバリバリつなげちゃえば、場当たり的に楽は楽なんだけど、内部的に Unicode フラグをもったまま処理して、最後に出力するときに落とす（encode する）と

satojkovic 2005/10/01

perl
unicode

リンク

http://www.macchiato.com/unicode/charts.html

satojkovic 2005/08/22

unicode

リンク

UTF-8文字列をバイト数でカットした時の末尾の処理 - 徒書

……を先日考えていたところ、NiAOUさんよりサンプルスクリプトを提示して頂きましたが、面白そうなので自分でも他のやり方がないか考えてみました（Perlクイズばりに）。 # hint: uft-8 の一文字の正規表現 # [\x00-\x7F]| # [\xC0-\xDF][\x80-\xBF]| # [\xE0-\xEF][\x80-\xBF][\x80-\xBF]| # [\xF0-\xF7][\x80-\xBF][\x80-\xBF][\x80-\xBF]| # [\xF8-\xFB][\x80-\xBF][\x80-\xBF][\x80-\xBF][\x80-\xBF]| # [\xFC-\xFD][\x80-\xBF][\x80-\xBF][\x80-\xBF][\x80-\xBF][\x80-\xBF] 実のところ知りたかったのはこの部分で、最高何バイトまであり得るのかとか、各

satojkovic 2005/08/10

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

unicodeに関するsatojkovicのブックマーク (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス