[B! encoding] ftnkのブックマーク

ftnk id:ftnk

encodingに関するftnkのブックマーク (12)

PHP、デフォルトエンコーディングをUTF-8へ (default_charset) | エンタープライズ | マイコミジャーナル
PHP: Hypertext Preprocessor PHP開発チームはPHP6におけるUTF-16化を断念。開発ブランチをPHP5.3へロールバックし、これまでに開発した機能をロールバックしたブランチへバックポートするという方針へ変更した。これはPHP6で取り組まれたUTF-16対応実装が予想以上に困難だったためと、UTF-16に移行することで得られる利益よりも不利益が多いことが判明したためだ。PHPにおける文字集合とエンコーディング回りの議論は振り出しに戻った。しかし、変化は確実に訪れている。Mind the encodings!において「default_charset」がiso-8859-1からUTF-8へ変更されたことが紹介されている。ブラウザはサーバからのデータにエンコーディングの指定がなかった場合、これまではISO-8859-1をデフォルトエンコーディングとしていた。逆にP
ftnk 2010/03/31
php

utf8

utf-8

encoding
リンク
「UnicodeによるXSSとSQLインジェクションの可能性」プレゼン資料 - ockeghem's blog
だいぶ間があいてしまいましたが、本年1月31日に開催された、第04回まっちゃ４４５勉強会目覚まし勉強会におけるライトニングトークの資料を公開します。 UnicodeによるXSSとSQLインジェクションの可能性View more presentations from ockeghem.
ftnk 2009/09/20
unicode

xss

security

encoding

charset
リンク
アポストロフィの悩み | Okumura's Blog
何でもいいから英語の単語に「痴」を付けてGoogleで検索してみる。例えば「he痴」でもいい。うまく見つからなければ，例えば Shakespeare痴 Got A Gun を見てみる。英語のサイトなのに何でこう「痴」が多いのか（うまく「痴」に見えないなら，ブラウザのデフォルトのエンコーディングをシフトJISにしてみてください）。答え：Windows-1252（CP1252）のアポストロフィは 0x92 であり，これにs（0x73）が付くと 92 73 となり，これはシフトJISで「痴」になる。つまり，「He's」が「He痴」に化けるページはアポストロフィをWindows-1252でエンコーディングし，エンコーディング指定をしていないのでシフトJISで表示してしまったのである。書いた本人はLatin-1（ISO 8859-1）のつもりかもしれない。アポストロフィは '（0x27）でいいの
ftnk 2009/08/29
encoding

charset
リンク
Emacs22 UTF-8 における文脈依存な文字幅の問題について
UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。文字によって幅を変えるプロポーショナルフォントを前提としたテキストであればあまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは表示がガタガタになってしまい問題になります。これらの文字を wide character として判別させるには以下の設定を
ftnk 2007/12/27
Emacs

encoding

Font

UTF-8
リンク
perl - 文字列ばらしはsplit //, $strで : 404 Blog Not Found
2007年11月27日13:30 カテゴリLightweight Languages perl - 文字列ばらしはsplit //, $strでうーん、ここがあきまへん。 [を] 転置インデックスによる検索システムを作ってみよう！ 9 my @char = ($c =~ /([\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]| 10 [\xE0-\xEF][\x80-\xBF]{2}| 11 [\xF0-\xF7][\x80-\xBF]{3})/gsx); 文字列をばらして(utf8の)文字一つ一つの配列にするには、バイト列に正規表現をかますのではなく、utf8文字列にしてからそれにsplit //をかますのが一番です。単にわかりやすいだけではなく、その方がずっと高速です。以下、Benchmark。 #!/usr/local/bin/perl use strict; u
ftnk 2007/12/27
perl

tips

Programming

dankogai

regexp

unicode

utf8

encoding
リンク
UTF-8/UTF-16/UTF-32 を処理系の内部エンコーディングに使う場合のそれぞれのメリット - higepon blog
ごく最近調べて実装したり、人に聞いたメモなので間違っていたらぜひ御指摘を。 UTF-8 ascii が 1byte で ascii に一致する。これが大きい。処理系が実装されている C のコードで、絶対に ascii だと分かっている変数にたいして、標準C関数を使いまくれるのがうれしい。文字列リテラルも可搬性を維持したまま使える。 strcmp("hige-func", hoge) これが UTF-32 だったら、たとえ全てが ascii と分かっていても専用の関数(ブリッジ？)を作らないと行けない。 fopen とか。あとはasciiばかりの場合には効率が良いとか。 UTF-16 2byteに収まる。サロゲートペアの部分なんか気にしないぜと男気を見せれば、完全2byteの世界になること。 UTF-32 完全 4byte 固定なので処理がとても楽。*1 L"abあ" は、何文字？
ftnk 2007/12/27
encoding

utf-8
リンク
JIS2004登場でより複雑化する文字コードの問題を解決--富士通の「Interstage Charset Manager」
富士通は12月7日、文字運用管理の一元化を実現するミドルウェア製品「Interstage Charset Manager」の新機能であるJIS2004対応や、顧客が抱える文字管理の課題とその対策方法に関する説明会を開催した。 Interstage Charset Managerは、メインフレームやWindows、UNIXなど、システムによる文字コードの違いを吸収するためのミドルウェア製品。業務システムで使用するあらゆる文字資源を効率的に集中管理できるので、文字化け対策のための作業時間やコストを削減することが可能になる。新しい機能として、外字ライブラリに、JISの文字規格である「JIS X 0213:2004（JIS2004）」や最新の人名漢字、住民基本台帳ネットワーク統一文字、戸籍統一文字などを含む約9万字を収録。新たに外字を制作することなく、外字エディタ機能を使用して容易に外字を利用す
ftnk 2007/12/27
charset

encoding
リンク
japanese font, charactor code / 日本語フォント、文字コード
書籍文字コードに関する入門文字コード超研究図解雑学文字コードインターネット時代の文字コード漢字問題と文字コード JIS規格 JISハンドブック情報基本 - JIS X 0201,0208,0213,0221等の規格が載っている(目次のpdf)。 PCやUNIXでの文字処理についてパソコンにおける日本語処理・文字コード - (サポートページ) UNIX System 5—リリース4国際化機能 CJKV日中韓越情報処理 - ((著者)Ken Lunde's Home Page) 各国の文字コード文字コードの世界 - 出版元のページ文字符号の歴史—欧米と日本編文字符号の歴史アジア編漢字について e康煕字典日本語版 [CD-ROM] - (出版元のページ) 日本の漢字知っておきたい漢字の知識メーリングリスト JIS X 0213 Mail Listの御案内 UTF-
ftnk 2007/09/11
Font

encoding

reference
リンク
[を] UTF-8 で半角カナを判定
UTF-8 で半角カナを判定 2006-11-09-3 [Programming] Perl で UTF-8 で半角カナを判定するには、顔文字みたいな正規表現を使うと良いみたい。なお、下記では全角になっていますが、「。」「゜」は半角です。 print if /[。-゜]/; 以下、確認スクリプト utf8hankana-test.pl。 begin 755 utf8hankana-test.pl.gz M'XL("+7C4D4``W5T9CAH86YK86YA+71E<W0N<&P`1<_)2L-@$,#Q^SS%9[Q8 ML>0J1H1"]>K!>'()M48-U"A)BP<1M.[5NN];L>[[OFM]F"IXZROX5P\._&!F MF!F8XB(]X7MZB^/JW;87DV+UF4Y]'<SEDR?YP51)O5D3+`](PK>5'_><:-SX MS7L
ftnk 2007/09/11
Perl

utf-8

Regexp

encoding
リンク
Unicodeで拡張子を偽装された実行ファイルの防御方法 - 葉っぱ日記
「それ Unicode で」などで紹介されている、Unicode の U+202E (RIGHT-TO-LEFT OVERRIDE; RLO)を使って拡張子を偽装された exe ファイルの実行を抑止する方法を思いついた。メモ帳を開いて、"**"と入力する(前後の引用符は不要)。 "*"と"*"の間にキャレット(カーソル)を移動させる右クリックで「Unicode 制御文字の挿入」から「RLO Start to right-to-left override」「RLO Start of right-to-left override」を選択 Ctrl-A で全て選択、Ctrl-C でクリップボードにコピー。ローカルセキュリティポリシーを開く画面左側の「追加の規則」を右クリック「新しいパスの規則」を選択「パス」欄で Ctrl-V をして、メモ帳の内容を貼り付ける。セキュリティレベルが「
ftnk 2007/09/11
Unicode の U 202E (RIGHT-TO-LEFT OVERRIDE; RLO)を使った拡張子偽装

encoding

Security

Unicode

windows
リンク
シフトJISを捨てられるか? - 記者のつぶやき：ITpro
これまで，Windows Vistaの文字の扱いに関する事柄を何度か取り上げてきた。同じキャラクタ・コードで，Windows XPのときと文字の形が変わったり，Unicodeでしか扱えない文字があったりするという話題だ。今回は，エンコーディングについて考えてみたい。これまでの記事でも書いてきたが，文字処理とエンコーディングに関する問題は，何もWindows Vistaに始まったわけではない。Windows XPやWindows 2000など，既存のWindowsでも同様だ。例えば，「鴎」の旧字である「シナカモメ」は，Unicodeでしか扱えない文字だが，Windows XP以前のMS-IMEでも入力できる。石鹸の「鹸」の旧字もそうである。これらの文字を扱うには，アプリケーション・ソフトが，文字列をUnicodeで処理しなればならない。シフトJISに変換した瞬間に，文字情報が無くなってしま
ftnk 2007/09/11
encoding

sjis

Unicode

charset
リンク
404 Blog Not Found:ajax - 文字化け判定表
2007年04月14日01:20 カテゴリLightweight Languages ajax - 文字化け判定表「誰か」という時にhyukiさんの視線を感じたのは気のせいかしらん。結城浩のはてな日記以下のような「文字化け判定表」があるといいなあと思って作り始めましたが、飽きちゃいました（←おい）。誰か作って…。というわけで、そっこーで作ったのが以下。をで表示漢字、カタカナ、ひらがなの入ったquery。これはUTF-8で書かれたテスト文字化けを解決することは鯖側のソースはこちら倉側はお使いのブラウザーで「ソースを見て」下さい。 Enjoy! Dan the Man with too Many Mojibake to Fix See Also: 文字化けクイズ(解答編) - 西尾泰和のはてなダイアリー「Lightweight Languages」カテゴリの最新記事
ftnk 2007/09/11
文字コード

encoding
リンク
1