[B! Unicode][charcode] shckorのブックマーク

shckor id:shckor

Unicodeとcharcodeに関するshckorのブックマーク (3)

Unicode�$BBP1~�(B �$BJ8;z%3!<%II=�(B
�$B!!�(BUnicode�$BBP1~$N�(BJIS�$BBhFs?e=`4A;z$NJ8;z%3!<%II=$G$9!#�(B �$B!!%V%i%&%6$r;H$C$F!"J8;z$dJ8;z%3!<%I$r8!:w$7$FC5$9$3$H$,$G$-$^$9!#�(B Unicode�$BBP1~$K$D$$$F�(B �$B!!�(BUnicode�$B$KBP1~$7$F!"6hE@HV9f!"�(BJIS�$B%3!<%I!"%7%U%H�(BJIS�$B%3!<%I!"�(BEUC�$B%3!<%I!"�(BUnicode(UTF-8, UTF-16)�$B$NBP1~I=$r:n@.$7$F$_$^$7$?!#�(B �$B!!�(BUTF-16�$B$O!"�(BUTF-16BE�$B!J%S%C%0%(%s%G%#%"%s!K$GI=<($7$^$9!#�(B
shckor 2013/01/12
charcode

Unicode
リンク
UTF-8 エンコーディングの危険性 - WebOS Goodies
基本的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです（昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ
shckor 2007/02/22
Develop

charcode

Unicode
リンク
シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories
2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら
shckor 2006/06/28
Develop

charcode

Unicode
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx