Python最近、ときどきTwitterで「Python」を検索して眺めていたのだが、Pythonの分かりにくいところとして「UnicodeDecodeErrorが出てうざい」という不満をよく見かけるようだ。確かに、Pythonでは、数字やアルファベット以外のユニコード文字を使おうとすると... 続きを読む
この記事がはてなダイアリー上で化けないかどうか不安だが。 >>> u"こんにちは世界" u'\u3053\u3093\u306b\u3061\u306f\u4e16\u754c' >>> u"こんにちは世界".encode("utf-8") '\xe3\x81\x93\xe3\x82\x93\xe3\x81\xab\xe3\x81\xa1\xe3\x81\xaf\xe4\xb8\x96\xe7\x... 続きを読む
Shift_JISエンコードやEUC-JPエンコードなども可能な escape エンコード・デコード関数のライブラリ 文字列をすべてのコンピュータで読めるような形式に変換したり、変換されたものを元の文字列にデコードすることができる関数のライブラリです。 ビルトイン関... 続きを読む
128 Code Points [�-��-�� \u0009-\u000D \u0020 ` \^ _ \- , ; \: ! ? . ' " ( ) \[ \] \{ \} @ * / \\ \& # % + <-> | ~ \$ 0-9 aA bB cC dD eE fF gG hH iI jJ kK lL mM nN oO pP qQ rR sS tT uU vV wW xX yY zZ] Basic Latin - C0 controls U+0000 ( ... 続きを読む
id:otsuneに建設予定フラグがたてられていたので。 冬通りに消え行く制服ガールは、夢物語にリアルを求めない。 - subtech Perl の utf8 関係が未だ全く理解できない。わからないことがわからないので整理 #!/usr/bin/perl use strict; use warnings; use utf8 ... 続きを読む
2008年11月27日 Posted by Markus Scherer (ユニコードソフトウェアエンジニア) 絵文字とは、顔の表情やその他のシンボルなどを絵で表現した文字で、日本の携帯電話ユーザーの間で特に人気があり、広く使用されているものです。先月、Gmail でも絵文字が使用可... 続きを読む
先ほど,日本の携帯で使われている「絵文字」のUnicodeへの収録を検討していることと,そのためのデータがGoogleのブログで発表された.詳細は以下を見て頂きたい.Emoji for Unicode: Open Source Data for the Encoding Proposal(Google Code)Googleの日本... 続きを読む
ただし、これも実は厳密ではなくて、これだとSurrogate Pairの領域(U+D800 - U+DFFF)も入ってしまいますが、まあ普通そこまでやらんでもいいでしょう。 Dan the Man with Too Many Encodings to Support 追記: 成瀬さんからTBが。 はてなるせだいあり - [Char]U... 続きを読む
日本語/フラグ周りでつまづくのはありがちなので落ち込む必要はないです。この連載も「そろそろ日本語の話題か・・」と思ったのですが、まとめるのがめんどうでテラ放置してました。 すでにたくさんの資料が出回っていることを踏まえ違う切り口でまとめてみま... 続きを読む
-> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <... 続きを読む
Perl-5.8 覚え書き Last Updated at $Date: 2005/12/04 04:00:59 $. このページは,Perl-5.8.2 を使う上で困ったことなどの覚え書きです. 日本語を含むスクリプトを書く 日本語 EUC でスクリプトを書く UTF-8 でスクリプトを書く 日本語を含むファイルを開く ... 続きを読む
UTF-7を利用したXSSは、charset が指定されていない場合に発生すると考えられていますが、少なくとも Internet Explorer においては、これは大きな間違いです。正しくは、Internet Explorer が認識できる charset が指定されていない場合であり、charsetが付加... 続きを読む
■ ‽ ⁈ ⁉ 00:15 !?が重なった文字も驚きですが、Unicodeにはそれぞれ文字としてあるらしい。知らなかったー。 感嘆修辞疑問符 - Wikipedia ‽: 感嘆修辞疑問符 (U+203D/‽) (!と?が重なった文字) ⁈: 疑問感嘆符 (U+2048/⁈) (?!) ⁉: 感嘆疑問符 (U+2049/⁉... 続きを読む
August 26, 2007 ҉ Can anyone enlighten me on its purpose, language of origin? If you paste this character and begin typing, your writing is transformed to right-to-left format. Weird! ҉Point in case. Posted... 続きを読む
HTML実体参照・数値参照・Base64・URLエンコード・MIME・uuencode・PHP Serialize・JavaScript MD5・MD4・SHA-1,256,384,512・CRC32・unix passwd 半角・全角・ひらがな・カタカナ・ローマ字・分かち書き・Camelize・複数形・単数形に一括変換! エンコード/デ... 続きを読む
Using HTML entities is the right way to ensure all the characters on your page are validated. However, often finding the right entity code requires scanning through 250 rows of characters. This lookup allows you to quickly find the entity bas... 続きを読む
To get a list of code charts for a character, enter its code in the search box at the top. To access a chart for a given block, click on its entry in the table. The charts are PDF files, and some of them may be very large. For frequent access... 続きを読む
Unicode エンコーディング © 2006 Magicant / 1.2.4 (2006-08-30) を 各形式に URI として Unicode コードポイントとして UTF-8 値として UTF-16 (BE) 値として UTF-16 (LE) 値として XML/HTML として / 変換の例 URI としてデコード abc%26def%25ghi → abc&d... 続きを読む
Summary This document describes the format and content of the Unicode Character Database (UCD) Status This file and the files described herein are part of the Unicode Character Database and are governed by the terms of use at http://www.unico... 続きを読む