UTF-8 is a way to encode Unicode code points—integer values from 0 through 10FFFF—into a byte stream, and it is far simpler than many people realize. The easiest way to make it confusing or complicated is to treat it as a black box, never l... 続きを読む
Norbert’s CornerPlacesSan FranciscoCaliforniaSingapore & Indonesia 2011-12Spain, Germany & Switzerland 2011Bolivia 2010Taiwan, South Korea & Japan 2009UK & Greece 2007France 2006India 2006China & Japan 2005South Korea 2004J... 続きを読む
Support Full Unicode Source Code and 32-Bit Characters in Strings Allen Wirfs-Brock ECMAScript currently only directly supports the 16-bit basic multilingual plane (BMP) subset of Unicode which is all that existed when ECMAScript was first de... 続きを読む
Unicode is a computing industry standard allowing computers to consistently represent and manipulate text expressed in most of the world's writing systems. Unicodeの最新版となる「Unicode 6.1.0」が公開された。「Unicode 6.1.0」はマイナーバージ... 続きを読む
唐突ですが、Unicode General Categoryで文字列分類したいと思いました。それくらい、UnicodeData.txtをパースしてもよいのですが、せっかくなのでICUを使ってみることにしました。というわけで備忘録です。#include <unicode/uniset.h> #include <iostream> #p... 続きを読む
JavaScriptvs UTF-8, UTF-16, UCS4 - 枕を欹てて聴くを読んでは良いけどやってみないと分からん>< あ〜んどプログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)作者: 矢野啓介出版社/メーカー: 技術評論社発売日: 2010/02... 続きを読む
Python最近、ときどきTwitterで「Python」を検索して眺めていたのだが、Pythonの分かりにくいところとして「UnicodeDecodeErrorが出てうざい」という不満をよく見かけるようだ。確かに、Pythonでは、数字やアルファベット以外のユニコード文字を使おうとすると... 続きを読む
By René Pfeiffer Recently I did some programming and had to deal with text documents stored into C++ strings and C memory regions. Since I had no need for elaborate string functions I thought I'd get away with a few pointers to string objects... 続きを読む
最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき,文字コードの方式が2種類,あるいはそれ以上あることに気が付かれるかもしれません。例えば,一つはUnicodeとあるのに対し,もう一つはUnicode (UTF-8)と表記されているかもしれません。この2つは... 続きを読む
こんな感じでした。おわり。http://edv.sakura.ne.jp/junk/snow_choo.html参考http://unicodesnowmanforyou.com/ 続きを読む
UTF String library 1.5 ready for perusal 最近Unicodeライブラリがいろんなところで作られているようですが、これが現状一番いい気がする。Boost入りの第一候補になるかもしれない。ドキュメントやサンプルが揃ってないのでまだまだわかりませんが。 続きを読む
Introduction Many C++ developers miss an easy and portable way of handling Unicode encoded strings. C++ Standard is currently Unicode agnostic, and while some work is being done to introduce Unicode to the next incarnation called C++0x, for t... 続きを読む
Unicode 6.0: Support for Popular Symbols in Asia Mountain View, CA, USA – October 11, 2010 – The newly finalized Unicode Version 6.0 adds 2,088 characters, with over 1,000 new symbols. A long-awaited feature of Unicode 6.0 is the encoding o... 続きを読む
2010/10/13 Unicode 6.0.0でケータイ絵文字が追加 Unicode 5.2.0の改定版である「Unicode 6.0.0」が公開されている。Unicode 6.0.0では2088文字が追加されたが、最大の特徴はGoogleやAppleから提案されたケータイ絵文字が1000以上追加されたことだ(関連1、関連2... 続きを読む
This is an online tool that builds a JavaScript regular expression that matches characters that fall in any number of specified Unicode blocks. [] Selected Code Range Block Name 続きを読む
正規表現で漢字の範囲指定をする場合、シフトJISでは [亜-熙] になるのですけど、それでは Unicode ではどうするかが悩ましいところです。 [一-龠]([x{4E00}-x{9FA0}])にしている例を見かけますが、これは実のところ Unicode ...Unicodeで「漢字」の正規表現 ... 続きを読む
128 Code Points [�-��-�� \u0009-\u000D \u0020 ` \^ _ \- , ; \: ! ? . ' " ( ) \[ \] \{ \} @ * / \\ \& # % + <-> | ~ \$ 0-9 aA bB cC dD eE fF gG hH iI jJ kK lL mM nN oO pP qQ rR sS tT uU vV wW xX yY zZ] Basic Latin - C0 controls U+0000 ( ... 続きを読む
2ch, 文字コードという2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。... 続きを読む
C | 日本語文字列を区切るUTF-8 エンコーディングされた文字列を一文字ずつ表示したかった。例えば次のような入力があったら、 今日は晴天 以下のように一文字ずつ区切って表示したい。 今 日 は 晴 天 外部ライブラリを使用しないでできれば、外部のライブラリ... 続きを読む
何故かあたり前にならない文字エンコーディングバリデーションってあるように、いまいち文字コードの不正な判定による危険性ってのが分かってない。SJISの問題は、第5回■注目される文字コードのセキュリティ問題 - SQLインジェクションを根絶!セキュア開発の... 続きを読む