[B! unicode] cubicdaiyaのブックマーク

MySQL と寿司ビール問題 - かみぽわーる

MySQL と Unicode Collation Algorithm (UCA) - かみぽわーるに関連するトピックで、 MySQL には寿司ビール問題というのがある。寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。あれ？ MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる？ SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

cubicdaiya 2015/03/23

リンク

UTF-8 and Unicode FAQ

UTF-8 and Unicode FAQ for Unix/Linux by Markus Kuhn This text is a very comprehensive one-stop information resource on how you can use Unicode/UTF-8 on POSIX systems (Linux, Unix). You will find here both introductory information for every user, as well as detailed references for the experienced developer. Unicode now replaces ASCII, ISO 8859 and EUC at all levels. It enables users to handle not o

cubicdaiya 2013/08/20

リンク

Unicode table for you

The code for this toy is contained in this page, and is available under both the GPL and MIT licenses. View source and help yourself.

cubicdaiya 2009/08/23

リンク

Python の unicodedata モジュール - bkブログ

Python の unicodedata モジュール Unicode のちょっとしたテキスト処理をしようと思い、 Python の unicodedata モジュールを使ってみました。これは非常に便利です。 unicodedata は Python に標準で付属するため、別途のインストールは不要です。次のようなことができます。文字の名前を取得する文字の名前を取得することができます。Unicode の文字にはすべて一意の名前がつけられています。ソースコード内で Unicode のコードポイントを使うときは U+20AC (EURO SIGN) などとコメントをつけておくと便利でしょう。 >>> unicodedata.name(u'A') 'LATIN CAPITAL LETTER A' >>> unicodedata.name(u'あ') 'HIRAGANA LETTER A' 文字の

cubicdaiya 2007/12/24

リンク

http://www.macchiato.com/unicode/chart/

cubicdaiya 2007/11/02

リンク

Unicode の文字列をソースコードに埋め込む方法 - bkブログ

Unicode の文字列をソースコードに埋め込む方法 Unicode の文字列をソースコードに埋め込む場合、直接 UTF-8 などで文字列を書く方法と、\uXXXX などのようにエスケープして表記する方法があります。後者の方法についてまとめてみました。 \uXXXX 形式の場合 Java, JavaScript, Python, C++, C (C99から) などの多くの言語では \uXXXX という表記 (universal character names) でUnicode の文字を文字列の中に埋め込めます。たとえば、「あいう」は "\u3042\u3044\u3046" となります。 \uXXXX で埋め込んだ文字がどのように解釈されるかは言語や処理系によって異なります。 gcc/g++ の場合、 -fexec-charset オプションで、実際に使う文字セット・エンコーディングを指

cubicdaiya 2007/09/12

unicode

リンク

新しいUnicode符号化方式

新しい文字符号化方式戻るリンク文字符号についてユニコード UTFCP UTFCP2 UTFCP-TABLE 文字符号化方式比較文字コード用語 UTFCPとUTF-JP 新しいUNICODE符号の必要性 UTF8では、日本語に対応する文字(ひらがな、カタカナ、全ての漢字)の符号長が3バイトです。一方、Shift_JISやEUCでは、2バイトで表せます。この意味で、UTF8は、今までの文字コードよりもある意味において改悪されています。この事情は、他国の文字に置いても同様で、例えば、中国語の文字(漢字)においても、今まで2バイトで表せていた物が、UTF8では、3バイト必要になります。これは、欧米/中東圏以外の世界のあらゆる国や言語の文字において言えます。今まで2バイトで余裕を持って扱えていたものを、突然3バイトで扱わなければならないと言われれば、誰でも納得しがたいものでしょ

cubicdaiya 2007/03/11

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

unicodeに関するcubicdaiyaのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス