[B! utf-8] potappoのブックマーク

Matzにっき(2008-01-09) : Well, I'm Back: String Theory

<< 2008/01/ 1 1. 年賀状 2. ゴビウス 3. [Ruby] ZSFA -- Rails Is A Ghetto 2 1. 新年会 3 4 1. The Mythical 5% 5 6 7 8 1. [言語] Substroke Design Dump 2. [言語] A programming language cannot be better without being unintuitive 3. [OSS] McAfee throws some FUD at the GPL - The INQUIRER 9 1. [言語] Well, I'm Back: String Theory 2. [言語] StringRepresentations - The Larceny Project - Trac 10 1. [Ruby] マルチVMでRubyを並列化、サンと東大が

potappo 2008/01/12

リンク

Emacs22 UTF-8 における文脈依存な文字幅の問題について

UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。文字によって幅を変えるプロポーショナルフォントを前提としたテキストであればあまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは表示がガタガタになってしまい問題になります。これらの文字を wide character として判別させるには以下の設定を

potappo 2007/10/10

リンク

追記: UTF-8 vs. ISO-10646 : 404 Blog Not Found

2005年12月20日14:07 カテゴリiTechLogos 追記: UTF-8 vs. ISO-10646 文字集合(Character Set)と符号化(Encoding)について、より適切な表現と追補すべきネタがあったのでEntry quinta essentia - Character Set vs. Encoding となって、U+7FFFFFFF まで許すという話もあって、ややこしさが増す。符号化(Encoding) は文字集合(Character Set) の乗りものであるこう言えば一目瞭然ですね。 UTF-8という「乗り物」には2^31個の座席があるが、17^2^16個の座席しか今では使わないことになっています。別の「乗り物」であるUTF-16にはそれしか座席が用意できないのがその理由です。 UTF-8とPerl 実は、Perlで扱う"utf8"というのは、ISO-1

potappo 2006/11/25

「符号化(Encoding) は文字集合(Character Set) の乗りものである」はわかりやすいかも。Perlのutf8-strictの経緯も。

リンク

yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須

(Last Updated On: 2016年3月3日)最近PostgreSQL、MySQL両方にSJISエンコーディングを利用している際のエスケープ方法の問題を修正がリリースされています。この件は単純に「データベースシステムにセキュリティ上の脆弱性があった」と言う問題ではなく「アプリケーションの作り方を変える必要性」を提起した問題です。参考：セキュアなアプリケーションのアーキテクチャ – sandbox化 PostgreSQL、MySQLの脆弱性は特にSJIS等、マルチバイト文字に\が含まれる文字エンコーディングが大きな影響を受けますが、同類の不正な文字エンコーディングを利用した攻撃方法が他の文字エンコーディングでも可能です。例えば、UTF-8エンコーディングは1文字を構成するバイト列の最初のバイトの何ビット目までが1であるか、を取得してUTF-8文字として1バイト～6バイト必要なのか

potappo 2006/06/12

リンク

[を] UTF-8 の文字にマッチする正規表現

UTF-8 の文字にマッチする正規表現 2006-03-09-1 [Programming] UTF-8の文字にマッチする正規表現の素直版。レガシーなのに対応するとき用にメモ。 [\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7] [\x80-\xBF]{3}|[\xF8-\xFB][\x80-\xBF]{4}|[\xFC-\xFD][\x80-\xBF]{5} 1 2 3 4 5 60xxxxxxx 110xxxxx10xxxxxx 1110xxxx10xxxxxx10xxxxxx 11110xxx10xxxxxx10xxxxxx10xxxxxx 111110xx10xxxxxx10xxxxxx10xxxxxx10xxxxxx 1111110x10xxxxxx10xxxxxx10xxxxx

potappo 2006/03/11

まさに「いつか役に立ちそうだな」的な。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

utf-8に関するpotappoのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス