UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、 矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。 下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。 文字によって幅を変えるプロポーショナルフォントを前提としたテキストであれば あまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは 表示がガタガタになってしまい問題になります。 これらの文字を wide character として判別させるには以下の設定を
2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基本方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ 入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです!とにかくこの基本方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、 矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。 下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。 文字によって幅を変えるプロポーショナルフォントを前提としたテキストであれば あまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは 表示がガタガタになってしまい問題になります。 これらの文字を wide character として判別させるには以下の設定を
_ [comp] 続々・rxvt-unicode ×問題再び いろいろ腑に落ちないけど、locale のほうをいじってみることにした。てか、そもそも locale って何からどうやって生成されてるんだ? ということで /usr/sbin/locale-gen を見てみる。これ自体シェルスクリプトで、実体の /usr/bin/localedef に渡す引数とかをいろいろやってるようだ。locale.gen(5) より、ja_JP.UTF-8 だと /usr/share/i18n/locales/ja_JP と /usr/share/i18n/charmaps/UTF-8.gz が locale の基になるようだ。で、/usr/share/i18n/charmaps/UTF-8.gz を見てみると、 % Character width according to Unicode 3.2. % -
UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。
BACKGROUND According to Unicode Standard Annex #11(UAX #11) [EAW], some characters are classified as East Asian Ambiguous (A) Class. Class A characters can be sometimes wide (1 Em wide) and sometimes narrow (1/2 Em wide). Quotes from UAX#11, Section 4: Ambiguous characters occur in East Asian legacy character sets as wide characters, but as narrow (i.e. normal-width) characters in non-East Asian u
utf-translate-cjk-mode Emacs-21.1 で utf-8 に対応されましたが、U+0000..U+33FF と U+E000..U+FFFF の文字にしか対応しておらず、日本語等を取り扱えませんでした。 Emacs-22.1 にて utf-translate-cjk-mode というマイナーモードが追加され、 CJK に限り変換ができるようになるようです。このマイナーモードはデフォルトで 有効となっているので、設定は特に必要としません。 Mule-UCS との比較 利点 Emacs に標準で付いてくる。 読み込みが速い。 欠点 欧米の言語と CJK にしか対応していない。 japanese-jisx0213 に対応していない。 un-define-change-charset-order のような charset の優先度を変更する仕組がない。 un-supp
Summary This annex presents the specifications of a normative property for Unicode characters that is useful when interoperating with East Asian Legacy character sets. Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a stable document and may be used as reference material or cited as a n
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く