[B! Unicode] macksのブックマーク

sphinx charset_table with unicode character folding

macks 2009/07/03

全文検索エンジン Sphinx 用の character set table。日本語を検索する際は、これと N-gram の設定が必要になる。

Unicode

リンク

Emacs22 + UTF-8 における文脈依存な文字幅の問題について

UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。文字によって幅を変えるプロポーショナルフォントを前提としたテキストであればあまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは表示がガタガタになってしまい問題になります。これらの文字を wide character として判別させるには以下の設定を

macks 2009/03/05

リンク

azito.com

This domain may be for sale!

macks 2008/06/01

リンク

404 Blog Not Found:perl - Encode 入門

2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門すでにOSCONでもYAPCでも、あちこちそちこちでこの基本方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改めだまってコードを書けよハゲ入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです！とにかくこの基本方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

macks 2008/04/09

Perl
Unicode

リンク

utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

macks 2008/02/21

Perl
Unicode

リンク

Emacs22 UTF-8 における文脈依存な文字幅の問題について

UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。文字によって幅を変えるプロポーショナルフォントを前提としたテキストであればあまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは表示がガタガタになってしまい問題になります。これらの文字を wide character として判別させるには以下の設定を

macks 2008/02/14

リンク

続々・rxvt-unicode ×問題再び, etc.

_ [comp] 続々・rxvt-unicode ×問題再びいろいろ腑に落ちないけど、locale のほうをいじってみることにした。てか、そもそも locale って何からどうやって生成されてるんだ？ということで /usr/sbin/locale-gen を見てみる。これ自体シェルスクリプトで、実体の /usr/bin/localedef に渡す引数とかをいろいろやってるようだ。locale.gen(5) より、ja_JP.UTF-8 だと /usr/share/i18n/locales/ja_JP と /usr/share/i18n/charmaps/UTF-8.gz が locale の基になるようだ。で、/usr/share/i18n/charmaps/UTF-8.gz を見てみると、 % Character width according to Unicode 3.2. % -

macks 2007/05/20

Unicodeの曖昧な文字幅問題。locale をいじって glibc の挙動を変える方法。なるほど。

Unicode

リンク

それ Unicode で

UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

macks 2006/12/14

リンク

GNU Screen - Bugs: bug #16666, [PATCH] Support for UAX#11 East... [Savannah]

BACKGROUND According to Unicode Standard Annex #11(UAX #11) [EAW], some characters are classified as East Asian Ambiguous (A) Class. Class A characters can be sometimes wide (1 Em wide) and sometimes narrow (1/2 Em wide). Quotes from UAX#11, Section 4: Ambiguous characters occur in East Asian legacy character sets as wide characters, but as narrow (i.e. normal-width) characters in non-East Asian u

macks 2006/10/01

East Asian ambiguous character width problem。パッチあり。

Unicode

リンク

Utf-Translate-Cjk mode

utf-translate-cjk-mode Emacs-21.1 で utf-8 に対応されましたが、U+0000..U+33FF と U+E000..U+FFFF の文字にしか対応しておらず、日本語等を取り扱えませんでした。 Emacs-22.1 にて utf-translate-cjk-mode というマイナーモードが追加され、 CJK に限り変換ができるようになるようです。このマイナーモードはデフォルトで有効となっているので、設定は特に必要としません。 Mule-UCS との比較利点 Emacs に標準で付いてくる。読み込みが速い。欠点欧米の言語と CJK にしか対応していない。 japanese-jisx0213 に対応していない。 un-define-change-charset-order のような charset の優先度を変更する仕組がない。 un-supp

macks 2006/10/01

EmacsでのUTF-8対応について

Unicode

リンク

http://www.pqrs.org/~tekezo/nikki/2006/02/23.html

macks 2006/10/01

Unicodeの曖昧な文字幅問題。Emacs での対処法。

Unicode

リンク

UAX #11: East Asian Width

Summary This annex presents the specifications of a normative property for Unicode characters that is useful when interoperating with East Asian Legacy character sets. Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a stable document and may be used as reference material or cited as a n

macks 2006/09/30

Unicodeの文字幅について。Ambiguousな文字幅対策の参考に。

Unicode

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

Unicodeに関するmacksのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス