タグ

Unicodeに関するmacksのブックマーク (12)

  • sphinx charset_table with unicode character folding

    macks
    macks 2009/07/03
    全文検索エンジン Sphinx 用の character set table。日本語を検索する際は、これと N-gram の設定が必要になる。
  • Emacs22 + UTF-8 における文脈依存な文字幅の問題について

    UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、 矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。 下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。 文字によって幅を変えるプロポーショナルフォントを前提としたテキストであれば あまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは 表示がガタガタになってしまい問題になります。 これらの文字を wide character として判別させるには以下の設定を

  • azito.com

    This domain may be for sale!

  • 404 Blog Not Found:perl - Encode 入門

    2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ 入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです!とにかくこの基方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

    404 Blog Not Found:perl - Encode 入門
  • utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech
  • Emacs22 UTF-8 における文脈依存な文字幅の問題について

    UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、 矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。 下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。 文字によって幅を変えるプロポーショナルフォントを前提としたテキストであれば あまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは 表示がガタガタになってしまい問題になります。 これらの文字を wide character として判別させるには以下の設定を

  • 続々・rxvt-unicode ×問題再び, etc.

    _ [comp] 続々・rxvt-unicode ×問題再び いろいろ腑に落ちないけど、locale のほうをいじってみることにした。てか、そもそも locale って何からどうやって生成されてるんだ? ということで /usr/sbin/locale-gen を見てみる。これ自体シェルスクリプトで、実体の /usr/bin/localedef に渡す引数とかをいろいろやってるようだ。locale.gen(5) より、ja_JP.UTF-8 だと /usr/share/i18n/locales/ja_JP と /usr/share/i18n/charmaps/UTF-8.gz が locale の基になるようだ。で、/usr/share/i18n/charmaps/UTF-8.gz を見てみると、 % Character width according to Unicode 3.2. % -

    macks
    macks 2007/05/20
    Unicodeの曖昧な文字幅問題。locale をいじって glibc の挙動を変える方法。なるほど。
  • それ Unicode で

    UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

  • GNU Screen - Bugs: bug #16666, [PATCH] Support for UAX#11 East... [Savannah]

    BACKGROUND According to Unicode Standard Annex #11(UAX #11) [EAW], some characters are classified as East Asian Ambiguous (A) Class. Class A characters can be sometimes wide (1 Em wide) and sometimes narrow (1/2 Em wide). Quotes from UAX#11, Section 4: Ambiguous characters occur in East Asian legacy character sets as wide characters, but as narrow (i.e. normal-width) characters in non-East Asian u

    macks
    macks 2006/10/01
    East Asian ambiguous character width problem。パッチあり。
  • Utf-Translate-Cjk mode

    utf-translate-cjk-mode Emacs-21.1 で utf-8 に対応されましたが、U+0000..U+33FF と U+E000..U+FFFF の文字にしか対応しておらず、日語等を取り扱えませんでした。 Emacs-22.1 にて utf-translate-cjk-mode というマイナーモードが追加され、 CJK に限り変換ができるようになるようです。このマイナーモードはデフォルトで 有効となっているので、設定は特に必要としません。 Mule-UCS との比較 利点 Emacs に標準で付いてくる。 読み込みが速い。 欠点 欧米の言語と CJK にしか対応していない。 japanese-jisx0213 に対応していない。 un-define-change-charset-order のような charset の優先度を変更する仕組がない。 un-supp

    macks
    macks 2006/10/01
    EmacsでのUTF-8対応について
  • http://www.pqrs.org/~tekezo/nikki/2006/02/23.html

    macks
    macks 2006/10/01
    Unicodeの曖昧な文字幅問題。Emacs での対処法。
  • UAX #11: East Asian Width

    Summary This annex presents the specifications of a normative property for Unicode characters that is useful when interoperating with East Asian Legacy character sets. Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a stable document and may be used as reference material or cited as a n

    macks
    macks 2006/09/30
    Unicodeの文字幅について。Ambiguousな文字幅対策の参考に。
  • 1