タグ

UnicodeとWin32に関するt-murachiのブックマーク (2)

  • The UTF-8-Everywhere Manifesto

    As can be seen, UTF-16 takes about 50% more space than UTF-8 on real data, it only saves 20% for dense Asian text, and hardly competes with general purpose compression algorithms. The Chinese translation of this manifesto takes 58.8 KiB in UTF-16, and only 51.7 KiB in UTF-8. Text operations on encoded strings The popular text-based data formats (e.g. CSV, XML, HTML, JSON, RTF and source codes of c

    t-murachi
    t-murachi 2012/05/01
    _UNICODE 使わずに Unicode版Win32 API を直接呼べとか内部文字列は UTF-8 にして booster::nowide の convert() とやらを使えとか。…誰か UTF-8 を理解している regular expression ライブラリ作ってくれないかなぁ。
  • GNU/Linuxの方がWindowsより日本語サポートが優れている

    今や、GNU/Linuxの方が不自由なWindowsより日語サポートが優れている。これは純然たる事実である。 私は、UIが日語化の質を論じているのではない。私はUIの言語を英語にしているので、UIの日語の質についてはわからない。ただ、2012年となった今では、GNU/Linux/Xの環境の方が、圧倒的に日語を扱う環境が優れていると考えているのだ。 まず、現行のまともなディストリは、文字エンコードをデフォルトでUTF-8にしている。このため、不自由なWindowsにおける、カオスな大量のマルチバイト文字コード混在環境の問題は存在しない。確かに、不自由なWindowsのネイティブの文字エンコードはUTF-16だが、下位互換性を保証するために、既存のマルチバイト文字をすべて継続してサポートしているために、未だにカオスな状況になっている。多くのプログラムは、嘆かわしいことに、いまだにANS

    t-murachi
    t-murachi 2012/04/05
    確かに、 ANSI 版 Win32 の問題は、結構根深い気がする。とりあえず MS-VS 上のテキストを適当なテキストエディタにコピペすると文字が化けるのどーにかして欲しい (泣
  • 1