タグ

文字コードに関するkarahiyoのブックマーク (2)

  • Gauche - A Scheme Implementation

    文字列について 日語を扱うことはGaucheの当初からの目標であった。 それも、出来れば日語に限らず、多国語対応にしたいなと。 問題は実装だ。 固定長か可変長か 最近のScheme処理系の多くはUCS-2にも対応しつつある。 Unicodeで一応コードは決まっているし、固定長だし、 一番簡単な解決法ではあるのだが、Gaucheの目的からみた場合に、 色々と不都合もあるのだ。 ちゃんと多国語を扱うには、16bitじゃ足りなかろう。 かと言って全てをUCS-4で扱うのは無駄が多すぎるよな。 何と言っても、扱うデータの大部分は1バイトに収まるだろうし。 サロゲートペアを導入してUTF-16として扱うとすると、 固定長という最大のメリットが無くなってしまう。 I/O性能。数10MBくらいの、日語がちょっとだけ混じったログファイルを 読み込んで加工して書き出す、なんてことが私の業務では多発する

  • utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる

    RailsMySQLのcollationをサーバー側のデフォルトのutf8_general_ciからutf8_unicode_ciにわざわざ変えてるのどうせ大した理由じゃないだろと思って掘ってみたらやっぱり大した理由じゃなかった… https://t.co/6NeetGhTF0— Ryuta Kamizono (@kamipo) April 18, 2014 Railsでcollationとしてutf8_unicode_ci(RailsのDEFAULT_COLLATION)が採用されるのはcharsetが未指定もしくはutf8(RailsのDEFAULT_CHARSET)のときだけで、utf8mb4にすることとかは全く考慮されてない。— Ryuta Kamizono (@kamipo) April 19, 2014 @frsyuki MySQLのcharset utf8のときのデフォルト

    utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる
  • 1