タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

文字コードに関するbuty4649のブックマーク (3)

  • 松竹梅はsortしても松竹梅になる - Lambdaカクテル

    物事の順位付けをするとき、松竹梅という雅な表現がよく使われる。自分もよく使う。 blog.3qe.us コンピュータにとってもそうなのだろうか?そう考えた私は実際にソートしてみることにした。 % echo $LANG ja_JP.UTF-8 % sort --version sort (GNU coreutils) 9.3 Copyright (C) 2023 Free Software Foundation, Inc. ライセンス GPLv3+: GNU GPL version 3 or later <https://gnu.org/licenses/gpl.html>. This is free software: you are free to change and redistribute it. There is NO WARRANTY, to the extent permit

    松竹梅はsortしても松竹梅になる - Lambdaカクテル
  • 漢数字が数字順にソートされない理由を調べてみた - give IT a try

    はじめに:「なぜ漢数字は数字順に並ばない!?」 先日、こんなツイートをしたところ、結構たくさんの人にリツイートされました。(執筆時点で50件以上) 「漢数字はソートしても数字順に並ばない」という事実を生まれて初めて知った。まさかのサプライズ。 pic.twitter.com/Eqx3ltIfHs— Junichi Ito (伊藤淳一) (@jnchito) 2014年11月27日 「なぜ漢数字は数字順に並ばないのか」という問いに対して、表面的な回答をするなら「数字順に並ばないのは、数字の大きさではなく文字コード順でソートされているから」ということになります。 いや、もちろんそれはわかってるんです。 問題は「そもそもなんで数字順に文字コードを振らなかったの!?」ということです。 感覚的には「一郎、二郎、三郎」って並んでほしいじゃないですか。でも、プログラム上でソートすると「一郎、三郎、二郎」

    漢数字が数字順にソートされない理由を調べてみた - give IT a try
    buty4649
    buty4649 2014/12/04
    なるほど。部首か/ファイル名に漢数字が付いてるとソートした時に意図した順番にならなくて疑問に思っていた
  • テキストファイルの標準エンコーディングは? - やねうらおブログ(移転しました)

    テキストファイルのエンコーディングとして何を基とすべきかというのは悩ましい。 日語のみならutf-16で幸せになれるのかと思ったら、JIS2004で追加された907字のうち304文字がサロゲートペアであって、2バイトで表現できない。 どうせ16bitで表現しきれないのなら、utf-32は保存領域がもったいない感があるので仕方ないのでutf-8を選択する。 utf-8だと相手に解釈してもらうためには、BOMをつけるほうが好ましい。 そこで、秀丸で標準保存形式としてutf-8(BOMつき)を設定しておく。 秀丸の拡張子関連づけで、".txt"を秀丸と関連づけておく。 よし、これでテキストファイルを新規作成して、秀丸で開くと…。 utf-8(BOMなし)と解釈される。一体どうなっているのか。 Windowsではエクスプローラーからファイルを新規作成するときにテンプレートを設定しておくことが出

    テキストファイルの標準エンコーディングは? - やねうらおブログ(移転しました)
  • 1