タグ

言語とUTF-8に関するiwwのブックマーク (3)

  • Rubyの内部文字コードはUTF-8ではない...だと...?!|TechRacho by BPS株式会社

    こんにちは、hachi8833です。 少し前に、babaさんから「Rubyの内部文字コードはUTF-8じゃないよ」とツッコミがありました。 (追記: 上は会話の途中から切り取りましたのでご了承ください) いきなりの展開にくらくらきましたが、babaさんはさらにたたみかけます。 こうしたことはとっくにご存じの方も多いと思いますが、「Rubyといえば2.0以来UTF-8完全対応なんじゃないの」と勝手に思い込んでた私は脳に掌底をらったような思いです。ああ、でもこういうことがあるから面白い。 ⚓ プログラミング言語と内部文字コードの関係 まず最初に押さえておきたい点です。プログラミング言語で文字コードに関連する部分は、「文字列」「正規表現」「入出力」「コード中の文字リテラル(""の中など)」「コード中の文字リテラル以外の要素(変数名など)」「ファイル名」などが中心になります。そして文字列に関連し

    Rubyの内部文字コードはUTF-8ではない...だと...?!|TechRacho by BPS株式会社
    iww
    iww 2016/10/14
    脳に掌底くらうとこんなんなるのか・・・
  • ja_JP.UTF-8 vs ja_JP.utf8

    それは某IRCチャンネルの何気ない一言から始まった. @xxxx | .UTF-8 or .utf8? 僕は何も疑問を持たずに,こう答えた. @Kojima | ja_JP.UTF-8 そしたら彼は, @xxxx | .utf8 on 'locale -a'と返答してきた. 確かに,手元の環境で locale -aを実行してみると,utf8 になっている. $ locale -a C POSIX en_US en_US.iso88591 en_US.utf8 ja_JP ja_JP.eucjp ja_JP.ujis ja_JP.utf8 japanese japanese.euc @matsuu 先生が以前 eselect locale を入れたときにこうつぶやいていたのを思い出したので,「matsuu先生がこういってるんだから,.UTF-8なんだよ!」としておいた. ja_JP.utf8

    iww
    iww 2013/09/17
    『アルファベットは小文字に,アルファベットと数字以外は無視』
  • UTF-8コード表(1)

    UTF-8の仕組み UTF-8は1~4バイト(初期の定義では6バイトまで)の可変長コード Unicodeスカラ値, UTF-16を含め、詳しい説明は Unicode にあります。 コード カテゴリ 備考

  • 1