タグ

文字コードに関するnhayatoのブックマーク (8)

  • ものかの » UTF-8-MAC は文字コードかな…

    昨日の記事「UTF-8-MAC なんていう文字コードはありません」は言いすぎだったようです。一夜明けて思い直したので、ここで修正しておきます。 「文字コード」というは、各人各様でかなり...UTF-8-MAC は文字コードかな… 昨日の記事「UTF-8-MAC なんていう文字コードはありません」は言いすぎだったようです。一夜明けて思い直したので、ここで修正しておきます。 「文字コード」というは、各人各様でかなり広くて大雑把な言葉です。それなのに「文字コードではない」と断定的に言ったのはまずかった。 それから「テキストエンコーディング」。この言葉はただ単にエンコーディングとも呼ばれますが、符号化方式のことではありません。言ってみれば、名が体を表していない。たとえば、CP932 と MacJapanese。この2つはエンコーディング名として区別されていますが、符号化方式はまったく同じです。 エ

  • Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    もうすぐお正月だし、こんな図を作ってみたんだけどね。 十二支ですか? いろんな国の十二支? そうそう。実はこれ全部、「どこの国の十二支の何番目の動物」という情報まで含めて、Unicodeのコードチャートに載ってるものなんだよね。 いちばん左の列が標準的な十二支ってことですね。 うん。日だと、12番目のイノシシだけが独自仕様だな。それが標準仕様だとブタ。 カザフスタンでは、来年の干支はカタツムリですか。 よくわからないけど、そうなのかな。 このペルシアのネズミは、どうして小さいんですか? 標準仕様のネズミの絵を縮小したみたいに見えますけど。 それはネズミの種類が違うんだよ。ドブネズミとハツカネズミ。 え? でもこれ、文字なんだから、たとえばゾウでもアリでも同じ大きさに描かれるものですよね。 原則は、そうだね。 じゃあ、どうしてドブネズミを縮小したのがハツカネズミなんですか? まあ、ちょっと

    Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • text.ssig33.com - UTF-8-Mac と git によって発生する問題に打ち勝った。

    UTF-8-Mac と git によって発生する問題に打ち勝った。 これまで僕は仕事では主に Linux マシンを用いていたのだけど、先日 MacBook Air の 11 インチのやつを買ったのでせっかくだしこれを仕事に使いたくなった。 ところで Mac OSX ではファイル名は UTF-8-Mac という素敵な文字コードで記録されており、一般的には NFC で符号化されているのに、こいつは NFD で符号化されている。 極簡単に説明すると、濁点と半濁点が分かち書きされている、つまり が という文字を か + ゛ として記録されている。 これでどのような問題が発生するかというと Linux 上で mkdir test cd test touch がぎぐげご git init git add -A git commit -m test というふうにして作ったリポジトリを Mac に clo

  • いいから聞け! 俺が文字コードについて教えてやるよ その1(前提知識編) - 谷本 心 in せろ部屋

    ちょっと久々のJavaネタですが、 前から書き溜めていた、文字コードやエンコードについてのノウハウを書きます。 今回は、詳細な説明に入る前に、前提になる知識や用語について説明しておきます。 文字コードとエンコードって違うの? 新人くん「では、HTMLの文字コードはUTF-8でお願いします」 先輩社員「文字コードじゃなくてエンコーディングでしょ?」 新人くん「えっ。あぁ、はい、それで」 文字コードとエンコード(エンコーディング)を混同して使ったりすると、 ちょっと原理主義的な人に怒られたりするんですけど、 大まかに言えば、「文字コード」は文字に割り当てられた「数字」のことで、 「エンコード」は文字と数字をマッピングする「方式」のことだと捉えていれば、大きくは外れません。 ただ、「文字コード」という言葉は、「数字」「方式」の両方で使われるほか、 文字一覧を示す「Charset」という意味で使わ

    いいから聞け! 俺が文字コードについて教えてやるよ その1(前提知識編) - 谷本 心 in せろ部屋
  • perl - 勝手に添削 - utf8環境でperl::Jcodeのtrが使えないとき : 404 Blog Not Found

    2011年06月10日20:30 カテゴリ perl - 勝手に添削 - utf8環境でperl::Jcodeのtrが使えないとき CPANモジュールガイド 冨田尚樹 前世紀まではそれで正しかったのですが… utf8環境でperl::Jcodeのtrが使えないとき - satoru.netの自由帳 要はtrの中の文字のエンコードをeucにしないとだめらしい。なーんだ単純 21世紀ではEncodeを使っていただいたく。 Perl 5.8.1以降であれば、標準のPerlだけで出来ます。 こんな感じに。 use strict; use warnings; use utf8; binmode STDOUT, ':utf8'; my $str = 'あいうえおぁぃぅぇぉ'; print $str, "\n"; $str =~ tr/ぁ-んヴ/ァ-ンヴ/; print $str, "\n"; ポイント

    perl - 勝手に添削 - utf8環境でperl::Jcodeのtrが使えないとき : 404 Blog Not Found
  • UTF8 フラグあれこれ - daily dayflower

    UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象: UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし, UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc, etc ... Perl は(後方互換性確保などの理由から)ISO-8859-1

    UTF8 フラグあれこれ - daily dayflower
  • perlunicode - Perl における Unicode サポート - perldoc.jp

    Unicode support is an extensive requirement. While Perl does not implement the Unicode standard or the accompanying technical reports from cover to cover, Perl does support many Unicode features. Uncode サポートは大規模な要求です。 Perl は標準 Unicode や付随する技術的なレポートを一つ残らず 実装しているわけではありませんが、多くの Unicode 機能を サポートしています。 People who want to learn to use Unicode in Perl, should probably read the Perl Unicode tutorial befor

  • Perlゼミ(サンプルコードPerl入門)

    Perl入学式 全6回のPerl入門講座。東京、大阪、沖縄、札幌で開催。(東京は4月と10月スタート、それ以外は5月スタート) YAPC::Japan Perlを軸としたITに関わる全ての人のためのカンファレンス。 東京 吉祥寺.pm 五反田.pm 大阪 なにわPerl 沖縄 沖縄.pm

  • 1