タグ

2021年2月15日のブックマーク (2件)

  • 文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して

    UnicodeとUTF-8の違いを理解していない方が結構居るようなので、文字コードの考え方を元に解説してみようと思う。 文字コードとは何か? 文字コードとは、コンピュータ上で文字を扱うために、文字に対して割り当てられた数値のことであり、文字と数値の対応付けと呼べる。 この対応付けの種類は沢山あって、Shift-JISであったり、UTF-8であったりする。 以上!と言いたいけど、文字コードはこんなに単純ではない。文字コードを複雑にする要素は沢山あるが、今回の記事ではUnicodeとUTF-8の違いに焦点を絞って解説してみたいと思う。 文字コードの構成要素 文字コードの世界は以下の2つの要素で構成されている。 この違いを意識しておかないと混乱を招くだろう。 (1).文字集合 – 表現したい文字の範囲(”あ”、”い”・・・といった文字の集合体) (2).符号化方式 – 文字集合を構成する個々の文

    文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して
  • BSD版だけ?odの便利な使い方 - 日々之迷歩

    文字のバイナリ列を調査する必要になり、どうしようかなあと思っていたが、odコマンドが便利だったのを思い出した。 バイナリデータを扱う場合、シェル芸勉強会で時々出てくるのはxxdコマンド。これはvimに付属のコマンドで、バイナリファイルを編集する時にフィルタとして使うらしい。 しかし昔からのodコマンドにも、便利な使い方がある。日後などマルチバイト文字コード絡みの問題がある時、バイト列の便利な確認方法があるのだ。ただこの使い方、BSD版?のodコマンドでしか出来ないみたい。MacOSXのodコマンドもBSD版みたいでオケ。 LInuxディストリビューションに付属している、GNU版のodコマンドや、Homebrewで入れるcoreutilsのgodコマンドでは出来ない。どうにかして出来ないか、誰か知ってる?? まずは-cオプションで文字列が出力される。この時BSD版だと日語をそのまま表示

    BSD版だけ?odの便利な使い方 - 日々之迷歩