タグ

unicodeとmacに関するseuzoのブックマーク (2)

  • HFS+のテキストエンコーディング – ものかの

    HFS+はファイルやフォルダなどのアイテム名をどのテキストエンコーディングで扱っているのでしょうか? Appleは最近までこの情報をドキュメントに記載して公開していたのですが、今はしていません(2016年10月現在)。それでも第三者によるアーカイブがかろうじて残っており、典拠として貴重なのでここに記録しておきます。 2009年時点のFile Systems and Unicode Support 追記:いつのまにかリンク切れしていました。キャプチャを貼っておいてよかった…。 見ての通りUTF-16ですね。インターネット上ではUTF-8-MACであるとの説明が散見されますが間違いです。 HFS+のUnicode正規化形式 Unicode正規化形式はUAX#15で4種類が正式に決められています。HFS+はそのうちのNFDをさらにAppleが改変した特殊な正規化形式を実装しています。アイテム名は

    HFS+のテキストエンコーディング – ものかの
  • sed・grepで濁点と改行をまともに扱う方法 - ザリガニが見ていた...。

    前回、Automatorの「シェルスクリプトを実行」アクションに以下のスクリプトを設定して喜んでいた。 #sed 's/^/-/g' # 行頭に-を付加する #sed 's/$/-/g' # 行末に-を付加する #sed 's/\(xxxx\)/[\1]/g' # xxxxを[]で囲う #sed 's/xxxx/oooo/g' # xxxxをooooに置き換える 必要なコマンドラインのコメントマーク#を削除して、便利に使うつもりでいた。 さらに、これは便利と思い、気を良くしてgrepバージョンも作って喜んでいた。 grep -i 'xxxx' #-i 大文字と小文字を区別しない #-v パターンに一致しない行を表示する #-n パターンに一致した行のファイル内での行番号を表示する #-c パターンに一致した行の行数のみを出力する #-b パターンに一致した行の先頭からのバイト数を表示する

    sed・grepで濁点と改行をまともに扱う方法 - ザリガニが見ていた...。
    seuzo
    seuzo 2010/10/01
    Unicodeの濁点正規化をターミナルアプリケーション上で使う
  • 1