ブックマーク / tama-san.com (5)

  • ものかの » 正規表現の略記法 \d と \s と \w

    正規表現の文字クラスの略記法 \d と \s と \w がいつのまにかアレレなことになっていたのでメモ。(1 Perl 5.8 以降で正規表現を使うには use utf8 が必須。 use utf8 では \d と \s と \w の文字クラスの内容が Unicode のカテゴリーに基づいている。 InDesign(Boost)も同様。 PCRE や Ruby は変わりなし。 (2 参考資料:perldoc の perlrecharclass 参考資料:Programming Perl の 5.4. Character Classes ちょっと詳しく見ていきます。 *以降、Perl = use utf8 の Perl ほとんど全ての人が [0-9] の10文字として使っていますが、Perl では \p{Nd} です。ただし、Perlのバージョンによって(対応しているUnicodeバージョン

    ものかの » 正規表現の略記法 \d と \s と \w
    asakura-t
    asakura-t 2019/04/09
    a修飾子はしらなんだ。pcreだとu修飾子がないとUTF-8と見なさないんだっけ?
  • 「字詰め」って言わない方がいいよね – ものかの

    個人的な雑感です。 「字詰め(じづめ)」という用語があります。人によって、これは全く異なる意味で使われています。 一行あたりの文字数のこと 文字間をより狭くすること どちらも文字組版に関わることなのですが、指し示していることはまったく違います。私は文字組版の現場で長年仕事をしてきたので、字詰めといえば文字数のことです。文字間をツメる意味でこの用語を使われると、かなり違和感があります。 でも、もはやどちらが正しいという問題ではなくなっています。仕事の打ち合わせで相手が「じづめ」と言った時に、どちらの意味なのかをまず探らないといけないのが現状です。相手の経歴、職能、年代などを推測しながら、話の流れでどちらなのかを察していく。そのくらいハイコンテクストすぎる用語になっています。 このように普通に伝わる期待や安心が喪失し、疑念が先に立ってしまう時点で、もう用語としては破綻しているのではないでしょう

    「字詰め」って言わない方がいいよね – ものかの
    asakura-t
    asakura-t 2019/04/09
    「20字詰めの原稿用紙」とか通じないのか…
  • 日本語の活字はどうして全角なのか – ものかの

    デジタルフォントの風説 “仮想ボディ” の続きです。むしろこっちが題。 先の記事で私は、デジタルフォントのボディは現実にはたらきかける「実態」として機能していることを説明しました。さらに、それにもかかわらず、ボディだけをことさら「人間が頭の中だけで考える架空のもの」としている奇妙さを指摘しました。 ここでは問い掛けをこう言い換えてみます。「ボディだけを実体がないとすることに、どのような意図があるのか。実体がないとする言説そのものではなく、その言説でなにを得ようとしているのか」 結論を先に示しておきます。そこには、日語の活字 (1 が全角であることの縛りを超克したい動機が背景にあります。 つまり、日語の活字のボディが全角であることを乗り越えたいから、ボディを存在しない架空のものにしたい。「仮想ボディ」は現実に基づいた帰結ではなく、目的を達したいがための方便です。しかもその方便はかなり筋

    日本語の活字はどうして全角なのか – ものかの
    asakura-t
    asakura-t 2015/03/11
    うっかり日本語のプロポーショナルフォントを標準にしたのがアレだと思ってるんだけど。Macの頃のDTPが切っ掛けで、Winがそれを広めちゃったのが悪かったのかなぁ。
  • デジタルフォントの風説 “仮想ボディ” – ものかの

    「デジタルフォントの仮想ボディは実体がない」と当たり前のように言われていますよね。当にそうなんでしょうか? 私はこれ、誤解を与える深刻な風説だと思っています。以下にその理由を述べます。 金属活字の場合 まず、金属活字のボディを考えてみます。活字を並べるときに、ボディはどのような役割を担っているのか。 金属活字は、ひとつひとつの文字に幅の属性があるといえます。この幅は「次の活字が置かれる開始位置」として機能します。幅があるから次の活字の位置が決まる。そして次から次へと活字を並べていくことができる。活字の発明というのは、このように「並べるしくみ」も含めた発明です。 写真植字の場合 写真植字は、写真の印画紙に1文字ずつ撮影をしていく方法です。 金属活字との決定的な違いは、文字盤のひとつひとつの文字に幅の属性がないということです。写真植字で文字を並べるときは、文字ではなく印画紙の方が移動します。

    デジタルフォントの風説 “仮想ボディ” – ものかの
    asakura-t
    asakura-t 2015/02/23
  • Unicodeで「漢字」の正規表現 – ものかの

    改訂:2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。 改訂:2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。 正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS(CP932)の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第3・第4水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

    Unicodeで「漢字」の正規表現 – ものかの
    asakura-t
    asakura-t 2012/05/24
  • 1