気がついたら、W3C が発行する日本語組版処理の要件 が更新されて2020年版になっていた。 これはかなり専門的な文書なので、一般人には関係のない部分が多いのだが、禁則処理のプログラムをこの文書から生成して使わせてもらっている。Text::ANSI::Fold というモジュールの W3C.pm というファイルがそうだ。 禁則処理に使われる文字クラスはセクションAにまとめられている。たとえば、始め括弧(W3C では開き括弧ではなくこう呼ぶらしい)は、このようになっている。 このデータを元にして、W3C.pm には、このようなコードが入っている。 # A.1 Opening brackets cl_01 => <<'END', Character UCS Name Common name Remarks ‘ 2018 LEFT SINGLE QUOTATION MARK 左シングル引用符,左シ