タグ

ブックマーク / hydrocul.github.io (4)

  • Unicodeのgrapheme cluster (書記素クラスタ) | hydroculのメモ

    Unicodeのgrapheme cluster (書記素クラスタ) 2015/10/25 Unicodeテキストを1文字ずつ分割するアルゴリズムをUnicodeの仕様として定められており、grapheme cluster (書記素クラスタ)と呼ばれる。 普通はUnicodeのコードポイント1つずつ文字が割り当てられているので、ほとんどはコードポイント1つが1文字になるのだが、たまにコードポイント2つ以上で1文字になるものもあり、 1文字ずつテキストを分解するのは意外と複雑なルールになる。 Grapheme cluster について書かれている公式のドキュメントは以下にある。 Unicode® Standard Annex #29 UNICODE TEXT SEGMENTATION http://unicode.org/reports/tr29/ この記事は公式ドキュメントを読んで理解した

    quodius
    quodius 2023/05/16
  • Unicodeにある数字の一覧 | hydroculのメモ

    Unicodeにある数字の一覧 2015/12/01 正規表現で数字にマッチさせたい場合に \p{N} というのを使うことがあるが、これにマッチする文字は [0-9] に限らない。 \p{N} はUnicodeの文字プロパティで N (Number)とされているすべてのコードポイントにマッチする。これはとてもたくさんの文字が該当する。 Rubyでの例 str = "8٨८೮൮๘໘༨၈៨᠘8𝟖𝟠𝟪𝟴𝟾Ⅷⅷ༱⁸₈⅛⑧⑻⒏⓼❽➇➑㈧㊇🄉八" p str.scan(/\p{N}/) # => ["8", "٨", "८", "೮", "൮", "๘", "໘", "༨", "၈", "៨", "᠘", "8", "𝟖", "𝟠", "𝟪", "𝟴", "𝟾", "Ⅷ", "ⅷ", "༱", "⁸", "₈", "⅛", "⑧", "⑻", "⒏", "⓼", "❽", "➇"

    quodius
    quodius 2022/06/25
  • “𠮟る” と “叱る” | 2014年 | ブログ | hydroculのメモ

    “𠮟る” と “叱る” 2014/12/01 口へんに右が”七”の”𠮟る”と右が”匕”の”叱る”は別々の文字らしい。自分の環境にある仮名漢字変換では”しかる”で変換して、どちらも候補に出てくる。 Unicodeの拡張領域にある文字(符号位置(コードポイント)が16ビットを超え、UTF8では4バイト、 UTF16でも4バイト必要な文字)としては、唯一の常用漢字として、右が”七”の”𠮟”があると知って調べたことのメモ。 “叱”のUnicode符号位置はU+53F1、”𠮟”のUnicode符号位置はU+20B9Fである。前者はJIS規格の第1水準に含まれ、 Shift-JISなどでも表現できるが、後者はJIS規格の第3水準で、ほとんどのShift-JISの実装では表現できない。 2つの文字は、手で文字を書くときには右の第1画の横線を左から書くか、右から書くかの違いがあり、まったく別の文字

    quodius
    quodius 2020/10/30
  • ps コマンド | コマンドの使い方(Linux) | hydroculのメモ

    ps コマンド 2017/02/19 動いているプロセスの一覧を見るコマンド。 私がよく使うオプションは aux。 例 $ ps aux メモリ使用量を表すVSZやRSSの列の単位は、キロバイト。1000バイトなのか1024バイトなのか知らんが。 あとは、特定のPIDを持つプロセスがなんのコマンドなのかを調べるために、PIDだけを指定する。 $ ps 13051 CPU占有率は、いまこの瞬間のCPU占有率ではなく、プロセスごとにそのプロセスが起動してからの平均のCPU使用率である。リアルタイムな状況を見るにはtopコマンドのほうがよい。 Java(JVM)のプロセスを見るにはjpsコマンドも使える。 HOWTO プロセスの親子関係をツリーで表示するには 2013/10/08 $ ps auxf f がツリーで表示させるオプション。 -> pstree 特定の名前のプロセスをすべてkillす

    quodius
    quodius 2016/11/22
  • 1