タグ

文字と文字コードに関するskypenguinsのブックマーク (3)

  • ユニコードで文字数を数える方法 (1/2)

    ユニコードでは複数の絵文字を結合させて 別の絵文字を表現することもある Unicodeが一般的になって、日語を含めて、さまざまな言語の文字を自由に使えるようになったが、「文字」を取り出す、あるいは数えるのが面倒になったのも確かだ。というのも、1つの文字が必ずしも1つのコードポイントで表現されるとは限らないからだ。 たとえば絵文字では、複数の絵文字をゼロ幅接合子(Zero Width Joiner:ZWJ、U+200D)で結合することで、別の絵文字を表現することがある。たとえば、「🐦 鳥(bird)」(U+1F426)と「🔥 火」(U+1F525)をゼロ幅接合子でつなげたものは、「🐦‍🔥フェニックス」(Unicode Emoji 15.1で定義)の絵文字になる。 コードだと「U+1F426」「U+200D」「U+1F525」なのだが、表示上は1つの文字に見える。なお、こうした組み合

    ユニコードで文字数を数える方法 (1/2)
    skypenguins
    skypenguins 2024/09/23
    “漢字の場合には、異字体がある。” 「異体字」じゃなくて?
  • 日本の文字とUnicode - 第3回 ひらがな・カタカナとUnicode - 大修館書店 WEB国語教室

    現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日語に特化して作られたわけではないので、日の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、第3回は、ひらがな・カタカナとUnicodeの関係です。 UnicodeのU+3041~U+3096には、ひらがなが収録されています(コード表参照)。 UnicodeのU+30A1~U+30FAには、カタカナが収録されています(コード表参照)。 ひらがなとカタカナは、Unicode上での順序が、 ほぼ同じになるように収録されています。 たとえば、ひらがなのU+305F~U

  • 不思議な文字 pͪoͣnͬpͣoͥnͭpͣa͡inͥ

    "ダイアクリティカルマーク(英語: diacritical mark)は、ラテン文字等の文字で、同じ字形の文字であるが、発音が区別されるべき場合に文字に付される記号のこと。あえて日語の文字で似た概念を探せば、濁点と半濁点に相当するであろう。" "コンピュータ処理では、ダイアクリティカルマークのついた文字に独立した文字コードを与えているもの(ISO/IEC 8859、Unicode、JIS X 0213など)が多いが、別の方法として、親字の前または後に特殊なコードを置くことによって表記する方法がある。前に置く例としてはISO/IEC 6937(英語版)が、後に置く例としてはUnicodeでCombining Diacritical Marksと呼ばれる一連のコード(U+0300からU+036Fまで)がある。"

  • 1