2024.5.18更新 まともに Unicode のテキストを扱おうとすると、結合文字列はどうしても避けることのできない問題です。ここではあまり深く掘り下げずに、ユーザの眼を通してこれを見ていこうと思います。 まずはじめに、Unicodeには「特殊な文字」があることを知っておきましょう。 上図を見てください。これは macOS のテキストエディットに入力した2つの「ポ」です。同じ文字が並んでいるだけのように見えます。でも実はこの2つ、文字データとしてはまったく違うものなんです。 左はいつも私たちが使っている1文字の「ポ」ですが、右は「ホ+半濁点」の2文字のデータで1文字になっています。これが Unicode の特殊な文字 “結合文字列” です。見た目が同じなので違いがまったく分かりません。 そこで違いが分かるように簡単なソフトを作ってみました。 Unicode Normalization
![Unicodeの特殊な文字 “結合文字列” – ものかの](https://cdn-ak-scissors.b.st-hatena.com/image/square/2261854691ec536a105ffd69648bb164ffdee6a3/height=288;version=1;width=512/https%3A%2F%2Ftama-san.com%2Fwp-content%2Fuploads%2F2015%2F08%2Ftama-san.png)