シャクルとは アラビア語は母音を記さず子音だけを記すことは知られていますが、(子供向けとかで)子音を表現するために「シャクル」というものが使われることがあります。どんなやつかは wikipediaのシャクルの項 をご覧ください。 たとえば、アラビア語で「モスク」は「مسجد」(msjd)ですが、これにシャクルをつけると「مَسْجِد」(masjid)となります。なんか点がついてますね。 このシャクルですが、もちろんUnicodeでの割り当てがあります。( PDF ) UTF-8ではどうなっているかというと、こんな感じです。 データの検索などに使うため、正規化の一貫としてシャクルだけを取り除きたい需要がどこかにあるのかもしれないと思ったので書きます。 取り除くべき文字について アラビア語の正規化はマトモに取り組むと闇(エジプト方言におけるヤーの対応とかある)らしいですが、まぁU+064B