タグ

ブックマーク / nakamura001.hatenablog.com (1)

  • Mac で PDF からコピーした濁点/半濁点付きの文字列を Firefox に貼り付けた時におかしくなる問題の対処方法 - 強火で進め

    さっさと解決したい人向けの解説 変換ツール作ったんでここで変換。 詳細説明 PDFで濁点や半濁点の文字をコピーし、Firefoxの検索窓などに入力したり、フォームに貼り付けると以下の様に濁点の部分が分離した様な描画になります(Macの場合)。 原因についてざっくりと言うとUnicodeによる文字の正規化の種類の違いです。 Unicodeの場合には例えば「ダ」という文字を表現する時に「ダ」という文字としての表現の他にも「タ」と濁点の「 ゙」を組み合わせて表現(※)する事も可能です。 ※これは合成や合成列と呼ばれます。(参考サイト http://tama-san.com/?p=3512 ) この様に複数の表現方法が有ると文字の検索を行う時に単体で表現されているものと合成文字のパターンの両方を考慮した検索ルーチンを作成する必要が有ります。 その様な手間を防ぐ為に正規化という作業を行います。正規化

  • 1