まぁ、自分のコードがあんまりちゃんとテストされていなかったと言えばそれまでなんですが、自分の作っている仮想プリンタドライバでは、OEMTextOutをフックして、印刷されたテキストをテキストデータとして出力するような処理をしています。 一般的に、OEMTextOutに渡されるデータは、いわゆるUTF-16(Unicode)ではなく、グリフインデックス(Glyph Index)というものになって渡されます(SO_GLYPHINDEX_TEXTOUTフラグ時)。 一方で、 KB241020:How To Translate Unicode Character Codes to TrueType Glyph Indices in Windows 95 のような情報が提供されており、この情報を使えば、フォントファイルの情報を使って、グリフインデックス→Unicodeの逆変換が行えます。普通は・・・
gistfile1.md PDF に謎の漢字が含まれるとき PDF などの中にある一部の日本語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある 例 1: https://www.mhlw.go.jp/content/10906000/000628667.pdf 「長野」と「長崎」の「長」が、 U+9577 ではなく「⾧ (U+2FA7)」になっている 例 2: https://www.dpri.kyoto-u.ac.jp/news/12739/ 大量にある、どうしてこうなった PDF ではないので何かからコピーして書いた? この文字は 康煕部首 (Kangxi Radicals) というもので、部首としての文字である MS ゴシックなど Kangxi Radicals の字形がないフォントを指定すると表示できないので区別しやすい どこから来たのか? これらは(フォントに
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く