参考: 神名地名難読漢字・ユニコード対照表 この投稿では、この処理を実現する方法について紹介します。 前提知識:対応していない文字とは? 世界には様々な文字が存在し、それをコンピュータで扱う場合は対応する数値に変換する必要があります。 この、数値に変換するときのルールがいわゆる文字コードで、この投稿でいうところの「文字エンコーディング」です。 このルールには様々な方式があります。例えばUTF-8やShift_JIS、EUC-JP、JIS(ISO-2022-JP)など。 これ以外にも、Big5、GBK、US-ASCIIなど、様々です。 このルールは、Unicode(後述)が登場するまでは国ごとにバラバラで、自国の文字を表示するために新しいルールを作ったり、既存のルールを拡張したりしていました。 そしてこのルールを作る時、データ量を減らすため、また文字の処理を容易にするために対応する文字の数を
![文字エンコーディングを変換するとき、対応していない文字を数値実体参照に変換する - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/054195434a663f8d909d468d4706e02c529e383a/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU2JTk2JTg3JUU1JUFEJTk3JUUzJTgyJUE4JUUzJTgzJUIzJUUzJTgyJUIzJUUzJTgzJUJDJUUzJTgzJTg3JUUzJTgyJUEzJUUzJTgzJUIzJUUzJTgyJUIwJUUzJTgyJTkyJUU1JUE0JTg5JUU2JThGJTlCJUUzJTgxJTk5JUUzJTgyJThCJUUzJTgxJUE4JUUzJTgxJThEJUUzJTgwJTgxJUU1JUFGJUJFJUU1JUJGJTlDJUUzJTgxJTk3JUUzJTgxJUE2JUUzJTgxJTg0JUUzJTgxJUFBJUUzJTgxJTg0JUU2JTk2JTg3JUU1JUFEJTk3JUUzJTgyJTkyJUU2JTk1JUIwJUU1JTgwJUE0JUU1JUFFJTlGJUU0JUJEJTkzJUU1JThGJTgyJUU3JTg1JUE3JUUzJTgxJUFCJUU1JUE0JTg5JUU2JThGJTlCJUUzJTgxJTk5JUUzJTgyJThCJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz0wNzYwNzk4MWVmMDg5NjBjZjIyZmRjOGY1MDNjZDExYw%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBzb3VuaXNpNTAxMSZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9ZDIyZWU5MzFmNTBkZWFjZWM5MTc5MmYxNDdkZTk0MzQ%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3Dff23a41de0980959854e1c54e741613c)