タグ

文字コードに関するsuisui-htのブックマーク (3)

  • UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま

    Shift_JIS の CSV で連携する外部サービスがあり、DB では UTF-8 でテキストを持っていたため文字コードを変換する必要が生じた。 ところが UTF-8 に存在する多くの文字は Shift_JIS に対応がないため変換することができない1。 そこで、事前に NFKC 形式で Unicode 正規化することで変換可能な文字を増やすことを試みた。 まずは Unicode 正規化の前提として、Unicode の正準等価と互換等価について説明する。 以降の U+16進数 という表記は Unicode のコードポイント (文字に ID のようなものが割り当てられている) を示す。 また、コードポイントに対応する文字の詳細は https://codepoints.net/ といったサイトで確認することができる。 正準等価 例として、ひらがなの「が」について考える。Unicode では「

    UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま
  • VistaでUnicode以外の選択肢はなかったのか?──京大の安岡助教授が語る

    「『JIS X 0213』の基的な考えは,必要な漢字を使いたくても使えなくて困っている人たちを助けることだった」。こう語るのは,京都大学人文科学研究所附属漢字情報研究センター助教授の安岡孝一氏。1997年以来JISの委員としてJIS規格の文字コード(「JIS X 0213」や「JIS X 0213:2004」など)の策定にかかわってきた安岡氏に,最近の文字コードの変遷や,Windows VistaにおけるJIS X 0213対応に関する見解を聞いた。 ──JIS X 0213の概要や,それが2004年に改訂された経緯などを教えてほしい。 安岡氏:過去に使われていた文字集合「JIS X 0208」や「JIS X 0212」には,日の地名で使われている文字が抜けているなど,重要な文字の不足がありました。ただしこの問題は,そこに住む地元の人は困っていても,日全体で見るとほとんどの人が困って

    VistaでUnicode以外の選択肢はなかったのか?──京大の安岡助教授が語る
  • 文字化け - BugbearR's Wiki

    2017-04-16 FreeBSD/mpd 2016-12-23 RecentDeleted Blogアプリ 日記 2016-11-17 当にあった怖いコード/1 2016-05-16 .NET 2015-07-06 書きたいこと 2015-07-05 postgres Java/変数の初期化に安易に空オブジェクトを代入しない 2015-06-30 PukiWiki/1.4/マニュアル/プラグイン/u 当にあった怖いコード/15 2014-10-01 日記/2014-10-01 2014-09-09 日記/2014-09-09 2014-08-13 日記/2014-08-10 2014-05-28 バグパターン/日時 バグパターン 2014-04-13 IPv6 2014-03-20 パスワード問題 2014-01-27 DNS/ルートサーバーは13台という神話 2014-01-25

  • 1