[B! 文字コード] Nagataniのブックマーク

Nagatani id:Nagatani

文字コードに関するNagataniのブックマーク (4)

「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。意味論的に等価な異なる字形の集合同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ
Nagatani 2017/03/13
unicode

文字コード
リンク
C#で高精度なテキストファイル文字コード自動判別（2014年版） - hnx8のブログ
C#（.NET Framework）に限ったことではありませんが、汎用的にテキストファイルを扱うようなアプリケーションを作っていると、よく特定の文字コードのファイルしか読み出せないのでは困る ⇒文字コードを自動判別し、テキストの内容を取り出したい読み出したファイルと同じ文字コードでファイルを書き出したい ⇒読み出したファイルの文字コードを知りたいといった場面に出くわします。ですが、C#（.NET Framework）標準のライブラリではそのような機能は提供されていないため、文字コードを判定するには、自前で文字コード判定のロジックを実装する出来合いの外部ライブラリ、Windows版NKF32.dll、ICU4Cなどを利用する IE用の文字コード判別ライブラリ（mlang.dll）を利用する ※COMコンポーネント呼び出し要のいずれかの方法を取ることになります。 HNXgrepと
Nagatani 2015/01/04
文字コード

programming

c#
リンク
「文字列」について - 2014-11-07 - はてなるせだいあり
序「文字列を文字の列とみなす単純化」について議論がありますが、前提が抜け落ちてるように思うので書くことにします。そもそもこの話はどのような文脈の上にあるかというと、テキスト処理 (wikipedia:en:Text_processing) の文脈になります。ここでいう「テキスト処理」とは plain text (wikipedia:プレーンテキスト) の検索・加工のことで、ここでは特に UNIX Text Processing の系譜が念頭に置かれています。つまり、複雑な装飾を含むリッチテキストではなく、処理の対象を ASCII 文字列といくつかの制御文字へと抽象化することで、正規表現のような強力な道具を用いた処理を可能とした世界です。UNIX でのお話ですから、ここでの具体的な処理の単位は char であり、全体としては char[] になります。この char の中身は上で述べたと
Nagatani 2014/11/08
programming

文字コード

M17N

i18n
リンク
文字コード変換ミスによる文字化けパターンと想定される原因 - drk7jp
とあるシステムでデータベースから引いてきたデータの表示が文字化けするという不具合がありました。データベース内のデータとしては文字化けしていない状態で格納されていることはわかっていたので、どこかしらの文字変換で化けていることはわかっています。まずはどの誤変換により文字化けするのか原因切り分けのために、decode/encode の組み合わせによる文字化けパターン一覧を作りました。おかげさまでどのパターンに類するものか判別することができ、無事に改修することができました。その話はまた別にするとして、今も昔も変わらず文字化けに悩む人は意外と多いと思います。誤変換結果一覧は原因解析の参考になると思い、記事としてまとめることにしました。文字コード変換ミスによる文字化けパターンを可視化するプログラムと一覧表まずは誤変換を生成する perl スクリプトです。プログラムはとっても簡単で、「文字化けで
Nagatani 2013/04/07
programming

文字コード

文字化け
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx