タグ

文字コードに関するmstk_knifeのブックマーク (5)

  • Mac OS X の「テキストエンコーディング」

    Mac OS X でテキスト編集をしていると「テキストエンコーディング」という用語を目にします。「誰か説明してくれないかな〜」とずっと待っているのですが、誰もしてくれそうにないので自分で説明してみます。 ((「テキス...Mac OS X の「テキストエンコーディング」 Mac OS X でテキスト編集をしていると「テキストエンコーディング」という用語を目にします。「誰か説明してくれないかな〜」とずっと待っているのですが、誰もしてくれそうにないので自分で説明してみます。1) テキストエンコーディングは、符号化文字集合と文字符号化方式の組み合わせです。 大ざっぱな表にしてみます。こんな感じ。 もちろんこの他にもたくさんあるのですが、すべて組み合わせが異なります。「同じ組み合わせで異なるテキストエンコーディング」というのはありません。 テキストデータはかならずこのように「符号化文字集合」と「

  • 文字コードはなぜ複雑になるのか – ものかの

    プログラマのための文字コード技術入門 の第1章に「文字コードはなぜ複雑になるのか」という節があります。そこには「過去の経験の積み重ね」「文字そのものの難しさ」の2つが挙げられています。もちろんその通りなのですが、私が常々感じている「もうひとつの文字コードの複雑さ」があるのでメモしておきます。 ここに2種類のAとBいう特殊な考え方があるとします。この2つには以下の性質があります。 ・Aを理解するには、前もって別の特殊な考え方Bを知っていなければいけない。 ・Bを理解するには、前もって別の特殊な考え方Aを知っていなければいけない。 文字コードは人間が考えた特殊な考え方の集まりです。しかしそれは整然とした重層的な体系ではなく、このように各々の考え方がお互いにその前提になっていたりします。(1 (2 相互に依存したAとBを同時に知ることはできません。はじめは「なんとなくAのようなもの」に触れるしか

    文字コードはなぜ複雑になるのか – ものかの
  • わが最初の文字コードファイト - ockeghem's blog

    史上空前の文字コードファイトブームを受けて、ふと、大昔の記憶を思い出しました。僕の「文字コードファイト事始め」です。まだインターネットが普及していなくて、パソコン通信の時代のお話です。 おそらく1987年くらいの話だと思うのですが、当時PC-VANやNIFTY全盛期で、その後活躍の場を日経MIXやNIFTYに移すのですが、その当時はまだPC-VANを主に使っていました。 なにが問題だったかというと、「高速モデム」が普及し始めたころで、300ボーの音響カプラから、1200bpsや2400bpsのモデムに移ろうという頃です。ちょうどMNPがようやく普及し始めたころです。MNPというのは、米マイクロコム社が提唱したモデム用のデータ圧縮と誤り訂正の規格です。 データ圧縮はよいとして、MNPでようやくモデムの誤り訂正手順が導入されたことになります。 で、MNPが普及していない頃の1200bpsや24

    わが最初の文字コードファイト - ockeghem's blog
  • ウノウラボ Unoh Labs: Mac OS X上のUnicode

    Firefoxは内部的に変換処理を行うようになっているようです。 問題はSafariとOperaですね。 選択されたファイルのパスからJavaScriptで ファイル名を抜き出してタイトルに設定する部分で、 正しく扱えるような文字コードに変換することにしたいと思います。 基的な流れとしては、UTF-8-MAC特有の「U+3099」(COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK)、 「U+309A」(COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK)がファイル名に含まれている場合は、 その前の文字と結合して濁音・半濁音の文字にしてあげればいいでしょう (ひらがな・カタカナのみの暫定的な対処に過ぎませんが)。 変換用の文字テーブルを用意して、逐一変換していくかたちにしたいと思います。 というわけ

  • 日本語と文字コード

    コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト(7/8ビット)を基単位として扱う前提で作られているものが中心です。そのなかで日語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日語の文字コードに関する基を整理しておきます。 JIS漢字コード(情報交換用符号化漢字集合) 区点コード JISコード(符号化方式) シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ 参考文献、リソース 文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード(情報交換用符号

    mstk_knife
    mstk_knife 2006/11/09
    後で読む
  • 1