タグ

文字コードに関するk-holyのブックマーク (7)

  • ASCIIとANK

    「b7」などの「b」はビットを意味します。例えば「b7」は7ビット目という意味です。例えば、「A」のASCIIコードは1000001ですが、これでは人間が覚えにくいので、文字コードは16進数で表現されるのが普通です。「A」のASCIIコードは16進数で「41」で、C言語やPerlなどのプログラミング言語では、「0x41」のように、先頭に「0x」を付けて表します。 ISO/IEC 646 ASCIIは、一部の文字を入れ替えるとヨーロッパ諸国でも使用可能なため、ISO規格「ISO/IEC 646 BCT(Basic Code Table)」となりましたが、その際に一部の文字を変更可能としました。そのため、国によって一部のコードに対応する文字が異なります。 日では、ISO規格は下記のANK(JIS X 0201)になり、16進コードの「5C」および「7E」のみが変更されました。そのため、AS

  • ブラウザ・メールソフト別UTF-8対応状況

    語をコンピュータで扱うにに際して最も一般的に利用されるのはShift_JISという文字コードです。WindowsでもMacでも、文字を入力する際の文字コードはShift_JISになっています。また、メールを送信する際には、Outlook Expressなどのメールソフトが自動的に文字コードの変換をしてくれているので気がつきにくいですが、日語を取り扱う際の文字コードとしてJISコード(ISO-2022-JP)が使われています。 また、プログラムを使う際には、EUC-JPで書くとトラブルが少ないことから、EUC-JPもよく使われます。ただ、日語を利用できる文字コードはこのShift_JIS、EUC-JP、JISの3つのコードだけではありません。多言語を扱うことのできるUnicode(ユニコード)の存在が挙げられます。Unicodeを使えば、理論的には多言語が混合したホームページやメール

  • PHPのマルチバイトにおけるトラブルシューティング

    このページは、著者がPHP4からPHP5にかけて、マルチバイトエンコーディングにおける文字化け・変換失敗・設定などのトラブルを自分なりに調査・解決し、その設定方法などの記録をトラブルシューティングとして役立ててもらえるよう構成したものです。しかし過去の記録でもあり、公式な文書ではないため、間違いがあるかもしれません。また内容・スクリプト例とも執筆中です、あしからず。最終更新: 目次 日語を扱う理想の設定例 ApacheのモジュールとしてPHPが動作している場合 mbstring.script_encodingが有効にならない場合 エンコーディングの設定は合っているのにHTTP入力が文字化けする 設定ファイルで設定変更できない マルチバイト機能自体がない? ファイルで文字化け・ファイル名が合わない データベースで文字化けする Javascriptで文字化け・データが来ない そもそもPHP

  • Java System Developer - ブラウザからデータベースへの文字変換

    ほとんどのオペレーティングシステム、アプリケーション開発言語、およびプラットフォームは、これまで非常に長い時間をかけて国際化が行われてきました。Swing のテキストフィールドに名前を入力するときのように簡単な場合もあります。John、José、 (Tanaka) のどの名前を入力しても、キーボード、入力メソッド、およびホストソフトウェアの協調によって正しい文字データが生成されます。ブラウザに ASCII 以外のテキストを入力すること自体は、Swing コンポーネントに入力する場合と同様に簡単ではありますが、残念ながら、Web 経由でそのテキストを正確に送信するには、込み入った手順が必要になることがあります。GET または POST コマンドでアプリケーションデータをエンコードする方法を制御する業界標準がないので、プログラミングインタフェースのさまざまなレイヤーを通過する間に、文字データが

  • JIS漢字とUCS (Unicode)の文字の対応・変換について

    セント記号 JIS漢字のセント記号(¢)はCENT SIGNである。対応するUCSのコードポイン トはU+00A2である。 ところが、これをUCSのFULLWIDTH CENT SIGNに変換するものがある。ASCII にもJIS X 0201にもセント記号はないので、これが「FULLWIDTH」になる理由 はない。従ってこの変換は不適切である。 ポンド記号 JIS漢字のポンド記号(£)はPOUND SIGNである。対応するUCSのコードポ イントはU+00A3である。 ところが、これをUCSのFULLWIDTH POUND SIGNに変換するものがある。 ASCIIにもJIS X 0201にもポンド記号はないので、これが「FULLWIDTH」になる 理由はない。従ってこの変換は不適切である。 否定記号 JIS漢字の否定記号(¬)はNOT SIGNである。対応するUCSのコードポイント は

  • 機種依存文字とUnicode - WebStudio

    導入 機種依存文字と呼ばれる文字があります。 例えばWindowsでは、 大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、 小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、 丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、 丸囲み文字(㊤㊥㊦㊧㊨)、 カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、 単位記号(㎝㎏㎡)、 複数のアルファベットを合成した文字(㏍℡№)、 元号(㍻㍼㍽㍾)、 会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。 機種依存文字は一般的に、異機種間でデータの交換を行った場合、 例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、 これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。 しかし、これらは機種依存文字と呼ばれているものの、 その意味はあ

  • シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

    2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。 変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。 変換表に求めら

  • 1