タグ

文字コードに関するakishin999のブックマーク (169)

  • ҉←「文字の流れを左右逆にする特殊文字」のトリック : 亜細亜ノ蛾 - Weblog

    この文字は何? 2007-08-31T14:53:00+09:00 追記 某ブックマークサイトからお越しの皆様へ。おかげで、色々な情報を知ることができました。ありがとうございます! 下の「種明かし?」に追記しました。何となく種明かしになったのでは、と。まぁ、ムダ知識程度にお楽しみください。トラックバック先に有益な情報があるので、そちらもどうぞ。 ‫‬‭‮‪‫‬‭‮҉ はてなブックマーク経由で、上の不思議な記号のことを知りました。──フォントによっては見えなかったり、?や□になっていると思いますが、実際は「, で丸を描いたような記号」です。 どう不思議かは、下のフォームに文字を入力してみると、すぐわかるかと。この記号を消さないように、何か入力してみてください。 環境によると思いますが、入力した文字の流れが左右反対になります。とくに、日本語入力中でも反対になるのにビックリ(Windows XP

    ҉←「文字の流れを左右逆にする特殊文字」のトリック : 亜細亜ノ蛾 - Weblog
  • サロゲートペア入門:CodeZine

    はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日語漢字の数が増えました。従来、12238字(Windows XP)だったのが13145字(Windows Vista)になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです(Windows XPまでは一部サポート)。 またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。 ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。 対象読者 Unicode

  • Cattakaの雑記 - BOM付きUTF-8でJavaにつまづきnkfのバグにぶちあたる

    Debian LinuxからUbuntuに乗り換えたときに 言語をeuc-jpからUTF-8に変更した。 そのときにファイル名とファイルのエンコーディングもeuc-jpからUTF-8に変換したのだが、 二重につまづいた。 まずファイル名の変換はconvmvコマンドで難なく成功した。 次に手持ちのJavaのソースコードを変換する。 Javaのソースコードを一個一個エディタで開いて変換していたら切りがないので nkfとfindコマンドを使ってエイヤッと変換する。 nkfはファイルを直接変換しないのでqnkfというスクリプトを自分で作る。 qnkf #!/bin/sh cat $1 | nkf -w8 > oldfile.tmp cp oldfile.tmp $1 rm oldfile.tmp で、これを使って次のコマンドでエイヤッと変換する。 $find -name \*.java -exec

  • XHTML 1.0 文字実体参照 (UTF-8バージョン)

    XMLでも、HTML 4と同様にISO/IEC 10646の文字コード位置で文字を参照できます。ただし、XMLではHTML 4とは異なり16進数表現の目印となる「x」は、小文字に限定されています。終端の「;」を省略できる例外規定もありません。   <!-- 10進数 -->  ,   <!-- 16進数 --> 実体参照については、XMLではamp, lt, gt, apos, quot以外の実体は予め宣言しなければならないのでが、XHTML 1.0のDTDで外部実体宣言(Latin-1 characters, Special characters, Symbols)されているので、HTML 4との互換性は保たれています。実体はHTMLと同様に大文字小文字が区別されます。※aposという実体は、HTML 4ではサポートされていません。 A: 実体参照 表示テスト B: 10進数で文字参照

  • 文字コード変換ツール「KanjiTranslator」(フリーソフト)

    文字コード変換ツール「KanjiTranslator 1.6」 ツール概要 このツールは、大量のファイルの文字コード(及び改行コード)を一括して変換するツールです。 フリーソフトウェア・無保証です。 個人の方だけでなく、営利/非営利問わずどのような団体・機関でも無料でご利用頂けます。 対応している文字コードは、ShiftJIS, ISO-2022-JP, EUC-JP, UTF-8(日語のみ)です。 テキストエディタ Crescent Eveの文字コードエンジンにより、 変換元の文字コードは高精度で自動認識します。 ファイルを直接置き換える為、必ず事前にバックアップを行ってください。 変換エラーとなった場合、エラー理由が表示され、元のファイルがそのまま残されます。 (変換エラーとなる原因は「画像等のバイナリファイルを変換対象とした場合」もしくは 「対応していない文字コードだった」のどちら

  • bricklife.weblog.*: Ajax で文字化けする条件を調査してみた

    Ajax で文字化けする条件を調査してみた 【Blog Hackers Conference 2005 補足エントリー その2】 発表時間が全然足りなくて一言もしゃべれなかった「Ajax で日語文字化け」ネタの調査結果をエントリーしておきます。 Safari ユーザのみなさんは Ajax なページを見るときに「文字化けすぎで見れん!」という経験を一回はされていると思います。例えば「WEBプログラミング NOW!: Googleサジェスト--Safariで文字化け」で述べられているように Google サジェストが化け化けになったりして、枕を涙で濡らす日々を過ごしていることと思われます(v1.3 では動作すらしません(泣))。この文字化けは、どうもデータを XML ではなくテキスト形式で受け取っているときに起こるようです。詳しい原因は「WEBプログラミング NOW!: Googleサジェス

  • 丸囲み数字などの環境依存文字を使う方法 [ホームページ作成] All About

    丸囲み数字などの環境依存文字を使う方法環境依存文字(機種依存文字)でも文字化けせずに表示する方法を紹介。丸囲み数字、ローマ数字、ハートマークなど一部の特殊な文字や記号は、環境依存文字と呼ばれます。HTMLファイルの保存時に文字コード(テキストエンコーディング)をUTF-8にできない場合でも、数値文字参照という特殊な書き方を使えば、閲覧者の環境に関係なく各種記号を文字化けせずに表示できます。 環境依存文字(機種依存文字)とは? 文字化けしない表示方法とは? 丸囲み数字、ローマ数字、ハートマークなど一部の文字や記号は、環境依存文字(機種依存文字)と呼ばれます。Webページやメールなどの各種文書を作成する際の文字コードにUTF-8などのUnicode(ユニコード)を採用していれば、それらの環境依存文字でも文字化けすることなく表示できます。しかし、SHIFT-JISやEUC-JPなどのUnicod

    丸囲み数字などの環境依存文字を使う方法 [ホームページ作成] All About
  • Servlet/JSP講座-ハイフンなどの文字化けについて

    1.状況 MySQLの旧バージョン(3.52)を利用していた時は、Java(JSP)でDBに漢字を含む項目値を設定する時にはコード変換を設定していました。 4.0にバージョンアップした時に全ての漢字項目が表示できなくなったので、慌ててMySQLの環境設定にデフォルトのコードをShift_JISとして設定することで表示はされました。 ただこの時に今までのコード変換がただ単に漢字を表示させるための手段と勘違いしてしまい、プログラム中の全てのコード変換を削除してしまいました。 たまたま住所の番地は全て半角の数字とハイフンだったので気が付きませんでしたが、今回全角ハイフンを入力してみて"?"になり文字化けに気が付きました。 2.原因と対処 原因はJavaでの内部的な文字表現は Unicode が使われており、それぞれの国やOSのデフォルトのエンコーディングから Unicode への

  • 文字コードについて(シフトJISの問題)

    文字コードをシフトJISで開発し、Windowsのサーバで動かす場合の文字コード問題について示します。 厳密にいうとWindowsが扱う文字コードは、シフトJISでは、ありません。MS932です。または、コードページ CP932ともいいます。MS932は、マ社がシフトJISを拡張して定義したコード体系です。 で、ここで何が問題になるかというと、クライアントへの出力をcharset="Shift_JIS"とか定義して、アプリケーションサーバーなど が一生懸命シフトJISで出力しようとすると、ある文字列が文字化けするのです。ようは、MS932にある文字コードはシフトJISには、ないので、'? 'で出力されるということです。なお、OC4JやJBuilderで利用するtomcatは、MS932で出力しようとするので、あんまり文字化けしませ ん。 Java内部で扱う文字コードは、Unicodeです。