タグ

文字コードに関するYudoufuのブックマーク (7)

  • Shift-JISテキストを正しく扱う perl 日本語パターンマッチ正規表現 の問題と落とし穴

    最近の更新履歴 2006-10-28: 「Shift-JISの漢字を含むファイル名/パス名」について若干追記。 2005-03-26: 「最初に」中、XML日語プロファイル第2版に基づき、若干追記。 2005-03-09: 「最初に」中、文章を若干修正。 2003-06-24: Shift-JISの漢字を含むファイル名/パス名 2003-05-31: 「最初に」中、「シフトJIS」などの表記について。 2003-05-24: CP932重複定義文字の変換 2002-08-30: Perl 5.8.0 について。 2002-01-17: 長い文字列に対する正規表現検索 2001-12-15: ShiftJIS::Collate が overrideCJK パラメータを廃止したことに伴う 日語文字列を並び替えるの書き換え。 最初に 日語の文字コードにはいくつかのものが使われています。ある

  • 文字コード表 シフトJIS(Shift_JIS)

    シフトJISの1バイトコード(半角文字)のエリア 0x00~0x1f、0x7f は制御コードです 0x20~0x7e はASCII文字です 0xa1~0xdf は半角カタカナです シフトJISの2バイトコード(全角文字)のエリア(JIS X 0208の漢字エリア) 上位1バイト  0x81~0x9f、 0xe0~0xef 下位1バイト  0x40~0x7e、 0x80~0xfc ですが機種に依存しない観点より、HTMLで以下の水色エリアは使用しないのが無難です 水色エリアはJIS X 0208 (1990) to Unicode 漢字コード表に存在しないコードです 0x8540~ 0x889e は機種依存文字の主なエリアです 0xeb40~ 0xeffc はMacOS では縦書用文字、Windows では特殊な外字エリアです 0xf040~ は外字エリアです(記載していません) perl

  • JIS X 0208 の文字コード表

    JIS X 0208 の文字コード表です。 JIS X 0208 文字コード表 01区~08区 各種記号、英数字、かな 09区~15区 未定義(機種依存) (13区 NEC拡張外字) 16区~47区 JIS第一水準漢字 48区~84区 JIS第二水準漢字 85区~94区 未定義(機種依存) (89区~92区 NEC拡張外字) JIS コードの場合、エスケープシーケンスは、表示していません。 このページは、以下のページにあるPerl スクリプトにより自動作成しています。 ASHのプログラムソース ●JIS漢字 JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 01区 2120 813F A1A0   、 。 , . ・ : ; ? ! ゛ ゜ ´ ` ¨ 01区 2130 814F A1B0 ^  ̄ _ ヽ ヾ ゝ ゞ

  • UTF8 フラグあれこれ - daily dayflower

    UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象: UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし, UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc, etc ... Perl は(後方互換性確保などの理由から)ISO-8859-1

    UTF8 フラグあれこれ - daily dayflower
  • [LE-talk-ja 3] ISO-2022-JP-MS について

    MORIYAMA Masayuki moriy****@mirac***** 2006年 3月 23日 (木) 14:53:22 JST 前の記事 [LE-talk-ja 2] オープンソースカンファレンス2006 Tokyo/Spring 次の記事 [LE-talk-ja 4] Re: ISO-2022-JP-MS について 記事の並び順: [ 日付 ] [ スレッド ] [ 件名 ] [ 著者 ] ミラクル・リナックスの森山です。 いろいろと反響があり説明が必要と思われますので、ISO-2022-JP-MS について 説明したいと思います。 まず比較のため、次の5つの文字コードの簡単な定義を示します。 ・x-iso2022jp-cp932 ・CP50220 ・CP50221 ・CP50222 ・ISO-2022-JP-MS これら 5 つは、Unicode 経由で cp932 と相互変

    [LE-talk-ja 3] ISO-2022-JP-MS について
  • invisiblefulmoon.net

    invisiblefulmoon.net 2024 著作権. 不許複製 プライバシーポリシー

  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • 1