タグ

charcodeに関するsomatのブックマーク (6)

  • 波ダッシュ

    波ダッシュと全角チルダ 期間などの範囲を表したり、省略などを意味するものに「〜」(波ダッシュ)という文字があります。この記号は、現代日語ではかなり頻繁に使われる文字の一つであり、ユニコードにも「WAVE DASH」として収録されています。 ところが、文章中で頻繁に使われる基的な記号であるにも関わらず、波ダッシュは使う側が十分注意して扱わないとトラブルになりかねない、問題のある文字なのです。波ダッシュに関わる問題はあまり知られていないようですから、ここで具体的に解説しておきましょう。 文字をコンピュータで扱うには、まず文字コードで定義しなければなりません。JIS X 0208で規定されている「波ダッシュ」のコード番号は0133(区点コード)ですが、多くのパソコンで実際に使われている標準的な文字コードであるシフトJISでは「0×8160」というコード番号が割り当てられています。 ちなみに

  • invalid byte sequence for encoding "EUC_JP": 0x9356 (携帯と文字コード) - WEBプログラミング NOW!

    invalid byte sequence for encoding "EUC_JP": 0x9356 (携帯と文字コード) 私が作成したWEBアプリでは、たいてい、異常なエラーが発生した場合に、自分のところにメールが来るように設計しています。たとえば、ありえないデータがPOSTされた場合や、何らかの理由でデータベースに正常に登録されなかった時などです。で、今日、 invalid byte sequence for encoding "EUC_JP": 0x9356 というPostgreSQLでエラーが発生した旨、私のところにメールが来ました。英語のメッセージですが、違約すれば「EUC-JPという文字エンコードではありえない、0x9356という文字列を検出しました」ぐらいの意味です。この「0x9356」なるバイト並びはEUC-JPであるはずがないとPostgreSQL閣下が断じておられるの

    invalid byte sequence for encoding "EUC_JP": 0x9356 (携帯と文字コード) - WEBプログラミング NOW!
  • 日本語と文字コード

    コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト(7/8ビット)を基単位として扱う前提で作られているものが中心です。そのなかで日語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日語の文字コードに関する基を整理しておきます。 JIS漢字コード(情報交換用符号化漢字集合) 区点コード JISコード(符号化方式) シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ 参考文献、リソース 文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード(情報交換用符号

  • 半角カナ - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "半角カナ" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2023年11月) 半角カナ(はんかくカナ)、半角片仮名(はんかくかたかな, Halfwidth Katakana)とは、コンピュータで使用される文字集合のひとつで、もっぱら幅が通常の半分(半角)で表示または印刷される特殊な片仮名のことである。 日におけるパーソナルコンピュータの黎明期から存在し、後に平仮名や漢字など多様な文字が利用可能になるまではコンピュータ上で日語を書き表すことができる唯一の手段だった。 歴史[編集] ASCII普及前、大型コンピュータ(メインフレーム)で使

    半角カナ - Wikipedia
    somat
    somat 2008/01/10
    半角カナがなんで推奨されてないのか、理由を忘れてた。メールでISO-2022-JPだからダメなケースと、システムがEUC-JPだからダメなケースをちょっと混同してた
  • MySQL 文字化け問題を本気で直す

    mysql> status; -------------- mysql Ver 14.7 Distrib 4.1.20, for redhat-linux-gnu (i386) using readline 4.3 Connection id: 36 Current database: staff2006 Current user: maiha@localhost SSL: Not in use Current pager: lv Using outfile: '' Using delimiter: ; Server version: 4.1.20 Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: latin1 Db characterset: latin1 Client char

  • 2004 JIS をめぐる混乱

    2004 JIS ( JIS2004 )について、問題となる混乱を解説します。 [ 2005.08.12. ] ※ この文書の目的は、誰かを非難または攻撃することではなくて、 世間にある誤解または錯覚をほどくことです。 ★ 「個々の文字をどう使えばいいのか」という 実用的な結論については、 下記のページをご覧ください。 → Open ブログ 「文字使用の指針・まとめ」 このページには、「指針1」「指針2」「指針3」というリンクもあります。 ★ 文書では、学術的 ・理念的 ・原理的 な 話題 を主に扱います。 文書を公開したあとの新しい情報ついては、次のページをご覧ください。 → Open ブログ 「文字規格」 ここには、細々とした話題がいろいろとあります。 「2004 JIS をめぐる混乱」について語ろう。 新しい漢字規格の問題については、2005年7月末にマイクロソフトが方針を示して

  • 1