タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

文字コードに関するdogatanaのブックマーク (16)

  • Java の MS932, Cp943C, SJIS の違い

    Java※ の MS932, Cp943C, SJIS の変換で異なる点、および注意を要する点をまとめてみました。 ※調査したバージョン:Java(TM) 2 Runtime Environment, Standard Edition (build 1.4.1_02-b06) ■概要 MS932 と Cp943C の両者は、Windows-31J の文字セットを扱えます。 主な違いは、Unicode への変換で一部異なるコードポイントに変換される事と、NEC特殊文字とIBM拡張文字の両方で定義されている文字を、Unicode から MS932/Cp943C に変換する際に、どちらのコードポイントかという点が異なります。 MS932/Cp943C は Unicode との対応付けが 一部の JIS X 0208 の文字に関して、SJIS と異なり、EUC_JP や ISO2022JP へ変換

    Java の MS932, Cp943C, SJIS の違い
  • Unicodeの中のJIS X 0208に当たる文字を取得 - 強火で進め

    こちらのサイトを参考に作成。 Unicode対応 文字コード表 http://ash.jp/code/unitbl21.htm こちらのサイトで紹介されていた「Unicode変換テーブル」のリンクは変更が有ったみたいでリンク切れでした。 その為、unicode.orgでサイト内検索で「JIS X 0208」で検索したところ以下のURLが該当のファイルの様でした。 http://unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0208.TXT このファイルは先頭にコメントが記載され、その後に「shift-JISの文字コード」「JIS X 0208の文字コード」「Unicodeの文字コード」「Unicode名」の順にタブ区切りで記載されています。 【コメント部のデータフォーマットの説明部分】 # Column #1 is the shi

    Unicodeの中のJIS X 0208に当たる文字を取得 - 強火で進め
  • http://unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0208.TXT

  • CP932変換表の問題が顕在化する例 - yanok.net

    JIS X 0208のシフトJISとUnicodeとの変換の問題として、CP932 (Windows-31J)の問題はよく知られています。書籍『プログラマのための文字コード技術入門』にも記しました。Windowsに実装されているUnicodeへの変換表が、標準の定義とずれている問題です。 この問題は、使用頻度の高さから、波ダッシュ「〜」(1面1区33点、SJIS 8160)が化け る問題としてよく知られています。 しかし、波ダッシュ以外にも大きな影響を受けている文字(記号)があります。 双柱「‖」1面1区34点 (SJIS 8161)は、垂直線が2並んだ格好をしている記号です。文字名はDOUBLE VERTICAL LINEといいます。Unicodeで対応する符号位置はU+2016です。この記号はCP932変換表の影響を受けています。CP932変換表では、U+2016でなく平行記号 (P

  • プロジェクトX0213

    JIS X 0213利用者有志による、相互扶助を目的としたウェブサイトです。 このサイトはβ版です。 JIS X 0213 Wiki JIS X 0213のコード対応表 (2006年5月公開) 常用漢字と文字コードの対応表 - 2010年に改定された常用漢字とJIS X 0213およびUnicodeとの対応表 (2012年7月公開) 人名用漢字と文字コードの対応表 - 2012年現在の人名用漢字とJIS X 0213およびUnicodeとの対応表 (2012年7月公開) [NEW!] 日語ローマ字綴りのための拡張ラテン文字コード表 (2013年10月公開) 漢字検索 - JIS第1〜第4水準の漢字が読みや構成要素などから検索できます (2007年6月公開)

  • JIS X 0208と0213と機種依存文字

    Windows-31J(JIS X 0208 + α) の機種依存文字は13区、89-92区、115-119区の3つの部分です。 このうち13区は、ほぼそのまま JIS X 0213 に取り込まれたので JIS X 0213 準拠であれば機種依存でなくなりました。 89-92区のNEC選定IBM拡張文字の漢字は JIS X 0213 では別の文字が登録されています。つまり Windows-31Jで書かれた文書を JIS X 0213 として扱うとこの部分は別の文字に替わってしまいます。しかしこの部分は115-119区IBM拡張文字の漢字を重複して登録したもので、Windowsでもかなり前からデータを保存し直す時には115-119区のコードに書き換えられていましたので、この問題はあまり起こらないでしょう。 115-119区はShift_JISにした時の第一バイトが0xFA-0xFCと最後の部

  • シフトJIS X 0213文字一覧 8140-8FFF

    シフトJIS X 0213文字一覧 (1/4) 8040-8FFF  9040-9FFF  E040-EFFF  F040-FCFF 新漢字則(JIS X 0213:2004)に戻る トップに戻る

  • 日本の文字とUnicode 第1回 | 大修館書店 WEB国語教室

    現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日語に特化して作られたわけではないので、日の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、最初はASCII・Latin1とUnicodeの関係です。 Unicodeの最初の128文字(U+0000~U+007F、コード表参照)には、ASCIIという文字コードがそのまま収録されています。Unicodeは元々アメリカ生まれなので、アメリカでの標準的な文字コードであるASCII (American Standard Code for Information Inte

  • 波ダッシュ・全角チルダ問題 - Wikipedia

    Unicode(ユニコード)は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。 従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても質的に同じ文字であれ‮ば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、

    波ダッシュ・全角チルダ問題 - Wikipedia
  • そろそろWindowsでUTF-16とShift-JISの変換方法をC++erらしくまとめようか - Qiita

    Win32APIには御存知の通りWideCharToMultiByte関数とMultiByteToWideChar関数があるが、わりと使うのは面倒くさい。 そもそも当たり前だけどstd::basic_string<char_type>使えないし。 というわけでメモ代わりにまとめておく。locale周りはガバのプーさんだけどそこは勘弁して下さい。 結論 これでいいかと。なんとなくshrink_to_fit呼んでるけどこれ必要なのかねぇ #include <string> #include <windows.h> #include <cstring> std::wstring shift_jis_to_utf_16(const std::string& str) { static_assert(sizeof(wchar_t) == 2, "this function is windows on

    そろそろWindowsでUTF-16とShift-JISの変換方法をC++erらしくまとめようか - Qiita
  • 方法: Windows Phone Marketplace 用のスクリーンショットを作成する

  • Character Sets

    Last Updated 2022-07-14 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or

  • UnicodeにあってShiftJISにない文字

    東京でソフトウェアエンジニアをやっています。 お仕事大募集中です。 記事執筆や、講師依頼とかでも何でもどうぞ(*^_^*) MSMVP Visual C# Since 2004/04-2013/03 をチェックするためにちょっと実験してみましょう。 .NET 3.5な環境でコンパイルしてください using System; using System.IO; using System.Text; namespace ConsoleApplication1 { class Program { static void Main(string[] args) { var sb = new StringBuilder(); var shiftjis = Encoding.GetEncoding("shift_jis"); for ( var i = 0; i < 0xffff; i++) { //サ

  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • IBM Unicode と MS932 の文字コードの違いによって起こる文字コード非互換の問題について

    Lotus Domino サーバーを R5 から Lotus Domino 6.x 以降にアップグレード後、以下の EBCDIC の文字が正しく変換されません(カッコ内はMS932(Shift-JIS)での文字コードです)。 (0x817C) (0x8160) (0x8161) (0x815C) (0xFA55) これは IBM i / z プラットフォーム等で使用されているデータを Windows プラットフォーム上のクライアントやサーバーに転送したり、アプリケーションで処理する部分や Lotus Notes クライアントでこれらの文字コードを表示する際などに発生します。 この問題は、問題報告番号 HNAA6JW7SJ / YSAI6Z4BGQ として Lotus Quality Engineering に報告され、Lotus Domino 8.5.2 で修正されています。 Lotus

  • [Java] UTF-8での文字化け

    以前のエントリーOracleJavaの間で、全角マイナスが文字化け。 - mokkouyou2001の日記 にも少し関係。 IBM-Unicode(標準Unicode)と、MS-Unicodeの間でも以下の差がある。 特に問題は無い場合が多いかもしれないが、外部向けのやり取りの1部にMS932(のファイルでのやりとり)がある。 という場合はMS-Unicode向けの変換をかませておくのが無難かもしれない。 というか、まぁ検索のことを考えたりするとどちらかに寄せるのが無難か・・・ なんでこんなことが起こるかなぁ・・・ 悩ましいねぇ。 文字 IBM-Unicode MS-Unicode ―(全角ダッシュ)*1 U+2014 U+2015 〜 U+301C U+FF5E ‖ U+2016 U+2225 −(全角マイナス) U+2212 U+FF0D ¢ U+00A2 U+FFE0 £ U+00

    [Java] UTF-8での文字化け
  • 1