[B! 文字コード] dogatanaのブックマーク

Java の MS932, Cp943C, SJIS の違い

Java※ の MS932, Cp943C, SJIS の変換で異なる点、および注意を要する点をまとめてみました。 ※調査したバージョン：Java(TM) 2 Runtime Environment, Standard Edition (build 1.4.1_02-b06) ■概要 MS932 と Cp943C の両者は、Windows-31J の文字セットを扱えます。主な違いは、Unicode への変換で一部異なるコードポイントに変換される事と、NEC特殊文字とIBM拡張文字の両方で定義されている文字を、Unicode から MS932/Cp943C に変換する際に、どちらのコードポイントかという点が異なります。 MS932/Cp943C は Unicode との対応付けが一部の JIS X 0208 の文字に関して、SJIS と異なり、EUC_JP や ISO2022JP へ変換

dogatana 2019/03/06

文字コード

リンク

Unicodeの中のJIS X 0208に当たる文字を取得 - 強火で進め

こちらのサイトを参考に作成。 Unicode対応文字コード表 http://ash.jp/code/unit bl21.htm こちらのサイトで紹介されていた「Unicode変換テーブル」のリンクは変更が有ったみたいでリンク切れでした。その為、unicode.orgでサイト内検索で「JIS X 0208」で検索したところ以下のURLが該当のファイルの様でした。 http://unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0208.TXT このファイルは先頭にコメントが記載され、その後に「shift-JISの文字コード」「JIS X 0208の文字コード」「Unicodeの文字コード」「Unicode名」の順にタブ区切りで記載されています。【コメント部のデータフォーマットの説明部分】 # Column #1 is the shi

dogatana 2016/12/05

文字コード

リンク

http://unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0208.TXT

dogatana 2016/12/05

文字コード

リンク

CP932変換表の問題が顕在化する例 - yanok.net

JIS X 0208のシフトJISとUnicodeとの変換の問題として、CP932 (Windows-31J)の問題はよく知られています。書籍『プログラマのための文字コード技術入門』にも記しました。Windowsに実装されているUnicodeへの変換表が、標準の定義とずれている問題です。この問題は、使用頻度の高さから、波ダッシュ「〜」(1面1区33点、SJIS 8160)が化ける問題としてよく知られています。しかし、波ダッシュ以外にも大きな影響を受けている文字(記号)があります。双柱「‖」1面1区34点 (SJIS 8161)は、垂直線が2本並んだ格好をしている記号です。文字名はDOUBLE VERTICAL LINEといいます。Unicodeで対応する符号位置はU+2016です。この記号はCP932変換表の影響を受けています。CP932変換表では、U+2016でなく平行記号 (P

dogatana 2016/11/26

文字コード

リンク

プロジェクトX0213

JIS X 0213利用者有志による、相互扶助を目的としたウェブサイトです。このサイトはβ版です。 JIS X 0213 Wiki JIS X 0213のコード対応表 (2006年5月公開) 常用漢字と文字コードの対応表 - 2010年に改定された常用漢字とJIS X 0213およびUnicodeとの対応表 (2012年7月公開) 人名用漢字と文字コードの対応表 - 2012年現在の人名用漢字とJIS X 0213およびUnicodeとの対応表 (2012年7月公開) [NEW!] 日本語ローマ字綴りのための拡張ラテン文字コード表 (2013年10月公開) 漢字検索 - JIS第1〜第4水準の漢字が読みや構成要素などから検索できます (2007年6月公開)

dogatana 2016/11/26

文字コード

リンク

JIS X 0208と0213と機種依存文字

Windows-31J(JIS X 0208 + α) の機種依存文字は13区、89-92区、115-119区の３つの部分です。このうち13区は、ほぼそのまま JIS X 0213 に取り込まれたので JIS X 0213 準拠であれば機種依存でなくなりました。 89-92区のNEC選定IBM拡張文字の漢字は JIS X 0213 では別の文字が登録されています。つまり Windows-31Jで書かれた文書を JIS X 0213 として扱うとこの部分は別の文字に替わってしまいます。しかしこの部分は115-119区IBM拡張文字の漢字を重複して登録したもので、Windowsでもかなり前からデータを保存し直す時には115-119区のコードに書き換えられていましたので、この問題はあまり起こらないでしょう。 115-119区はShift_JISにした時の第一バイトが0xFA-0xFCと最後の部

dogatana 2016/10/29

文字コード

リンク

シフトJIS X 0213文字一覧 8140-8FFF

シフトJIS X 0213文字一覧 (1/4) 8040-8FFF　　9040-9FFF　　E040-EFFF　　F040-FCFF 新漢字則(JIS X 0213:2004)に戻るトップに戻る

dogatana 2016/10/29

文字コード

リンク

日本の文字とUnicode　第1回 | 大修館書店　WEB国語教室

現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日本語に特化して作られたわけではないので、日本の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、最初はASCII・Latin1とUnicodeの関係です。 Unicodeの最初の128文字(U+0000～U+007F、コード表参照)には、ASCIIという文字コードがそのまま収録されています。Unicodeは元々アメリカ生まれなので、アメリカでの標準的な文字コードであるASCII (American Standard Code for Information Inte

dogatana 2016/10/23

リンク

波ダッシュ・全角チルダ問題 - Wikipedia

Unicode（ユニコード）は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合（文字セット）が単一の大規模文字セットであること（「Uni」という名はそれに由来する）などが特徴である。従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日本語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても本質的に同じ文字であれ‮ば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日本語化（J-Star）などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、

dogatana 2016/09/13

文字コード

リンク

そろそろWindowsでUTF-16とShift-JISの変換方法をC++erらしくまとめようか - Qiita

Win32APIには御存知の通りWideCharToMultiByte関数とMultiByteToWideChar関数があるが、わりと使うのは面倒くさい。そもそも当たり前だけどstd::basic_string<char_type>使えないし。というわけでメモ代わりにまとめておく。locale周りはガバのプーさんだけどそこは勘弁して下さい。結論これでいいかと。なんとなくshrink_to_fit呼んでるけどこれ必要なのかねぇ #include <string> #include <windows.h> #include <cstring> std::wstring shift_jis_to_utf_16(const std::string& str) { static_assert(sizeof(wchar_t) == 2, "this function is windows on

dogatana 2016/09/11

文字コード

リンク

方法: Windows Phone Marketplace 用のスクリーンショットを作成する

dogatana 2016/09/11

文字コード

リンク

Character Sets

Last Updated 2022-07-14 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or

dogatana 2016/09/10

文字コード

リンク

UnicodeにあってShiftJISにない文字

東京でソフトウェアエンジニアをやっています。お仕事大募集中です。記事執筆や、講師依頼とかでも何でもどうぞ(*^_^*) MSMVP Visual C# Since 2004/04-2013/03 をチェックするためにちょっと実験してみましょう。 .NET 3.5な環境でコンパイルしてください using System; using System.IO; using System.Text; namespace ConsoleApplication1 { class Program { static void Main(string[] args) { var sb = new StringBuilder(); var shiftjis = Encoding.GetEncoding("shift_jis"); for ( var i = 0; i < 0xffff; i++) { //サ

dogatana 2016/09/07

文字コード

リンク

UnicodeとUTF-8の違いは？ - Humanity

という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/

dogatana 2016/09/06

文字コード

リンク

IBM Unicode と MS932 の文字コードの違いによって起こる文字コード非互換の問題について

Lotus Domino サーバーを R5 から Lotus Domino 6.x 以降にアップグレード後、以下の EBCDIC の文字が正しく変換されません（カッコ内はMS932（Shift-JIS）での文字コードです）。 (0x817C) (0x8160) (0x8161) (0x815C) (0xFA55) これは IBM i / z プラットフォーム等で使用されているデータを Windows プラットフォーム上のクライアントやサーバーに転送したり、アプリケーションで処理する部分や Lotus Notes クライアントでこれらの文字コードを表示する際などに発生します。この問題は、問題報告番号 HNAA6JW7SJ / YSAI6Z4BGQ として Lotus Quality Engineering に報告され、Lotus Domino 8.5.2 で修正されています。 Lotus

dogatana 2016/09/06

文字コード

リンク

[Java] UTF-8での文字化け

以前のエントリーOracleとJavaの間で、全角マイナスが文字化け。 - mokkouyou2001の日記にも少し関係。 IBM-Unicode(標準Unicode)と、MS-Unicodeの間でも以下の差がある。特に問題は無い場合が多いかもしれないが、外部向けのやり取りの1部にMS932(のファイルでのやりとり)がある。という場合はMS-Unicode向けの変換をかませておくのが無難かもしれない。というか、まぁ検索のことを考えたりするとどちらかに寄せるのが無難か・・・なんでこんなことが起こるかなぁ・・・悩ましいねぇ。文字 IBM-Unicode MS-Unicode ―(全角ダッシュ)*1 U+2014 U+2015 〜 U+301C U+FF5E ‖ U+2016 U+2225 −(全角マイナス) U+2212 U+FF0D ¢ U+00A2 U+FFE0 £ U+00