タグ

文字コードに関するtsuyossiiのブックマーク (35)

  • 機種依存文字チェッカー

    下の枠の中に、テキストを記入してチェックボタンを押して下さい。 機種依存文字(環境によって文字化けしてしまう文字)が入っていると赤く表示されます。 ※チェックできる文字数は50,000文字となります。 機種依存文字とは その名の通り、各機種(MacPC/AT、PC-98やUNIXなど)に依存し、互換性のない文字のことです。 機種依存文字は、新JIS規格(JIS X 020)に規定されていないため、特定の環境でしか正常に表示されません。仮に、他の環境で表示させた場合、文字化けを起こして読めなくなります。また、来の機種依存文字には含みませんが、古いPC-98シリーズで使えない文字や、特にインターネット上で誤動作を誘発する半角カナといったものもあります。

  • 本当は怖くないCP932 - Qiita

    先に結論 CP932 は、Shift_JIS の独自実装 符号化文字集合がいろいろ拡張されている 拡張文字の有無で、Shift_JIS と判別可能 CP932ってなあに? 実はいろいろある Microsoftコードページ932 IBMコードページ932 PC-9800仕様OEMコードページ932 Windows-31J(MS932) Microsoftコードページ932 Microsoftが、MS-DOS 用に作った Shift_JIS の実装 IBMコードページ932PC-9800仕様OEMコードページ932 IBM、NECが作った、Microsoftコードページ932 の拡張 Windows-31J(MS932) Microsoftが互換性確保の為に、IBM、NECの拡張を吸収した、Windows 用の CP932 CP932 といったらほぼほぼこれを指す MS932 は、Java

    本当は怖くないCP932 - Qiita
  • ASCIIとは - IT用語辞典

    ASCII 【American Standard Code for Information Interchange】 アスキー / ISO/IEC 646 / US-ASCII / ASCIIコード / アスキーコード 概要 ASCII(American Standard Code for Information Interchange)とは、アルファベットや数字、記号などを収録した文字コードの一つ。最も基的な文字コードとして世界的に普及しており、他の多くの文字コードがASCIIの拡張になるよう実装されている。文字を7ビットの値(0~127)で表し、128文字が収録されている。 主に英語で必要な文字を収録したコード規格で、0番から127番までの番号(正確には2進数で0000000から1111111まで)について、各番号がどの文字を意味するかという対応関係を定めている。例えば英大文字の「A

    ASCIIとは - IT用語辞典
  • URLエンコードとは - IT用語辞典

    URLエンコード 【URL encoding】 パーセントエンコーディング / percent encoding / HTMLエンコード / URIエンコード / URI encoding 概要 URLエンコード(URL encoding)とは、URLのファイル名やクエリ文字列などの一部としては使用できない記号や文字を、使用できる文字の特殊な組み合わせによって表記する変換規則。「%」と文字コードの16進数表記を繋げたものに置き換えるといった変換を行う。 URL(Uniform Resource Locator)はインターネット上での資源(情報やサービスなど)の所在情報を書き表すための表記法の標準で、Webページの場所を指し示す際などに利用される。HTTPの場合は「http:」あるいは「https:」に続けて「//WebサーバのIPアドレスまたはドメイン名/サーバ内のパス」という形式になる。

    URLエンコードとは - IT用語辞典
  • Unicodeの似た文字を整理してみた - y-kawazの日記

    XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。 文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。 ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル 表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。 見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。 分かりやすいよう、青は文字化けなし、黄

    Unicodeの似た文字を整理してみた - y-kawazの日記
  • Shift_JIS 文字コード表

    注 このページはWindowsMeというOSでJavaの学習をしていた時代にファイル内の文字コードを見るときの参考に書かれものです。ページの文字コードもShift_JISのままにしてあります。 このページで説明している文字コードは、JIS X 0208 にNEC選定IBM拡張文字とIBM拡張文字を加えたものです。最近では拡張文字を含んだものをwindows-31jとかCP932とよんで、Shift_JISは拡張文字を含まない場合をいう傾向にあります。 Windows7から JIS X 0213 に対応しましたが、これをShift_JIS(Shift_JIS:2004)にすると拡張文字の部分が0213で追加された文字とは衝突します。Windowsでは互換性の確保の観点からShift_JISのテキストファイルはWindows-31jにしますから、ここに書かれた情報はいまでも合致するはずです。た

  • Unicode対応 文字コード表

    �$B!!�(BUnicode�$BBP1~$N�(B JIS X 0201 �$B$N�(BJIS�$B%m!<%^;z$H�(BJIS�$B%+%J$NJ8;z%3!<%II=$G$9!#�(B �$B!!�(B�$BJ8;z%3!<%I$K$D$$$F�(B�$B$N%Z!<%8$d!"�(B�$BJ8;z%3!<%I0lMw$K$D$$$F�(B�$B$N@bL@$b$"$j$^$9!#�(B JIS�$B%m!<%^;z!'�(BASCII�$B!&J8;z%3!<%II=�(B JIS SJIS EUC UTF-8 UTF-16 �$B;z�(B 20 20 20 20 0020 21 21 21 21 0021 ! 22 22 22 22 0022 " 23 23 23 23 0023 # 24 24 24 24 0024 $ 25 25 25 25 0025 % 26 26

  • 文字コード表 シフトJIS(Shift_JIS)

    シフトJISの1バイトコード(半角文字)のエリア 0x00~0x1f、0x7f は制御コードです 0x20~0x7e はASCII文字です 0xa1~0xdf は半角カタカナです シフトJISの2バイトコード(全角文字)のエリア(JIS X 0208の漢字エリア) 上位1バイト  0x81~0x9f、 0xe0~0xef 下位1バイト  0x40~0x7e、 0x80~0xfc ですが機種に依存しない観点より、HTMLで以下の水色エリアは使用しないのが無難です 水色エリアはJIS X 0208 (1990) to Unicode 漢字コード表に存在しないコードです 0x8540~ 0x889e は機種依存文字の主なエリアです 0xeb40~ 0xeffc はMacOS では縦書用文字、Windows では特殊な外字エリアです 0xf040~ は外字エリアです(記載していません) perl

  • ASCII文字コード : IT用語辞典

    IT用語辞典 e-Words(イーワーズ)とは … IT(情報技術)用語のオンライン辞典です。情報、通信、コンピュータなどに関連する各分野の用語について、キーワード検索や五十音索引から調べることができます。用語の意味や定義、概要や要約、略語や別表記、英語表記や綴り、フルスペル、読み方や発音、仕組みや役割、歴史や由来、語源、構造や構成、要素、特徴や機能、性能、規格や仕様、標準、原因や要因、手法や方法、方式、種類や分類、利点や欠点、問題点、対義語や類義語との違い、用例や事例、具体例などを分かりやすく解説することを目指しています。関連する画像や図表、関連用語、外部資料や別の辞典による解説へのリンクなども掲載しています。

  • Webページの文字コードをUTF-8にする方法(前編)

  • 転ばぬ先の文字コード入門---目次 - 1週間で学ぶIT基礎の基礎:ITpro

    この講座では,様々な角度から文字コードの仕組みを解き明かしていきます。文字コードとは,文字を表すコード(来数値でない情報を数値で表したもの)のことです。皆さんは,Webブラウザで表示した画面が文字化け(意味不明の文字が表示されること)した,という経験があるでしょう。文字化けは,Webブラウザ側で設定した文字コードと,Webページのファイルの文字コードの種類が違う場合に起こります。 第1回 文字化けが発生する原因と対策 第2回 文字コードの元祖ASCIIをマスターしよう 第3回 漢字を表す文字コードは一種類だけじゃない 第4回 プログラマにとっての文字コード 第5回 フリー・ソフトを活用しよう

    転ばぬ先の文字コード入門---目次 - 1週間で学ぶIT基礎の基礎:ITpro
  • Unicode ~UTF-8、UTF-16との違い~(文字コード関連) | 読み物 | ウナのIT資格一問一答

    UnicodeとUTF-8、UTF-16との違いはなんでしょうか? ここでは、あまり詳細にはこだわらず、これらの概念を整理してみたいと思います。 まずUnicode。 これは文字集合です。アルファベットや記号はもちろん、漢字やひらがな、ハングルやヘブライ文字など、世界中で使われている文字を集めたものです。 次にUTF-8とUTF-16。 これらはUnicodeで定義されている一つ一つの文字を、どのように符号化するかという文字符号化方式(エンコーディング)です。 たとえば、Unicodeで定義されている「あ」という文字を、UTF-8とUTF-16で符号化すると下記のようになります(16進数表記)。 Unicodeという一つの文字集合に対して、異なる文字符号化方式UTF-8、UTF-16が存在し、符号化した結果も異なります。 どうしてUnicodeという一つの文字集合に対して、異なる文字符号化

  • 文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して

    UnicodeとUTF-8の違いを理解していない方が結構居るようなので、文字コードの考え方を元に解説してみようと思う。 文字コードとは何か? 文字コードとは、コンピュータ上で文字を扱うために、文字に対して割り当てられた数値のことであり、文字と数値の対応付けと呼べる。 この対応付けの種類は沢山あって、Shift-JISであったり、UTF-8であったりする。 以上!と言いたいけど、文字コードはこんなに単純ではない。文字コードを複雑にする要素は沢山あるが、今回の記事ではUnicodeとUTF-8の違いに焦点を絞って解説してみたいと思う。 文字コードの構成要素 文字コードの世界は以下の2つの要素で構成されている。 この違いを意識しておかないと混乱を招くだろう。 (1).文字集合 – 表現したい文字の範囲(”あ”、”い”・・・といった文字の集合体) (2).符号化方式 – 文字集合を構成する個々の文

    文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して
  • 文字コードの部屋 -- エンコードの種類

    ISO 646 の 多バイト拡張 これまでよく使われてきた、SJIS, ISO-2202-JP, EUC-JP について。 コード範囲 +------+------------------+------+------------------+ | 0 1 | 2 3 4 5 6 7 | 8 9 | A B C D E F | +------+------------------+------+------------------+ | | | | | | | | | | | | | | | | | | + Ctr +------------------+------+------------------+ | | | | | | | | | | | | | | | +------+------------------+------+------------------+ シフト JIS +

  • ASCIIコード表 - Wikipedia

    ASCIIはISO標準7ビット文字コードISO/IEC 646の元となった。しかし7ビットでは英語以外の言語に対応するには不十分であり、後に他のヨーロッパ言語で使われるラテン文字への対応を追加した8ビット文字コードであるISO/IEC 8859が策定された。その後、世界中で使用されている様々な文字を表現できるようにするため、ASCIIで使用されていない128番以降の部分に、その他の文字を割り当てたり、複数バイトを使用して1つの文字を表現したりするように独自拡張した文字符号化方式が使われるようになっていった。 ASCII制定当時、最小のデータ処理単位(メモリアドレッシングの最小単位)つまりバイトが6ビットであるコンピュータも多かった(DECのPDPシリーズなど)。そのようなコンピュータでは6ビットの文字符号化方式を採用しており、そのためISO/IEC 646の策定にあたっては、7ビット符号化

    ASCIIコード表 - Wikipedia
  • Microsoftコードページ932 - Wikipedia

    この記事には複数の問題があります。 改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2011年11月) 出典は脚注などを用いて記述と関連付けてください。(2011年11月) 出典検索?: "Microsoftコードページ932" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL MS932とその他の日語に関連した文字集合との関係オイラー図 Microsoft コードページ 932(マイクロソフト コードページ 932)は(以下 CP932)、マイクロソフト及び、MS-DOSのOEMベンダがShift_JISを独自に拡張した文字コードである。また、同時にCP932は、Shift_JISのWindowsアプリケーションにおける「

    Microsoftコードページ932 - Wikipedia
  • Shift JIS 2バイト目が0x5C等に成りうることによる問題 - Wikipedia

    Shift_JIS(シフトジス)は、コンピュータ上で日語を含む文字列を表現するために用いられる文字コードの一つ。シフトJIS(シフトジス)と表記されることもある[1]。 かつてはベンダーによる独自拡張を含む文字コード群を指した曖昧な名称であったが、1997年にJIS X 0208で標準化された。

  • ISO-2022-JP - Wikipedia

    ISO-2022-JPは、インターネット上(特に電子メール)などで使われる日の文字用の文字符号化方式(文字コード)。ISO/IEC 2022のエスケープシーケンスを利用して文字集合を切り替える7ビットのコードであることを特徴とする (アナウンス機能のエスケープシーケンスは省略される)。俗に「JISコード」と呼ばれることもある。いずれの2022も、年数ではない。 日語表記への利用が想定されている文字コードであり、日語の利用されるネットワークにおいて、日の規格を応用したものである。また文字集合としては、日語で用いられる漢字、ひらがな、カタカナはもちろん、ラテン文字、ギリシア文字、キリル文字なども含んでおり、学術や産業の分野での利用も考慮したものとなっている。規格名に、ISOの日語の言語コードであるjaではなく、国・地域名コードのJPが示されているゆえんである。 文字集合としてJIS

  • 文字化け - Wikipedia

    文字化けの模式図。UTF-8でエンコードされた文字列「文字化け」をShift JISとしてデコードした場合、「譁?ュ怜喧縺?」と文字化けする。文字化け(もじばけ)とは、コンピュータで文字が正しく表示・印刷されず、 来とは異なる不規則で意味不明な記号や文字の連なりとして現れること[1]。あるシステムで符号化された文字列が、別のシステムで復号されたときに発生する[2]。 「文字化け」は文字が変形することを意味する日語であるが[2]、英語においても借用されている[1]。久保芳之はこれについて、「アメリカで行われた最初の日語アプリケーション」である PageMaker の開発時、「英語で文字化けを説明するよりも、 MOJIBAKEとは何かを理解させることの方が簡単であると考え、英語としてMOJIBAK(英語)を定着させました」と述懐している[3]。 「文字化け」に相当する用語は他言語にも存在

    文字化け - Wikipedia
  • 文字コードの設定(CHCP)

    CHCP コマンドを使用するとコマンドプロンプトで使用される文字コードを設定することができます。ここではコマンドプロンプトにおける CHCP コマンドの使い方について解説します。

    文字コードの設定(CHCP)