[B! glossary][character_encoding] pipeheadのブックマーク

UTF-8

Unicodeのテキストをファイルに保存する場合、UTF-8という形式がよく使われる。システムのログや構成ファイル、XML／HTMLファイル、プログラムコードなど、UTF-8が使われる場面は非常に多い。UTF-8とは何か、どのような特徴を持つのかを解説。連載目次「UTF-8」とは、Unicode文字の符号化（エンコード）方法の1つ。Unicodeの文字コード（コードポイント）を、1～4bytesの可変長のバイトデータのストリームとして表現する方式である。Unicode文字列をファイルに保存したり、ネットワーク経由で送信したりする場合にはこのUTF-8がよく用いられる。近年では、HTMLコードやプログラムのソースコードなどをファイルに保存する場合は、このUTF-8形式を使うことが多い。 Unicode文字の符号化とは？ Unicodeは、世界中のさまざまな言語で使われる文字を、統一された

pipehead 2016/03/28

リンク

Unicode（ユニコード）

デバイスやOSを問わず、システムの標準的な文字コードとして広く使われるようになった文字コード「Unicode」。その特徴や登場の背景、キーとなる技術をまとめる。連載目次「Unicode」（ユニコード）は、世界中の文字を1つの文字コード体系で扱えるように作られた、文字コードセットの規格。現在のコンピュータシステムでは内部コードをこのUnicodeにして、世界中でほぼ同じバイナリーコードを使えるようにしていることが多い。Unicodeコンソーシアムが規格を策定している。 Unicode登場の背景 Unicodeが登場するまでは、コンピュータシステムではShift_JIS（主にDOSやWindows）やEUC（Extended UNIX Code、主にUNIX）、EBCDIC（主にメインフレームコンピュータ）などのコードが使われていた。これらは、英語ともう1つの言語（日本語や中国語など）を

pipehead 2016/03/10

リンク

幽霊文字 ‐ 通信用語の基礎知識

日本語の文字集合として作られたJIS C 6226-1978(後のJIS X 0208)は、当時の通産省(後の経産省)によって制定された規格である。多くの人の努力により、日本初の工業規格として漢字文字コード表を作ることに成功した。しかし、この規格がパーソナルコンピューター等に実装され、使われ始めると、漢和辞典にも載っていない正体不明の文字が少なからず存在することが明らかとなった。これを俗に「幽霊文字」と呼ぶようになった。

pipehead 2007/10/25

リンク

ISO/IEC 8859-1 - Wikipedia

ISO 8859-1（より正式にはISO/IEC 8859-1）はISO/IEC 8859の第一部であり、ラテンアルファベットの文字コード標準である。よりくだけた言い方ではLatin-1と呼ばれる。最初はISOによって開発されたが、後にISOとIECによって合同で保守されている。この標準に追加の文字を（16進符号0x00-0x1Fの「C0領域」と、0x80-0x9F「C1領域」の範囲に）割り当てたものは、2つの広く使われているキャラクタセットの基となる。ISO-8859-1（余分なハイフンに注意）とWindows-1252と呼ばれるものである。 2004年6月、8ビット符号化文字集合の整備を担当するISO/IECの作業部会は、国際符号化文字集合 (UCS) とUnicodeの開発に専念するために解散し、ISO 8859-1を含むすべてのISO 8859の整備を中止した。コンピュータアプリケ

pipehead 2007/07/07

Latin-1

リンク

幽霊文字 - Wikipedia

幽霊文字（ゆうれいもじ、英:ghost letter）は、JIS基本漢字に含まれる、典拠不明の文字（漢字）の総称。幽霊漢字（ゆうれいかんじ）、幽霊字（ゆうれいじ）とも呼ぶ。河内𡚴原地区(滋賀県犬上郡多賀町)の地名看板。幽霊漢字「妛」は「𡚴」の誤字である可能性が指摘されている。 1978年に当時の通商産業省が制定したJIS C 6226（後のJIS X 0208）では、いわゆるJIS第1・第2水準漢字として6349字が規定された。この漢字集合を「JIS基本漢字」と呼ぶ。このとき典拠として次の4つの漢字表に含まれる漢字が採用された[1]。標準コード用漢字表（試案）：情報処理学会漢字コード委員会（1971年）国土行政区画総覧：国土地理協会（1972年）日本生命収容人名漢字：日本生命（1973年、現存せず）行政情報処理用基本漢字：行政管理庁（1975年）しかし、制定当時は各

pipehead 2007/01/22

リンク

バイト順マーク - Wikipedia

プログラムがテキストデータを読み込む時、その先頭の数バイトからそのデータがUnicodeで表現されていること、また符号化形式（エンコーディング）としてどれを使用しているかを判別できるようにしたものである。[1] Unicodeが開発された当初は、アメリカではASCII、ヨーロッパなどではISO-8859、日本ではShift_JISやEUC-JPといった他の文字コードが主流であり、使用されている符号化方式がUnicodeのものであることを明示する必要があった。また、Unicodeの符号化方式は複数あり、特にUTF-16やUTF-32にはそれぞれエンディアンが異なる2種類があるため、符号化方式同士を区別する必要があった。その方法として、先頭のデータにテキスト以外のデータを入れることが発案された。実際にBOMを使用すべきか、あるいは使用すべきでないかは、Unicodeを利用したより上位の仕様に

pipehead 2006/06/12

BOM, byte order mark

リンク

Microsoftコードページ932 - Wikipedia

Template‐ノート:特殊文字に、このページに関する質問があります。（2023年1月）質問の要約：Template:特殊文字で「Microsoftコードページ932（はしご高）」と書かれている場合があることこの記事には複数の問題があります。改善やノートページでの議論にご協力ください。出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。（2011年11月）出典は脚注などを用いて記述と関連付けてください。（2011年11月）出典検索?: "Microsoftコードページ932" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL MS932とその他の日本語に関連した文字集合との関係オイラー図 Microsoft コードページ 932（マイクロソフトコードページ 932

pipehead 2004/10/28

CP932

リンク

ワイド文字 - Wikipedia

ワイド文字（ワイドもじ、英: wide character）とは、主にC言語およびC++における文法要素で、1文字あたりのバイト数を通常より多くしたデータ型である。 C言語やC++の基本実行文字集合は通常、ASCIIのサブセットの文字種からなる。ただし実際の文字コードが何であるかは規定されていない。漢字のような拡張実行文字集合は、通常マルチバイト文字として扱われるが、1文字を構成するバイト数が可変長であり、本来1つの文字でありながら複数の文字の組（あるいは文字列）として扱わなければならないなどの不便がある。そうした問題を解消するために、1文字を1つの整数値で扱えるようにすることを目指したのがワイド文字である。 C言語では1995年の ISO/IEC 9899/AMD1:1995 より、wchar_t 型や <wchar.h>、<wctype.h> などのヘッダーファイルが追加になった。ワ

pipehead 2003/08/09

wchar_t, char16_t, char32_t

リンク

Punycode - Wikipedia

Punycode（ピュニコード、プニコード）とは、国際化ドメイン名で使われる文字符号化方式で、RFC 3492 で定義されている。Unicode で書かれた文字列をDNSで使用可能な、アルファベット（大文字小文字を区別しない）、数字、ハイフンのみの文字列に変換する。ドメイン名として Punycode を使用する際は、ピリオド（.）で区切られたドメイン名の階層レベルごとにプレフィックスとして「xn--」を使用し、エンコードされた文字列を続ける。大文字と小文字は区別されない。可読なドメイン名 Punycodeでのドメイン名

pipehead 2003/05/18

リンク

ASCIIコード表 - Wikipedia

ASCIIはISO標準7ビット文字コードISO/IEC 646の元となった。しかし7ビットでは英語以外の言語に対応するには不十分であり、後に他のヨーロッパ言語で使われるラテン文字への対応を追加した8ビット文字コードであるISO/IEC 8859が策定された。その後、世界中で使用されている様々な文字を表現できるようにするため、ASCIIで使用されていない128番以降の部分に、その他の文字を割り当てたり、複数バイトを使用して1つの文字を表現したりするように独自拡張した文字符号化方式が使われるようになっていった。 ASCII制定当時、最小のデータ処理単位（メモリアドレッシングの最小単位）つまりバイトが6ビットであるコンピュータも多かった（DECのPDPシリーズなど）。そのようなコンピュータでは6ビットの文字符号化方式を採用しており、そのためISO/IEC 646の策定にあたっては、7ビット符号化

pipehead 2003/05/03

リンク

UTF-8 - Wikipedia

UTF-8（ユーティーエフはち、ユーティーエフエイト）はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位（1–4バイトの可変長）の文字符号化形式および文字符号化スキーム。正式名称は、ISO/IEC 10646では “UCS Transf ormation Format 8”、Unicodeでは “Unicode Transf ormation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。当初は、ベル研究所においてPlan

pipehead 2003/04/06

リンク

Shift JIS 2バイト目が0x5C等に成りうることによる問題 - Wikipedia

Shift_JIS（シフトジス）は、コンピュータ上で日本語を含む文字列を表現するために用いられる文字コードの一つ。シフトJIS（シフトジス）と表記されることもある[1]。かつてはベンダーによる独自拡張を含む文字コード群を指した曖昧な名称であったが、1997年にJIS X 0208で標準化された。

pipehead 2003/03/05

/* 2 バイト目に 0x5C を持つ文字一覧あり〼 */ > かつてはベンダーによる独自拡張を含む文字コード群を指した曖昧な名称であったが、現在は標準化文書JIS X 0208の附属書1で規定されている。「Shift_JIS」はIANAにおける登録名で

リンク

波ダッシュ・全角チルダ問題 - Wikipedia

Unicode（ユニコード）は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合（文字セット）が単一の大規模文字セットであること（「Uni」という名はそれに由来する）などが特徴である。従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日本語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても本質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日本語化（J-Star）などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒ

pipehead 2003/02/16

リンク

BOMとは - IT用語辞典

概要 BOM（Byte Order Mark）とは、Unicodeで記述された文書の冒頭に記載される短い符号で、使用されている文字符号化方式（文字エンコーディング）の種類や、そのバイト順（エンディアン）を指定するためのもの。文書がUnicode文字列であることを示したり、一文字を複数バイトで表す際のバイト列の並び順（上位側が先か下位側が先か）を規定する。符号化方式によって2～4バイトのバイト列が決められており、BOMを記述しないよう規定された符号化方式もある。 UnicodeにはUTF-8やUTF-16など複数の符号化方式が規定されており、同じ文字でも符号化方式が異なれば違うバイト列で表現される。また、例えば同じUTF-16でも、機種や処理系の違いによって、ある文字を表すバイト列を上位バイトが先頭側になるように並べる（ビッグエンディアン）か、下位バイトが先頭側になるように並べる（リトルエ

pipehead 2003/01/15

> Unicodeとほぼ等価であるISO 10646では、BOMに相当するコードは「ZERO WIDTH NON-BREAKING SPACE」と呼ばれ、ビット列はBOMと同じく16進で「FEFF」だが、文書の途中に登場してもいいことになっている。

リンク

Shift JISとは - IT用語辞典

概要 Shift JIS（シフトJIS）とは、JIS規格として標準化された日本語を含む様々な文字を収録した文字コードの一つ。正確には「Shift_JIS」と間にアンダーバーを挟んで表記する。MS-DOSやWindowsが標準の日本語文字コードとして採用したことから広く普及した。 JISコード（ISO-2022-JP）や日本語EUCなどが連続したコード領域に文字を収録しているのに対し、Shift JISでは文字集合をいくつかに分割し、それぞれ異なる離れた領域へ移動（shift）させている。これは、1バイト目の値として、既存のいわゆる半角文字のコード領域、すなわち、ASCIIコード由来の英数字・記号文字・制御文字やJIS X 0201で追加された記号・半角カナ文字などの使用している値が出現するのを避けるためである。 ISO-2022-JPなどは1バイト目に8ビット文字コードと共通する値を使用

pipehead 2001/11/20

> 文字の1バイト目を見るだけで漢字か1バイト文字（いわゆる半角英数字）か分かる

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

glossaryとcharacter_encodingに関するpipeheadのブックマーク (15)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス