[B! encoding] kw5のブックマーク

Unicode正規化 - Wikipedia

Unicode正規化（ユニコードせいきか、英語: Unicode normalization）とは、等価な文字や文字の並びを統一的な内部表現に変換することでテキストの比較を容易にする、テキスト正規化処理の一種である。一般に、正規化はテキストの文字列を検索や整列のために比較（照合、英語: collation）するときに重要である[1]。合成と分解[編集] Unicodeの正規化手段の基礎は、文字の合成と分解という概念である。文字の合成とは、基底文字と結合文字の組み合わせによる結合文字列を、単一の符号位置である合成済み文字にする手続きである。たとえば、基底文字 n と結合文字 ~ の組み合わせを単独の ñ 文字に変換する、仮名文字と濁点の結合文字の組み合わせを単独の濁点つき仮名とするなど。分解はその逆で、合成済み文字を結合文字列にする。分解は単一の符号位置を別の単一の符号位置に変換することも

kw5 2012/05/26

リンク

Unicodeの等価性 - Wikipedia

Unicodeには既存の標準との互換性を維持するための文字が多数存在する。それらの中には他の文字や文字の並びと機能的に等価なものが存在する。このため、Unicodeは数種類の等価性を定義している。たとえば、文字 n の後ろに結合文字 ~ を続けたものは、1つのUnicode文字 ñ と等価である。Unicodeは等価性を定義するために2つの標準を保守している。正準等価[編集] 正準等価（せいじゅんとうか、英: Canonical Equivalent）は、視覚的および機能的に等価な文字を保存する、より狭い形態の等価性である。たとえば、ダイアクリティカルマークを持つ合成済みの文字は、分解すると「基底文字＋結合文字のダイアクリティカルマーク」の文字列に変わるが、いずれも等価であるとみなされる。言いかえると合成済み文字 ‘ü’ は ‘u’ と結合文字の分音記号 ‘¨’ を並べたものと正準等価で

kw5 2012/05/26

リンク

文字コード - Wikipedia

文字コード（もじコード、英: character code）は、文字（キャラクタ）を通信やコンピュータで扱えるように、一文字一文字に固有の識別番号を与えて区別できるようにした、その対応関係についての規則のこと。概説[編集] 文字コードは、文字や記号やそれに類するものを、通信やコンピュータで扱うために、各文字や記号などに対して番号を与えた対応規則の体系である。通常、通し番号を与え、文字と番号の対応表が作成される。どの文字コードを使うか決まっている状況では、ある数（番号）が与えられるとそれに対応する文字や記号を特定することができる。歴史[編集] 1870年代にはフランスの電信技術者のエミール・ボドーが、5ビットと文字・記号類を対応させるコードを発明し、1876年に、そのコードを用いる電信装置の特許をフランスで取得した（この装置に使われている5ビットのコードがBaudot Code（ボドー・

kw5 2012/05/26

リンク

文字コードとは - IT用語辞典

概要文字コード（character code）とは、文字や記号をコンピュータ上でデータとして扱うために、一文字ずつ固有の識別番号を与えて区別できるようにした符号のこと。コンピュータはすべての情報を「0」と「1」のを組み合わせたデジタルデータとして取り扱う。数値は2進数を用いることで容易に表現できるが、文字は字形そのものを画像や図形としてデータ化したものはデータ量が多く、これをそのまま繰り返し並べて文字データとすることは無駄が大きい。このため、各文字に短い識別番号（正確には0と1の並び：ビット列）を与えて数字の列として文字列を表現するようになった。この数字と文字の対応関係を定めた規約が文字コードである。最も普及しているASCII文字コードは英数字や制御文字、記号などを収録した7ビット（7桁のビット列、十進数では0～127）のコード体系であり、例えばアルファベットの大文字の「A」は65番

kw5 2012/05/26

リンク

文字セットとは - IT用語辞典

概要文字セット（character set）とは、コンピュータ上で文字をデータとして表現したり交換できるようにするために、何らかの基準に基づいて文字を集めて定義した集合のこと。集めた文字をそれぞれ符号（コード）と対応付けて数値やビット列に置き換えて表現できるようにしたものを文字コードという。文字コード規格を定義する際、まず人間が使っている自然言語の文字から、どれを収録するかを決定する必要がある。あるコード体系に収録すると決められた文字の集合のことをレパートリー（repertoire）という。規格によってはこれを文字セットと呼ぶこともある。レパートリーが決定されると、それぞれの文字に対して通し番号のような一意の符号（ビット列）が与えられ、それがコンピュータ内でのその文字のデータ表現となる。固有の符号が与えられた文字の集合のことを符号化文字集合（CCS：Coded Character S

kw5 2012/05/26

リンク

バイト順マーク - Wikipedia

バイト順マーク (バイトじゅんマーク、英: byte order mark) 、バイトオーダーマークあるいはBOM（ボム）は、Unicodeの符号化形式で符号化したテキストの先頭につける数バイトのデータ。元にUnicodeで符号化されていることおよび符号化の種類の判別に使用する。概要[編集] プログラムがテキストデータを読み込む時、その先頭の数バイトからそのデータがUnicodeで表現されていること、また符号化形式（エンコーディング）としてどれを使用しているかを判別できるようにしたものである。[1] 経緯[編集] Unicodeが開発された当初は、アメリカではASCII、ヨーロッパなどではISO-8859、日本ではShift_JISやEUC-JPといった他の文字コードが主流であり、使用されている符号化方式がUnicodeのものであることを明示する必要があった。また、Unicodeの符号化

kw5 2012/05/26

リンク

UTF-8 - Wikipedia

* 第1バイトがE0のときに第2バイトが80-9Fの範囲を、または同F0のときに80-8Fの範囲を取るものは冗長な符号化となるため許されない。第1バイトがEDのときに第2バイトがA0以上となるものはサロゲートペアのための符号位置にあたり、また同F4のときに90以上となるものはUnicodeの範囲外となるため、UTF-8ではやはり許されない。 Unicodeの符号位置を2進表記したものを、上のビットパターンのx, yに右詰めに格納する（最少のバイト数で表現するため、yの部分には最低1回は1が出現する）。符号化されたバイト列は、バイト順に関わらず左から順に出力する。 1バイト目の先頭の連続するビット "1"（その後にビット "0" が1つ付く）の個数で、その文字のバイト数がわかるようになっている。また、2バイト目以降はビットパターン "10" で始まり、1バイト目と2バイト目以降では値の範囲が

kw5 2012/05/26

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

encodingに関するkw5のブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス