[B! Unicode] [2ページ] mhrsのブックマーク

mhrs id:mhrs

Unicodeに関するmhrsのブックマーク (40)

Manpage of UTF-8
Section: Linux Programmer's Manual (7) Updated: 2001-05-11 Index JM Home Page roff page 名前 UTF-8 - ASCII と互換性のある多バイト Unicode の符号化説明ユニコード (Unicode) 3.0 文字集合は 16 ビットのコード空間を占める。最も単純な Unicode の符号化方法 (UCS-2) では、文字は 16 ビット・ワード (16 ビット文字の列) で構成される。この列には、 aq\0aq や aq/aq のような (ファイル名や C のライブラリ関数の引き数の内部で) 特殊な意味を持つ 16 ビット文字が含まれることがある。さらに、ほとんどの Unix ツールは ASCII ファイルを入力として期待するので、大幅な変更なしには 16 ビットワードを文字として読む
mhrs 2005/10/13
Unicode

文字コード
リンク
JIS X 0213 (JIS2004) の代表的な符号化方式
(1面の終端バイト51は、この規格の2000年版のISO-2022-JP-3では4fでした) ただし、ISO-2022-JPとの互換性のため、1面の指示には「1b 24 42」を使うこともできます。この指示を行った状態では、規格票の附属書2表1(64ページ) および追補1の附属書2表2 (追補1の20ページ)にある文字を使用することはできません〔編注: 表を自作する予定〕。使ってはいけない文字は、JIS X 0208に無い文字、包摂規準が変更された文字が中心です。これらの文字を表すには必ず「1b 24 28 51」の指示を使わなければなりません。また、ISO-2022-JP-3との互換性のため、1面の指示には「1b 24 28 4f」を使うこともできます。このときは、追補1の附属書2表2 (追補1の20ページ)にある文字を使用することはできません。さらに、状態について以下
mhrs 2005/10/12
「2004年改正 (JIS2004) 対応版」

Unicode

JIS X 0213

文字コード
リンク
JIS X 0208 (1990) to Unicode 漢字コード表
unicodeの変換表はユニコードコンソーシアムのものを使用しています JIS X 0208 (1990) to Unicode UTF-8、UTF-16のコードがない文字は実体で表示されていても自分の環境に依存している可能性があります機種に依存しない観点より、ＨＴＭＬでUTF-8、UTF-16のコードがない文字は使用すべきではありません逆にUTF-8、UTF-16のコードがあるのに実体が表示されない場合は（無いと思いますが）SJISでの自分の環境がよほど悪いと考えるべきです JIS X 0208 (1990) to Unicode 漢字コード表区点 JIS SJIS EUC UTF-8 UTF-16 実体(SJIS) 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001 、 01 03 2123 814
mhrs 2005/10/07
漢字表

Unicode

文字コード
リンク
https://piro.sakura.ne.jp/latest/entries/mozilla/xul/2005-09-28_unicode-escape.files/unicode.xul
mhrs 2005/09/30
Unicdeエスケープ(「ほげ」を「\u307b\u3052」に或いはその逆)をするXULアプリケーション。JavaScriptを有效にしたFirefox上で動く。

Unicode

XUL
リンク
【インフォシーク】Infoseek ：楽天が運営するポータルサイト
日頃より楽天のサービスをご利用いただきましてありがとうございます。サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。メンテナンスが終了次第、サービスを復旧いたしますので、今しばらくお待ちいただけますよう、お願い申し上げます。
mhrs 2005/09/17
Unicode

文字コード

漢字
リンク
Unihan Database Lookup
About the Unihan Database Lookup Tool The lookup interface on this page provides online access to property data in the Unicode Han (Unihan) database for individual ideographs via the “Lookup” button and text field above. Simply enter the four- or five-digit hexadecimal code point for the desired ideograph into the text field, or copy and paste the ideograph into it, then click the “Lookup” button.
mhrs 2005/09/15
Unicode

文字コード

漢字
リンク
Conversion tables differ between venders
mhrs 2005/08/29
デッドリンク。新しいURLは http://people.debian.org/~kubota/unicode-symbols-map2.html

リンク切れ

Unicode

文字コード
リンク
http://www.macchiato.com/unicode/charts.html
mhrs 2005/08/22
Unicode

JavaScript
リンク
文字コードの部屋 -- Unicode のエンコーディング
UTF (UCS Transf ormation Format) Unicode を扱うためのエンコーディング法の総称です。 UTF-7 電子メールにおいて Unicode を用いたいときに使います。電子メールは、7 bit 文字が前提の環境で用いられるので、Unicode を UTF-7 によって 7bit 文字にエンコードするのです。エンコード方法： ASCII 文字と、space、タブ文字、CR、LF は直接エンコードします。その他の Unicode 文字は、BASE64 エンコードします。 ASCII文字と、BASE64 エンコードされた Unicode を区別するために、+ と - を使います。 + が現れたら、以後は BASE64 部分。- が現れたら、以後は ASCII 部分。 (特殊ケース : + を文字として使いたいときは、+- と書きます。) Table 1: The
mhrs 2005/08/19
Unicode

文字コード
リンク
Mule-UCSに関するユニコード定義
Mule-UCS（Universal enCoding System）に関するユニコード定義 APIと構成についての説明書訳注：これは，宮下尚氏の開発したMule-UCS-0.72パッケージのREADME.Unicode（1999年11月10日改訂版）を私（岸　和孝）が訳したものです。なお，便宜上，見出しの項目番号は付け直しました。許可 Mule-UCSは，自由なソフトウェアです。あなたは，バージョン2または（あなたの選択において）それより後のバージョンの，Free Software Foundationによって発表されるものとしてGNU General Public Licenseの条件の下でそれを再分配・変更できます。あなたはMule-UCSと共にGNU General Public Licenseのコピーを受けるべきです。ファイルCOPYINGを参照してください。コピー
mhrs 2005/07/25
emacs

Unicode

文字コード
リンク
使いこなそうユニコード
UCSとUTFとは？ [2003-11-11] Unicode正規化とは [2008-01-14] Unicodeに関するメモ [2002-06-15] JIS X 0213とUCS/Unicodeとの対応について [2006-12-30] Unicode文字の表示例 (Unicode 4.1.0) [2005-04-23] JIS/SHIFTJISとWINDOWS/CP932との相違 [2001-07-08] JIS X 0208とUnicodeとの対応表/ZIP版 [2002-06-01] Shift_JIS-2004 (JIS X 0213:2004)とUnicode 3.2.0の対応表/ZIP版 [2007-01-03] [同じくShift_JIS-2004 (JIS X 0213:2004)とUnicode 3.2.0の対応表/非圧縮テキスト] ・JIS X 0213:2000
mhrs 2005/07/25
Unicode

文字コード
リンク
UCS-2とUTF-8
最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例
mhrs 2005/07/25
Unicode

文字コード
リンク
Unicode正規化
正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ
mhrs 2005/07/07
Unicode

文字コード
リンク
ローマ数字の逆襲
ローマ数字の悲劇扨、『ローマ式記数法で書かれたアルファベットによるローマ数字』などと回りくどい表現を使いましたが、個人的にはローマ数字をアルファベットで表現する方法を、間違いであると切り捨てることが出来ません。【Weblog(2003/10) - Web Studio】には、以下のようなことも書かれています。ところで、ローマ数字は機種依存文字なのでアルファベットで代用すれば良いと主張しているページもたまに見かけますが、これは間違いです。例えばローマ数字でⅢと書けば、音声ブラウザはさんとかスリーとか読み上げることができます(実情は知りません)。しかし、アルファベットで代用してIIIと書くと、あい、あい、あいとなってしまいます。また、検索エンジンでも3と三と３とⅢと③などを同一の文字と見なした検索も可能でしょうが、これにIIIを含めるかどうかは難しいところでは無いかと思います (技
mhrs 2005/06/26
Unicode

文字コード
リンク
JIS-Unicode間の変換表の選択について
背景多言語対応アプリケーションでは、文字列を扱う場合に内部でUnicodeを用いることが一般的に行われています。しかし、ファイルとして保存する場合や、ネットワークを通す場合には、ISO-2022-JP・EUC-JP・シフトJISが使われるため、入出力の段階で変換する必要があります。特定のプラットフォームを対象としたアプリケーションの場合は、プラットフォームの変換モジュールを利用できますが、クロスプラットフォームのアプリケーションのために、言語処理系やアプリケーション自身が、Unicodeと既存のエンコーディングとの変換モジュールを持つことが多くなっています。シフトJISなどのエンコーディングは、 JIS X 0201 や JIS X 0208 などの文字集合を元にしていますが、これらの文字集合とUnicodeとの対応は、規格として厳密には定まっていないため、実装ごとに変換表が違っていま
mhrs 2005/06/05
Unicode

文字コード
リンク
波ダッシュはチルダではない
コード変換において、JIS X 0208/0213の波ダッシュ「〜」(1面1区33点、シフトJISでは8160)をUnicodeの「FULLWIDTH TILDE」(U+FF5E)にうつす実装は不適切である。適切な変換先はWAVE DASH (U+301C)である。以下に理由を述べる。 JISの規格では「〜」は「波ダッシュ」と記述されており、文字名称は WAVE DASHと規定されている。よってUnicodeのWAVE DASHに対応すると考えるのが妥当。UnicodeのもとになったJIS X 0208-1990においてもやはり「波ダッシュ」であった。チルダではない。区点の並びからも、ダッシュやハイフンのような一般の記述記号の中にあり、チルダが属すべきダイアクリティカルマークとは離れている。 Unicode仕様書のWAVE DASHの説明には「JIS punctuation」
mhrs 2005/06/05
Unicodeへの變換に纏はる問題。

Unicode

文字コード
リンク
ほら貝：文字コード
B案には 680 x 96（JIS風にいうと、680区96点）のB-1案と、256 x 256（256区256点）のB-2案がありました。いずれも制御文字、アルファベット等の非漢字、JIS X 0208の漢字部分、GB2312の漢字部分、9216字（= 96 x 96）分の保留領域４つ、最後に外字領域という構成です。ISO 2022を無視して16bitのスペースをフルに使っていますから、A案の倍近い文字が収録可能です。 B-1案の 680 x 96は半端な構造のように見えますが、運用実績のあるJIS X 0208とGB2312は 94 x 94の配列でできていましたし、提案の年に制定されるKSC5601は 96 x 96だったので、横を 96列とすると国内コードと国際コードの相互変換が簡単になるのです。投票では、圧倒的多数でISO 2022系の既存文字コードとの互換性を維持したA案が支持
mhrs 2005/05/13
Unicode

文字コード
リンク
機種依存文字とUnicode - WebStudio
導入機種依存文字と呼ばれる文字があります。例えばWindowsでは、大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、丸囲み文字(㊤㊥㊦㊧㊨)、カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、単位記号(㎝㎏㎡)、複数のアルファベットを合成した文字(㏍℡№)、元号(㍻㍼㍽㍾)、会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。機種依存文字は一般的に、異機種間でデータの交換を行った場合、例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。しかし、これらは機種依存文字と呼ばれているものの、その意味はあ
mhrs 2005/05/10
「機種依存文字は何故文字化けするのか?」、「機種依存文字という名称は適切ではない」他。

Unicode

文字コード
リンク
従来の文字コードとUnicodeの対応に関する諸問題
最終更新: 1998.12.20 目次はじめに似た文字旧JISと新JIS ベンダー固有文字「全角」「半角」 ASCIIとJIS X 0201ローマ文字おわりに余談 1. はじめに ISO/IEC 10646とUnicode(以下Unicode)は、いろいろと論議をかもしてきましたが、すでにいろいろなところで陰に陽に使われるようになってきました。 Windows NTの内部コードがUnicodeであるのはよく知られています。 BeOSでは、内部だけでなく全面的にUnicodeが使われています。また、Javaのchar型もUnicodeです。しかし、とくに入出力においては、当分は従来の文字コードと共存することになります。すなわち、意識するしないに関わらず、Unicodeと従来コードの変換が頻繁に行われます。変換といっても、Unicodeコンソーシアムが提供しているテーブル
mhrs 2005/05/08
Unicode

文字コード
リンク
Problems on Interoperativity between Unicode and CJK Local Encodings
Japanese page Probl ems on Interoperativity between Unicode and CJK Local Encodings This page describes probl ems related to convertion between Unicode and national CJK encodings, mainly with non-letter symbols. Note about encoding and coded character set: JIS X 0201, JIS X 0208, JIS X 0212 are Coded Character Sets (CCS). EUC-JP, Shift_JIS, ISO-2022-JP are Encoding or Character Encoding Schemes (CE
mhrs 2005/05/08
※リンク切れ。新しいURLは http://people.debian.org/~kubota/unicode-symbols.html

リンク切れ

Unicode

文字コード
リンク
前のページ 1 2