タグ

Unicodeに関するmhrsのブックマーク (40)

  • Manpage of UTF-8

    Section: Linux Programmer's Manual (7) Updated: 2001-05-11 Index JM Home Page roff page 名前 UTF-8 - ASCII と互換性のある多バイト Unicode の符号化 説明 ユニコード (Unicode) 3.0 文字集合は 16 ビットのコード空間を占める。 最も単純な Unicode の符号化方法 (UCS-2) では、文字は 16 ビット・ワード (16 ビット文字の列) で構成される。 この列には、 aq\0aq や aq/aq のような (ファイル名や C のライブラリ関数の引き数の内部で) 特殊な意味を持つ 16 ビット文字が含まれることがある。 さらに、ほとんどの Unix ツールは ASCII ファイルを入力として期待するので、 大幅な変更なしには 16 ビットワードを文字として読む

  • JIS X 0213 (JIS2004) の代表的な符号化方式

    (1面の終端バイト51は、この規格の2000年版のISO-2022-JP-3では4fでした) ただし、ISO-2022-JPとの互換性のため、1面の指示には「1b 24 42」を使 うこともできます。この指示を行った状態では、規格票の附属書2表1(64ペー ジ) および追補1の附属書2表2 (追補1の20ページ)にある文字を使用することはできません〔編注: 表を自作する予定〕。使っ てはいけない文字は、JIS X 0208に無い文字、包摂規準が変更された文字が中 心です。これらの文字を表すには必ず「1b 24 28 51」の指示を使わなければ なりません。 また、ISO-2022-JP-3との互換性のため、1面の指示には「1b 24 28 4f」を 使うこともできます。このときは、追補1の附属書2表2 (追補1の20ページ)に ある文字を使用することはできません。 さらに、状態について以下

    mhrs
    mhrs 2005/10/12
    「2004年改正 (JIS2004) 対応版」
  • JIS X 0208 (1990) to Unicode 漢字コード表

    unicodeの変換表はユニコードコンソーシアムのものを使用しています JIS X 0208 (1990) to Unicode UTF-8、UTF-16のコードがない文字は実体で表示されていても自分の環境に依存している可能性があります 機種に依存しない観点より、HTMLでUTF-8、UTF-16のコードがない文字は使用すべきではありません 逆にUTF-8、UTF-16のコードがあるのに実体が表示されない場合は(無いと思いますが)SJISでの自分の環境がよほど悪いと考えるべきです JIS X 0208 (1990) to Unicode 漢字コード表 区 点 JIS SJIS EUC UTF-8 UTF-16 実体(SJIS) 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001 、 01 03 2123 814

  • https://piro.sakura.ne.jp/latest/entries/mozilla/xul/2005-09-28_unicode-escape.files/unicode.xul

    mhrs
    mhrs 2005/09/30
    Unicdeエスケープ(「ほげ」を「\u307b\u3052」に或いはその逆)をするXULアプリケーション。JavaScriptを有效にしたFirefox上で動く。
  • 【インフォシーク】Infoseek : 楽天が運営するポータルサイト

    日頃より楽天のサービスをご利用いただきましてありがとうございます。 サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。 お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。 メンテナンスが終了次第、サービスを復旧いたしますので、 今しばらくお待ちいただけますよう、お願い申し上げます。

  • Unihan Database Lookup

    About the Unihan Database Lookup Tool The lookup interface on this page provides online access to property data in the Unicode Han (Unihan) database for individual ideographs via the “Lookup” button and text field above. Simply enter the four- or five-digit hexadecimal code point for the desired ideograph into the text field, or copy and paste the ideograph into it, then click the “Lookup” button.

  • Conversion tables differ between venders

  • http://www.macchiato.com/unicode/charts.html

  • 文字コードの部屋 -- Unicode のエンコーディング

    UTF (UCS Transformation Format) Unicode を扱うためのエンコーディング法の総称です。 UTF-7 電子メールにおいて Unicode を用いたいときに使います。電子メールは、7 bit 文字が前提の環境で用いられるので、Unicode を UTF-7 によって 7bit 文字にエンコードするのです。 エンコード方法: ASCII 文字と、space、タブ文字、CR、LF は直接エンコードします。 その他の Unicode 文字は、BASE64 エンコードします。 ASCII文字と、BASE64 エンコードされた Unicode を区別するために、+ と - を使います。 + が現れたら、以後は BASE64 部分。- が現れたら、以後は ASCII 部分。 (特殊ケース : + を文字として使いたいときは、+- と書きます。) Table 1: The

  • Mule-UCSに関するユニコード定義

    Mule-UCS(Universal enCoding System)に関するユニコード定義 APIと構成についての説明書 訳注:これは,宮下尚氏の開発したMule-UCS-0.72パッケージのREADME.Unicode(1999年11月10日改訂版)を私(岸 和孝)が訳したものです。なお,便宜上,見出しの項目番号は付け直しました。 許可 Mule-UCSは,自由なソフトウェアです。 あなたは,バージョン2または(あなたの選択において)それより後のバージョンの,Free Software Foundationによって発表されるものとしてGNU General Public Licenseの条件の下でそれを再分配・変更できます。 あなたはMule-UCSと共にGNU General Public Licenseのコピーを受けるべきです。 ファイルCOPYINGを参照してください。 コピー

  • 使いこなそうユニコード

    UCSとUTFとは? [2003-11-11] Unicode正規化とは [2008-01-14] Unicodeに関するメモ [2002-06-15] JIS X 0213とUCS/Unicodeとの対応について [2006-12-30] Unicode文字の表示例 (Unicode 4.1.0) [2005-04-23] JIS/SHIFTJISとWINDOWS/CP932との相違 [2001-07-08] JIS X 0208とUnicodeとの対応表/ZIP版 [2002-06-01] Shift_JIS-2004 (JIS X 0213:2004)とUnicode 3.2.0の対応表/ZIP版 [2007-01-03] [同じくShift_JIS-2004 (JIS X 0213:2004)とUnicode 3.2.0の対応表/非圧縮テキスト] ・JIS X 0213:2000

  • UCS-2とUTF-8

    最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき,文字コードの方式が2種類,あるいはそれ以上あることに気が付かれるかもしれません。例えば,一つはUnicodeとあるのに対し,もう一つはUnicode (UTF-8)と表記されているかもしれません。この2つは,また,その違いは何でしょうか(前者はUTF-16の一形態なのですが…)。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット,ISO-10846-1は,16ビット(16桁の二進数)でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets,「2つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット(8桁の二進数)のことです。 ユニコードの特定の文字は,例

  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

  • ローマ数字の逆襲

    ローマ数字の悲劇 扨、『ローマ式記数法で書かれたアルファベットによるローマ数字』などと回りくどい表現を使いましたが、個人的にはローマ数字をアルファベットで表現する方法を、間違いであると切り捨てることが出来ません。【Weblog(2003/10) - Web Studio】には、以下のようなことも書かれています。 ところで、ローマ数字は機種依存文字なのでアルファベットで代用すれば良いと主張しているページもたまに見かけますが、これは間違いです。 例えばローマ数字でⅢと書けば、音声ブラウザはさんとかスリーとか読み上げることができます(実情は知りません)。 しかし、アルファベットで代用してIIIと書くと、あい、あい、あいとなってしまいます。 また、検索エンジンでも3と三と3とⅢと③などを同一の文字と見なした検索も可能でしょうが、 これにIIIを含めるかどうかは難しいところでは無いかと思います (技

  • JIS-Unicode間の変換表の選択について

    背景 多言語対応アプリケーションでは、文字列を扱う場合に内部でUnicodeを用いることが一般的に行われています。しかし、ファイルとして保存する場合や、ネットワークを通す場合には、ISO-2022-JP・EUC-JP・シフトJISが使われるため、入出力の段階で変換する必要があります。特定のプラットフォームを対象としたアプリケーションの場合は、プラットフォームの変換モジュールを利用できますが、クロスプラットフォームのアプリケーションのために、言語処理系やアプリケーション自身が、Unicodeと既存のエンコーディングとの変換モジュールを持つことが多くなっています。 シフトJISなどのエンコーディングは、 JIS X 0201 や JIS X 0208 などの文字集合を元にしていますが、これらの文字集合とUnicodeとの対応は、規格として厳密には定まっていないため、実装ごとに変換表が違っていま

  • 波ダッシュはチルダではない

    コード変換において、JIS X 0208/0213の波ダッシュ「〜」(1面1区33点、 シフトJISでは8160)をUnicodeの「FULLWIDTH TILDE」(U+FF5E)にうつす実装は 不適切である。適切な変換先はWAVE DASH (U+301C)である。以下に理由を述べ る。 JISの規格では「〜」は「波ダッシュ」と記述されており、文字名称は WAVE DASHと規定されている。よってUnicodeのWAVE DASHに対応すると考える のが妥当。UnicodeのもとになったJIS X 0208-1990においてもやはり「波ダッ シュ」であった。チルダではない。 区点の並びからも、ダッシュやハイフンのような一般の記述記号の中にあ り、チルダが属すべきダイアクリティカルマークとは離れている。 Unicode仕様書のWAVE DASHの説明には「JIS punctuation」

    mhrs
    mhrs 2005/06/05
    Unicodeへの變換に纏はる問題。
  • ほら貝:文字コード

    B案には 680 x 96(JIS風にいうと、680区96点)のB-1案と、256 x 256(256区256点)のB-2案がありました。いずれも制御文字、アルファベット等の非漢字、JIS X 0208の漢字部分、GB2312の漢字部分、9216字(= 96 x 96)分の保留領域4つ、最後に外字領域という構成です。ISO 2022を無視して16bitのスペースをフルに使っていますから、A案の倍近い文字が収録可能です。 B-1案の 680 x 96は半端な構造のように見えますが、運用実績のあるJIS X 0208とGB2312は 94 x 94の配列でできていましたし、提案の年に制定されるKSC5601は 96 x 96だったので、横を 96列とすると国内コードと国際コードの相互変換が簡単になるのです。 投票では、圧倒的多数でISO 2022系の既存文字コードとの互換性を維持したA案が支持

  • 機種依存文字とUnicode - WebStudio

    導入 機種依存文字と呼ばれる文字があります。 例えばWindowsでは、 大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、 小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、 丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、 丸囲み文字(㊤㊥㊦㊧㊨)、 カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、 単位記号(㎝㎏㎡)、 複数のアルファベットを合成した文字(㏍℡№)、 元号(㍻㍼㍽㍾)、 会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。 機種依存文字は一般的に、異機種間でデータの交換を行った場合、 例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、 これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。 しかし、これらは機種依存文字と呼ばれているものの、 その意味はあ

    mhrs
    mhrs 2005/05/10
    「機種依存文字は何故文字化けするのか?」、「機種依存文字という名称は適切ではない」他。
  • 従来の文字コードとUnicodeの対応に関する諸問題

    最終更新: 1998.12.20 目次 はじめに 似た文字 旧JISと新JIS ベンダー固有文字 「全角」「半角」 ASCIIとJIS X 0201ローマ文字 おわりに 余談 1. はじめに ISO/IEC 10646とUnicode(以下Unicode)は、いろいろと論議をかもしてきましたが、 すでにいろいろなところで陰に陽に使われるようになってきました。 Windows NTの内部コードがUnicodeであるのはよく知られています。 BeOSでは、内部だけでなく全面的にUnicodeが使われています。 また、Javaのchar型もUnicodeです。 しかし、とくに入出力においては、当分は従来の文字コードと共存することになります。 すなわち、意識するしないに関わらず、Unicodeと従来コードの変換が頻繁に行われます。 変換といっても、Unicodeコンソーシアムが提供しているテーブル

  • Problems on Interoperativity between Unicode and CJK Local Encodings

    Japanese page Problems on Interoperativity between Unicode and CJK Local Encodings This page describes problems related to convertion between Unicode and national CJK encodings, mainly with non-letter symbols. Note about encoding and coded character set: JIS X 0201, JIS X 0208, JIS X 0212 are Coded Character Sets (CCS). EUC-JP, Shift_JIS, ISO-2022-JP are Encoding or Character Encoding Schemes (CE