タグ

ブックマーク / www.asahi-net.or.jp/~wq6k-yn (16)

  • 文字コードについてのメモ

    JIS X 0213のあまり代表的でないかもしれない符号化方式 (2009/2) 「符号化文字集合 coded character set」という語の定義 MeadowでJIS X 0213を使う (2001/05) 波ダッシュはチルダではない (2001/03) 新JIS漢字リンク集 (2000/12) JIS X 0213の代表的な符号化方式 (2000/11) SKKでJIS X 0213を使う (2000/09) エスケープシーケンスの表。主に日語用。 そのHTML版 (2000/08) 新JIS漢字実践情報 (2000/04) (新)JIS漢字の横線を使いこなす (2000/03/27) JIS漢字とUCSの文字の対応について ウェブページを「EUC」で符号化することにつ いて 矢野啓介 <yano{AT}moon{DOT}email{DOT}ne{DOT}jp> ({AT}

  • JIS漢字とUCS (Unicode)の文字の対応・変換について

    セント記号 JIS漢字のセント記号(¢)はCENT SIGNである。対応するUCSのコードポイン トはU+00A2である。 ところが、これをUCSのFULLWIDTH CENT SIGNに変換するものがある。ASCII にもJIS X 0201にもセント記号はないので、これが「FULLWIDTH」になる理由 はない。従ってこの変換は不適切である。 ポンド記号 JIS漢字のポンド記号(£)はPOUND SIGNである。対応するUCSのコードポ イントはU+00A3である。 ところが、これをUCSのFULLWIDTH POUND SIGNに変換するものがある。 ASCIIにもJIS X 0201にもポンド記号はないので、これが「FULLWIDTH」になる 理由はない。従ってこの変換は不適切である。 否定記号 JIS漢字の否定記号(¬)はNOT SIGNである。対応するUCSのコードポイント は

  • ウェブページを「EUC」で符号化することについて

    ここでは、ウェブで公開する文書の文字コードについての私の方針につい て説明する。以下の記述は近い将来、「新JIS漢字」規格の制定・ 普及に伴って変更される可能性が高い。 私がウェブで公開する日HTML文書の文字コードを次のようにすること にした。HTML文書だけでなく、CSSスタイルシートやXML文書等も(日文字を 含む場合には)同様の符号化を行う予定である。 JIS X 0208:1997で規定される「国際基準版・漢字用8ビット符号」(規 格の7.2.2、『JIS漢字字典』横組みpp.245-246)によって符号化する。 ウェブサーバから文書を送信する際、HTTP応答ヘッダのcharsetパラメー タで“EUC-JP”を指定する。 今後公開するページはこの方針を採るが、既存のページで他の文字コード によって符号化されているものについては、ある時期に一斉にコードを切り替 えることはし

    mhrs
    mhrs 2006/08/13
  • 「符号化文字集合 coded character set」という語の定義

    「符号化文字集合」(coded character set)という語は、大まかに文字コー ド (コード系、コードセット) に対応する用語である。 だが、この用語には大別して2系統の定義がある。ひとつはISO (および JIS) での定義、もうひとつはIETF系統の定義である。 ISO/JIS系統の定義 ISO/JIS系統の規格では、概略「文字の集合を定義し、その集合内の各文字に ビット組合わせを対応付けたもの」という定義がなされている。 例えば、ISO/IEC 8859-1:1998 (いわゆるISOラテン1) では、“coded character set”の定義として以下のように記されている。 coded character set; code: A set of unambiguous rules that establishes a character set and the on

    mhrs
    mhrs 2006/08/11
  • SKKでJIS X 0213を使う

    Emacs上の仮名漢字変換プログラムSKKでJIS X 0213 (JIS第三・第四水準)の文字を入力する方法を説明します。SKK自体に手を加え ることなく実現でき、とても簡単です。 Emacsの準備 既にEmacs上でJIS X 0213のテキストを編集できている方は、この節はとば して結構です。 EmacsでJIS X 0213を使うには以下のものが必要です。 Emacs 20.6以上 (Windows上のMeadowならバージョン 1.13b1以降) JIS X 0213のBDFフォント Mule-UCSに含ま れるJIS X 0213サポート (多く出回っているバージョンはJIS X 0213:2000に 対応したものですが、JIS X 0213:2004に対応したものも非公式版 として用意されています) なお、Emacs 23ではJIS X 0213が正式にサポートされるそうです

  • MeadowでJIS X 0213を使う

    MeadowはWindowsで動くGNU Emacsです。Meadow (というかGNU Emacs)は多言語 対応しており、最近制定されたJIS X 0213にも既に対応しています。 Meadow 1.14のリリースでは、設定ファイルにJIS X 0213の設定のサンプル が付いたり、バイトコンパイル済みのMule-UCSが用意されたりと、これまでよ りも導入の敷居が低くなっています。以下では、1.14にあわせて、JIS X 0213 の導入について説明します。これによって、第3・第4水準漢字や、丸付き数字、 拡張仮名・ラテン文字、各種記号等が使えるようになります。 以下、ディレクトリの区切りは「/」で表します。 用意するもの Meadow 1.14。一次配布元は ftp://ftp.m17n.org/pub/mule/Windows/。 Meadow-1.14-i386-base.ta

  • JIS X 0213 (JIS2004) の代表的な符号化方式

    (1面の終端バイト51は、この規格の2000年版のISO-2022-JP-3では4fでした) ただし、ISO-2022-JPとの互換性のため、1面の指示には「1b 24 42」を使 うこともできます。この指示を行った状態では、規格票の附属書2表1(64ペー ジ) および追補1の附属書2表2 (追補1の20ページ)にある文字を使用することはできません〔編注: 表を自作する予定〕。使っ てはいけない文字は、JIS X 0208に無い文字、包摂規準が変更された文字が中 心です。これらの文字を表すには必ず「1b 24 28 51」の指示を使わなければ なりません。 また、ISO-2022-JP-3との互換性のため、1面の指示には「1b 24 28 4f」を 使うこともできます。このときは、追補1の附属書2表2 (追補1の20ページ)に ある文字を使用することはできません。 さらに、状態について以下

    mhrs
    mhrs 2005/10/12
    「2004年改正 (JIS2004) 対応版」
  • ²£Àþ¤ò»È¤¤¤³¤Ê¤¹

    ¡ÚÃí°Õ: ¤³¤Î¥Ú¡¼¥¸¤ÏEUC-JISX0213¤ÇÉä¹æ²½¤µ¤ì¤Æ¤¤¤Þ¤¹¡£ °ìÉô¤Îµ­¹æ¤¬Ê¸»ú²½¤±¤¹¤ëÊý¤Ï¡¢¤ª»È¤¤¤Î¥Ö¥é¥¦¥¶¤Î¥á¡¼¥«¡¼¤ËEUC-JISX0213¤Ë Âбþ¤¹¤ë¤è¤¦Íê¤ó¤Ç¤¯¤À¤µ¤¤¡£¡Ö¥þ¡×¡Ö¦ú¡×¤³¤ì¤é¤Î»ú¤¬ ¤½¤ì¤¾¤ìȾÂùÅÀÉÕ¤­¤Î¡Ö¥È¡×¤È¾®½ñ¤­¤Î¡Ö¥é¡×¤Ë ¸«¤¨¤Ê¤¤¥Ö¥é¥¦¥¶¤ÏEUC-JISX0213¤ËÂбþ¤·¤Æ¤¤¤Þ¤»¤ó¡£¡Û JIS¤Îʸ»ú¥³¡¼¥Éµ¬³Ê¤Ë¤Ï¡¢²£Àþ¤Î¤è¤¦¤Ê·Á¤Îʸ»ú¡¦µ­¹æ¤¬¤¤¤¯¤Ä¤â¤¢¤ê¤Þ ¤¹¡£¤³¤ì¤é¤ÏÀµ¤·¤¯»È¤¤¤³¤Ê¤»¤Ð¹âÉʰ̤ÊÁÈÈǤò¼Â¸½¤¹¤ë½

    mhrs
    mhrs 2005/08/29
    「文字コード規格(JIS X 0213, JIS X 0208)の横線類」
  • CSSの簡単な使い方

    ここでは、HTMLとともに使われるスタイルシートであるCSS (Cascading Style Sheets) の使い方について簡単に説明します。 CSSの仕様は Cascading Style Sheets, level 1 (CSS1) を参照しています。現時点(1998年1月)でドラフト段階の CSS2には対応していません。 CSSHTMLで使われるスタイルシート言語の一つである HTMLは文書の表示の仕方には基的に関知し ません。HTMLのタグは文書を構成する要素 (elementの訳。 SGML用語) を明示するためのものであり、ア プリケーションプログラムが文書をどう扱うかを決めるものではあ りません。 HTML文書の見栄えを決める仕組みをスタイルシートと呼びます。 CSSHTML文書とともに使うスタイルシート言 語の一つです (言語といってもCSSはプログラミング言語で

    mhrs
    mhrs 2005/08/02
  • 新JIS漢字リンク集

    すぐ導入したい方へのおすすめ JIS X 0213のBDFフォントEmacs, Meadow, Unix系OS等をご使用の方は必見。 新JIS漢字時代の扉 を開こう! (青空文庫による) 議論・情報交換の場 JIS X 0213メーリングリスト。 fj.kanji。 和製漢字の辞典 掲示板。 0213フォント弄り掲示板 フォント ビットマップ BDF、FONTX2等。TrueTypeは別にまとめました。 BDF フォント。X Window System や Meadow (Windows)等で使えます。16ドッ ト、14ドットのものがあり、12ドットも製作中とのこと。1面も2面もそろって います。Windows 98とMeadow (1.13b1)で適当に試した画面サンプ ルもご覧下さい。EUC-JISX0213のファイルを編集しているところ。 JIS X 0213の12ドットBDFフォ

    mhrs
    mhrs 2005/06/15
    「新JIS漢字実践情報( http://www.asahi-net.or.jp/~wq6k-yn/code/zissen.html )のジャンル別リミックス」
  • 波ダッシュはチルダではない

    コード変換において、JIS X 0208/0213の波ダッシュ「〜」(1面1区33点、 シフトJISでは8160)をUnicodeの「FULLWIDTH TILDE」(U+FF5E)にうつす実装は 不適切である。適切な変換先はWAVE DASH (U+301C)である。以下に理由を述べ る。 JISの規格では「〜」は「波ダッシュ」と記述されており、文字名称は WAVE DASHと規定されている。よってUnicodeのWAVE DASHに対応すると考える のが妥当。UnicodeのもとになったJIS X 0208-1990においてもやはり「波ダッ シュ」であった。チルダではない。 区点の並びからも、ダッシュやハイフンのような一般の記述記号の中にあ り、チルダが属すべきダイアクリティカルマークとは離れている。 Unicode仕様書のWAVE DASHの説明には「JIS punctuation」

    mhrs
    mhrs 2005/06/05
    Unicodeへの變換に纏はる問題。
  • HTML文書中の改行文字について

    ここでは、HTML文書を書く際に改行文字をどのように入れれば 良いか、および、ブラウザが改行文字をどう扱う (べき) かを説明 します。 Netscape Navigator 4.xをお使いの方へ: ブラウザのバグのため、以下の文章の一部が正しく整形されず、結果として全 く文意の通じなくなる箇所があるようです。Navigator 4.xにはスタイルシー トに関して非常にバグが多いことが知られています。このブラウザをお使いの 方は、ブラウザの設定でスタイルシートを無効にしてご覧ください。(この件 についてご指摘くださったいしの氏に感謝いたします) 読みやすく改行すれば良い HTML文書の中では――いわゆる「ソース」では――、テキスト ファイルとして読みやすいように適度に改行を入れます。電子メー ルと同じだと考えれば良いでしょう。HTML文書の実体はごく普通の テキストファイルであり、そのこと

    mhrs
    mhrs 2005/06/03
    「および、ブラウザが改行文字をどう扱う (べき) かを説明」
  • 新JIS漢字実践情報

    このページでは「新JIS漢字」(JIS X 0213)を使うことに関する情報を提供 します。JIS X 0213は2000年1月に制定された新しい文字コード規格です。20 年以上の歴史を持ち非常によく普及しているJIS X 0208の拡張となっています。 以下のリストには、新しい情報を先頭に順次追加していきます。手っ取り 早くJIS X 0213を導入したい方はBDFフォント のページや「新JIS漢字時代の扉 を開こう!」をまず見るとよいでしょう。 ジャンル別リンク集 もご利用下さい。 [2005-05-29] 【このページを「文字符号化blog」へ移行】 約5年間このページでJIS X 0213の情報を提供してきましたが、 今後はblog形式に移行して、より詳細な情報をお届けしていく予定です。 文字符号化blogを是非ご購 読ください。このページは現状で凍結し、新たな情報は同blogに書

  • 好ましいHTML文書を書くための方法と考え方

    ここでは、多くの人が快適に情報を得ることのできるウェブページを作るために 必要な考え方と方法について述べてゆきます。 目次 好ましいHTML文書とはどのようなものか 正しい入門 マークアップのポリシー 内容に即したマークアップ ブラウザに依存しないページ マークアップの詳細について 見出し(heading)のレベル <P>の使い方 <IMG>にはALTテキストを適切に付ける アンカーの指定の仕方 <TABLE>をどうしよう タイトルに日語の文字を使ってよいか DOCTYPE宣言を付ける mailto-link フレームは使わない <BLINK>は使わない <!----->、<! comment >、<!-- comment --!> は間違い むやみに強制改行しない HTML文書を検証する 補足編 タグの省略について 誤用される「ホームページ」 参考文献 好ましいHTML文書とはどのよう

  • HTMLのDTDを読んでみよう

    HTMLには厳密な文法規則はない――これは大きな誤解です。特 定のウェブブラウザで綺麗に表示されているからといってそのHTML 文書が正しくタグ付けされているとは限りません。正しくないHTML 文書は別のブラウザで見るとおかしな表示になってしまうことがあ ります。しかし規則に従って適切にタグ付けされた文書はどんなブ ラウザで見ても読みやすく表示されるのです。少なくともブラウザ はそう作られているべきです。 HTMLはSGMLの応用の一つとして定義されていますから、 HTMLのタグ付けの規則について疑問があればDTD (後述)を参照するのが 一番確実です。DTDを読むにはSGMLの知識が必要ですが、 自分でDTDを書くとかならともかく、HTMLの決まりを確かめたくてDTDを 見るだけであればSGMLの全てを知っている必要はありません。この文章では HTMLについてある程度知っている読者を対象

    mhrs
    mhrs 2005/05/08
  • HTMLにおける「段落」をめぐって

    HTMLにおける「段落」をめぐって HTML文書での段落の表現について、混乱し た議論や解説が少なからず見受けられる。この小文では、 HTMLの仕様で定義されるP要素と、日語文の 段落に関したことを扱う。 HTMLではP要素がparagraphを表す HTMLにおいてparagraphを表す要素はP要素であって、それ以 外には無い。これは疑う余地のない事実である。 段落 = paragraph 英語の "paragraph" に対応する日 語は「段落」である、ということにすると何かと都合が良い。ただ し、「段落」は "paragraph" の訳語とし ては必ずしも適当とは言えず、敢えて「段落」と言わずに「パラグ ラフ」という言い方がなされることもある。しかしながら、paragraphの意味で「段落」という言葉を用いる のは一般の国語辞典にも見ることができ、ほかに適当な言葉が見当 たらな

    mhrs
    mhrs 2005/05/08
    「「日本語文の段落はBR」は本当か」等。
  • 1