[B! 文字コード] Masayukiのブックマーク

文字コードの基本：ITpro

コンピュータで文字を取り扱う際，文字コードについて知っておく必要があります。特に日本では複数の文字コードが混在して使われる上，プラットフォームによって取り扱う文字の種類も異なることから，状況が複雑になっています。本記事では文字を正しく取り扱うための基礎知識について簡単に紹介します。コンピュータはすべてのデータを数値として取り扱います。文字を取り扱うときも，数値に対応づけて処理します。例えば，「ようこそITpro」というテキスト・データをWindows XPのメモ帳で作成し，ファイルに保存します。そのファイルをバイナリ・エディタで開くと写真1のような数値が並んでいることが分かります。各文字と数値は表1のように対応づけられています。

Masayuki 2007/12/30

文字コード

リンク

Unicodeは文字集合か符号化方式か : 404 Blog Not Found

2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。文字コード規格の基礎：ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合，文字の集合エンコード方法という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが，ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。まずUnic

Masayuki 2007/08/12

リンク

日本語と文字コード

コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト（7/8ビット）を基本単位として扱う前提で作られているものが中心です。そのなかで日本語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日本語の文字コードに関する基本を整理しておきます。 JIS漢字コード（情報交換用符号化漢字集合）区点コード JISコード（符号化方式）シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ参考文献、リソース文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード（情報交換用符号

Masayuki 2007/08/12

神崎氏のサイトでの解説。

リンク

Punycodeとは何？わかりやすく解説 Weblio辞書

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/03/19 04:49 UTC 版) Punycode（ピュニコード、プニコード）とは、国際化ドメイン名で使われる文字符号化方式で、RFC 3492 で定義されている。Unicode で書かれた文字列をDNSで使用可能な、アルファベット（大文字小文字を区別しない）、数字、ハイフンのみの文字列に変換する。

Masayuki 2007/08/12

リンク

ウェブマスターのための文字化け講座

（序論）文字化けの発生メカニズム概論と解析方法ネスケ4.Xで特定の文字（試・時・事・私など）が文字化けする場合 → document.writeで文字化けする漢字の規則性 → ネットスケープ4.Xのキャッシュ機構 → ２種類の解決方法ＣＧＩで特定の文字（表・予・申・能・ソ・十など）が文字化けする → Shift_JISでCGIを作成する場合の注意点 → PHPで「表\示」「十\和田湖」「申\し込み」などと表示される場合「（はしご高）」が使えない理由 → Windowsでは表示されるが、Macでは文字化けする文字 → Macでは表示されるが、Windowsでは文字化けする文字 → 機種依存文字チェック・プログラム（Flashフォームなど）文字化けしないための工夫 → メタタグの指定は有効か？ → 「美乳」で文字化けが直るって本当？フォントを指定したら文字化けした。 → フォントの指

Masayuki 2007/08/12

文字コード

リンク

Vistaで化ける字，化けない字（続報）

前報で述べた通り，マイクロソフトのWindows Vistaでは，文字コードにUnicodeを使いながら，Unicodeとは異なる文字コード規格のJIS X 0213をサポートする，という方式を取っている。というのも，Windows 98日本語版以降ずっとサポートしてきたCP932（本名はWindows Codepage 932，いわゆるMS 漢字コード）やJIS X 0212を捨てるわけにはいかないので，CP932もJIS X 0212もJIS X 0213もみんなまとめてUnicodeで扱う，というやり方を取らざるをえないのである。前報では，JIS X 0213の第一水準～第三水準漢字7614字について，Vistaで新たに採用された日本語フォントセットであるメイリオとXP以前のMSゴシックを見比べ，7614字のうち325字*が，VistaとXP以前との間で文字化けする（ここでは本来表

Masayuki 2007/02/24

リンク

Vistaで化ける字，化けない字

11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで，“文字化け”が起こるらしい。文字化けといっても，Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく，その多くは似た文字が表示される程度である。ここでは，本来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは，Windows 98日本語版の発売以来，Windows 2000，Windows Me，Windows XPまでCP932（本名はWindows Codepage 932，いわゆるMS漢字コード）とJIS X 0212をサポートしてきたが，最新のWindows VistaではJIS X 0213に乗り換えた。いや，乗り換えたというのは，ちょっと語弊がある。CP932とJIS X 0212に加えて，JIS X 0213もサ

Masayuki 2007/02/24

リンク

文字コード規格の基礎：ITpro

この記事は，日経ソフトウエア 1999年10月号に掲載したものです。それ以降の情報が盛り込まれていませんので，現在とは異なる場合があります。文字コード規格の基礎を手早く理解したい場合などにお役立てください。文字コードは間違いなく情報を交換するための「決まりごと」なので，正確を期すため厳密な仕様が規定されている。だが，その仕様そのものを実装するプログラムを作る場合を除けば，プログラマが仕様の詳細を隅々まで理解している必要はない。六法全書を読んでいなくても問題なく普段の生活ができるようなものだ。ここでは，通常のプログラミングをするうえで必要と思われる範囲のことを，なるべく簡潔に説明したい。「半角カナ」のような呼び名は正確さを欠くものだが，多くの人に伝わりやすいので説明の中でも使っていく。説明を簡略化するため「正確な仕様を知りたいときは規格書そのものを必ず参照してほしい」と書きたいところだ

Masayuki 2006/11/27

古い記事(1999年)だがまとまっているので。

文字コード

リンク

日本語文字セットがVista最大の問題として急浮上

「どこでどういった問題が起こるのか分からない。まさかデータベースが壊れるということはないと思うが」――。国内大手ベンダーの幹部は不安そうに話す。この幹部が懸念するのは、Windows Vistaで採用された新文字セットの情報システムへの影響である。別の大手ベンダーのシステム構築部門も、「情報システムのクライアントとしてVistaを見た場合、最大の問題は日本語の文字セットだ。現在、共通の基盤技術セクションで影響を調査している」という。企業向けVistaの出荷開始を目前に控え、Vistaの新文字セット採用が大きな問題として浮上してきた。 Windows Vistaは、新しい文字セットに関するJIS規格「JIS X 0213:2004」に準拠した日本語フォントを標準で搭載する。これにより、既存の漢字のうち122文字の字形が変更になり、約900文字の漢字、約200文字の非漢字（英語の発音記号や記

Masayuki 2006/11/27

リンク

Windows Vistaで追加された文字の利用にはご注意

図2●Windows Vistaで字形が追加された文字の例。字体の変更ではなく文字の追加なので，同じフォントのまま2つの字体を同時に利用できるのは一見便利なようだが，検索性などの面では不便だ。Windows VistaのMS-IMEでは，「環境依存文字」と表示される図3●Windows Vistaで追加された文字を使った文書をWindows XPで開いたときの例。中央のVMware Workstation上で動作しているのがWindows Vista。その文書をWindows XPで開いたのが左上のメモ帳。「叱」の正字が「・」になる。だが，「剥」の正字は正しく表示される。ただし，ゴシック体に変更しても明朝体で表示される既に報道されているとおり，Windows Vistaでは，日本語の扱いについて大きく2つの変更がある。1つは，一部の文字について形（字形）が変わること。もう1つは，利用で

Masayuki 2006/11/27

リンク

Perl Script Laboratory

ログ last updated on 新着情報リストフォームデコードサービスV2 郵便番号検索文字コードチェックサポート掲示板 PSLブログこのサイトについてトップページのアイコンたちサポートについてプライバシーポリシー著作権表示の削除をしたい方へお問い合わせ/依頼/申請窓口フリープログラム利用規約設置代行等に関する規約登録事業者リスト特商法に基づく表示設置代行サービスカスタマイズサービスオーダーメイドサービス手数料・設定項目一覧表 CGI・SSIの基礎の基礎読むとためになる本の紹介(3) 読むとためになる本の紹介(4) CGI環境変数 UNIXの基礎の基礎基本認証の方法 ASCIIコード一覧表文字化けする文字一覧表 "^"(0x5e)を含む文字一覧表 "|"(0x7c)を含む文字一覧表 SMTP応答コード一覧表アクセスカウンタアクセス統計版 v

Masayuki 2006/01/07

データのセパレータとして「|(0x7C)」を使うとエラーになるという話。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

文字コードに関するMasayukiのブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス