タグ

文字コードに関するMasayukiのブックマーク (11)

  • 文字コードの基本:ITpro

    コンピュータで文字を取り扱う際,文字コードについて知っておく必要があります。特に日では複数の文字コードが混在して使われる上,プラットフォームによって取り扱う文字の種類も異なることから,状況が複雑になっています。記事では文字を正しく取り扱うための基礎知識について簡単に紹介します。 コンピュータはすべてのデータを数値として取り扱います。文字を取り扱うときも,数値に対応づけて処理します。 例えば,「ようこそITpro」というテキスト・データをWindows XPのメモ帳で作成し,ファイルに保存します。そのファイルをバイナリ・エディタで開くと写真1のような数値が並んでいることが分かります。各文字と数値は表1のように対応づけられています。

    文字コードの基本:ITpro
  • Unicodeは文字集合か符号化方式か : 404 Blog Not Found

    2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か 以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。 文字コード規格の基礎:ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合, 文字の集合 エンコード方法 という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが,ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。 これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。 まずUnic

    Unicodeは文字集合か符号化方式か : 404 Blog Not Found
  • 日本語と文字コード

    コンピュータは主にアメリカで発達してきたため、未だにアルファベットや数字などの1バイト(7/8ビット)を基単位として扱う前提で作られているものが中心です。そのなかで日語のように多くの文字を必要とする言語は、1文字を表わすのに2バイト以上を要するため、いろいろな困難が伴います。特にインターネットを通じて様々な環境の情報を交換するにあたって、思わぬ問題に遭遇するケースが増えてきました。ここでは、こうしたことを考えるために必要な、日語の文字コードに関する基を整理しておきます。 JIS漢字コード(情報交換用符号化漢字集合) 区点コード JISコード(符号化方式) シフトJISコード EUCコード ASCIIとJISローマ字 Unicode 主要コード規格のまとめ 参考文献、リソース 文字化けしたメールの復元 | The Web KANZAKI ホームページ JIS漢字コード(情報交換用符号

    Masayuki
    Masayuki 2007/08/12
    神崎氏のサイトでの解説。
  • Punycodeとは何? わかりやすく解説 Weblio辞書

    出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/19 04:49 UTC 版) Punycode(ピュニコード、プニコード)とは、国際化ドメイン名で使われる文字符号化方式で、RFC 3492 で定義されている。Unicode で書かれた文字列をDNSで使用可能な、アルファベット(大文字小文字を区別しない)、数字、ハイフンのみの文字列に変換する。

  • ウェブマスターのための文字化け講座

    (序論)文字化けの発生メカニズム概論と解析方法 ネスケ4.Xで特定の文字(試・時・事・私など)が文字化けする場合 → document.writeで文字化けする漢字の規則性 → ネットスケープ4.Xのキャッシュ機構 → 2種類の解決方法 CGIで特定の文字(表・予・申・能・ソ・十など)が文字化けする → Shift_JISでCGIを作成する場合の注意点 → PHPで「表\示」「十\和田湖」「申\し込み」などと表示される場合 「(はしご高)」が使えない理由 → Windowsでは表示されるが、Macでは文字化けする文字 → Macでは表示されるが、Windowsでは文字化けする文字 → 機種依存文字チェック・プログラム(Flashフォームなど) 文字化けしないための工夫 → メタタグの指定は有効か? → 「美乳」で文字化けが直るって当? フォントを指定したら文字化けした。 → フォントの指

  • Vistaで化ける字,化けない字(続報)

    前報で述べた通り,マイクロソフトのWindows Vistaでは,文字コードにUnicodeを使いながら,Unicodeとは異なる文字コード規格のJIS X 0213をサポートする,という方式を取っている。というのも,Windows 98日語版以降ずっとサポートしてきたCP932(名はWindows Codepage 932,いわゆるMS 漢字コード)やJIS X 0212を捨てるわけにはいかないので,CP932もJIS X 0212もJIS X 0213もみんなまとめてUnicodeで扱う,というやり方を取らざるをえないのである。 前報では,JIS X 0213の第一水準~第三水準漢字7614字について,Vistaで新たに採用された日フォントセットであるメイリオとXP以前のMSゴシックを見比べ,7614字のうち325字*が,VistaとXP以前との間で文字化けする(ここでは来表

    Vistaで化ける字,化けない字(続報)
  • Vistaで化ける字,化けない字

    11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで,“文字化け”が起こるらしい。文字化けといっても,Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく,その多くは似た文字が表示される程度である。ここでは,来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは,Windows 98日語版の発売以来,Windows 2000,Windows Me,Windows XPまでCP932(名はWindows Codepage 932,いわゆるMS漢字コード)とJIS X 0212をサポートしてきたが,最新のWindows VistaではJIS X 0213に乗り換えた。いや,乗り換えたというのは,ちょっと語弊がある。CP932とJIS X 0212に加えて,JIS X 0213もサ

    Vistaで化ける字,化けない字
  • 文字コード規格の基礎:ITpro

    この記事は,日経ソフトウエア 1999年10月号に掲載したものです。それ以降の情報が盛り込まれていませんので,現在とは異なる場合があります。 文字コード規格の基礎を手早く理解したい場合などにお役立てください。 文字コードは間違いなく情報を交換するための「決まりごと」なので,正確を期すため厳密な仕様が規定されている。だが,その仕様そのものを実装するプログラムを作る場合を除けば,プログラマが仕様の詳細を隅々まで理解している必要はない。六法全書を読んでいなくても問題なく普段の生活ができるようなものだ。 ここでは,通常のプログラミングをするうえで必要と思われる範囲のことを,なるべく簡潔に説明したい。「半角カナ」のような呼び名は正確さを欠くものだが,多くの人に伝わりやすいので説明の中でも使っていく。説明を簡略化するため「正確な仕様を知りたいときは規格書そのものを必ず参照してほしい」と書きたいところだ

    文字コード規格の基礎:ITpro
    Masayuki
    Masayuki 2006/11/27
    古い記事(1999年)だがまとまっているので。
  • 日本語文字セットがVista最大の問題として急浮上

    「どこでどういった問題が起こるのか分からない。まさかデータベースが壊れるということはないと思うが」――。国内大手ベンダーの幹部は不安そうに話す。この幹部が懸念するのは、Windows Vistaで採用された新文字セットの情報システムへの影響である。別の大手ベンダーのシステム構築部門も、「情報システムのクライアントとしてVistaを見た場合、最大の問題は日語の文字セットだ。現在、共通の基盤技術セクションで影響を調査している」という。 企業向けVistaの出荷開始を目前に控え、Vistaの新文字セット採用が大きな問題として浮上してきた。 Windows Vistaは、新しい文字セットに関するJIS規格「JIS X 0213:2004」に準拠した日フォントを標準で搭載する。これにより、既存の漢字のうち122文字の字形が変更になり、約900文字の漢字、約200文字の非漢字(英語の発音記号や記

    日本語文字セットがVista最大の問題として急浮上
  • Windows Vistaで追加された文字の利用にはご注意

    図2●Windows Vistaで字形が追加された文字の例。字体の変更ではなく文字の追加なので,同じフォントのまま2つの字体を同時に利用できるのは一見便利なようだが,検索性などの面では不便だ。Windows VistaのMS-IMEでは,「環境依存文字」と表示される 図3●Windows Vistaで追加された文字を使った文書をWindows XPで開いたときの例。中央のVMware Workstation上で動作しているのがWindows Vista。その文書をWindows XPで開いたのが左上のメモ帳。「叱」の正字が「・」になる。だが,「剥」の正字は正しく表示される。ただし,ゴシック体に変更しても明朝体で表示される 既に報道されているとおり,Windows Vistaでは,日語の扱いについて大きく2つの変更がある。1つは,一部の文字について形(字形)が変わること。もう1つは,利用で

    Windows Vistaで追加された文字の利用にはご注意
  • Perl Script Laboratory

    ログ last updated on 新着情報リスト フォームデコードサービスV2 郵便番号検索 文字コードチェック サポート掲示板 PSLブログ このサイトについて トップページのアイコンたち サポートについて プライバシーポリシー 著作権表示の削除をしたい方へ お問い合わせ/依頼/申請窓口 フリープログラム利用規約 設置代行等に関する規約 登録事業者リスト 特商法に基づく表示 設置代行サービス カスタマイズサービス オーダーメイドサービス 手数料・設定項目一覧表 CGI・SSIの基礎の基礎 読むとためになるの紹介(3) 読むとためになるの紹介(4) CGI環境変数 UNIXの基礎の基礎 基認証の方法 ASCIIコード一覧表 文字化けする文字一覧表 "^"(0x5e)を含む文字一覧表 "|"(0x7c)を含む文字一覧表 SMTP応答コード一覧表 アクセスカウンタ アクセス統計版 v

    Masayuki
    Masayuki 2006/01/07
    データのセパレータとして「|(0x7C)」を使うとエラーになるという話。
  • 1