タグ

文字コードに関するmakoto15のブックマーク (92)

  • 【第323回】文字コード【プチ】研究・サロゲートペア早わかり(2) : イジハピ!

    2013年04月10日06:00 【第323回】文字コード【プチ】研究・サロゲートペア早わかり(2) カテゴリ文字コード【プチ】研究 query1000 Comment(0)Trackback(0) 昨日の続き。 ていうか、さっそく自分で間違いを見つけてしまった。 昨日こう書いた。 216(もともとのBMP) +1,0242(サロゲートペアで増えた分) -2,048(サロゲートで使う分) だから、1,112,064コードポイントが使用可能である。 1,112,064は16進数で10F800であるから、UCS-4で言うと1群16面までしか入らない。 上の文だと、Unicodeで使える最大のコードポイントはU+10F800であるように読めるが、最大のコードポイントはU+10FFFFである。 (16面で最大の文字はU+10FFFFである。) U+0000からU+10FFFFまで使えるんだったら1

    【第323回】文字コード【プチ】研究・サロゲートペア早わかり(2) : イジハピ!
  • 【第322回】文字コード【プチ】研究・サロゲートペア早わかり(1) : イジハピ!

    2013年04月09日06:00 【第322回】文字コード【プチ】研究・サロゲートペア早わかり(1) カテゴリ文字コード【プチ】研究 query1000 Comment(0)Trackback(0) 先日も「IVS飲み会」(なにそれ!)に潜入した話を紹介したが、書籍『Unicode IVS/IVD入門』に対するNAOIさんの苛烈なツッコミの成果が、ブログ記事にまとまった。 『Unicode IVS/IVD入門』へのツッコミ(Mac OS Xの文字コード問題に関するメモ) こんな豪華な正誤表が無料で読めるなんて、まことにありがたい。 ツッコまれまくっているはそれだけ愛されているわけで、やはり間違いが多いの著者としてはねたましい限りである。 さて、上記のブログにも書かれているが、Unicodeと言えば有名な「サロゲートペア」についてここでちょっと復習する。 もともとUnicodeは、16ビ

  • 文字コード変換ミスによる文字化けパターンと想定される原因 - drk7jp

    とあるシステムでデータベースから引いてきたデータの表示が文字化けするという不具合がありました。 データベース内のデータとしては文字化けしていない状態で格納されていることはわかっていたので、どこかしらの文字変換で化けていることはわかっています。まずはどの誤変換により文字化けするのか原因切り分けのために、decode/encode の組み合わせによる文字化けパターン一覧を作りました。おかげさまでどのパターンに類するものか判別することができ、無事に改修することができました。 その話はまた別にするとして、今も昔も変わらず文字化けに悩む人は意外と多いと思います。誤変換結果一覧は原因解析の参考になると思い、記事としてまとめることにしました。 文字コード変換ミスによる文字化けパターンを可視化するプログラムと一覧表 まずは誤変換を生成する perl スクリプトです。プログラムはとっても簡単で、「文字化けで

  • 文字コードチェッカー

    テキスト,xml,htmlファイルを選択してください(複数選択可能)。文字コードはUTF-8のみ有効です アップロードされたテキストの使用文字を集計して文字コードを表示します。CSVでダウンロードもできます。 使用文字の範囲や意図しない文字が含まれていないか等のチェックにご利用ください。 ※サーバに送信されたファイルはその場で破棄されます。集計情報はログとして保存されます。 以下表示サンプル

  • Unicode文字コード表

    ブラウザでの文字コードの表示を確認するためのコード表です。 文字が正しく表示されているかどうかは、閲覧環境のフォントに依存します。花園明朝、IPAmj明朝、源ノ角はPCにインストールされている必要があります。 フォントを指定していても、フォールバックで別フォントで表示されている場合があります。 JIS X 0208(第1,2水準漢字含む) JIS X 0213(第3,4水準漢字含む) Adobe-Japan1-6(UniJISX02132004-UTF32マッピング)固有。上段の数字はcidコード。カッコ内は0-6の範囲。 (JIS-UCSのコード変換はこちらのデータを利用させていただきました。) (IPAフォントのWebフォントは、ボイジャー社のBinBサイトで配布されているものを利用させていただいています。)

    Unicode文字コード表
  • ivs

    IVSとは? IVSは何故必要か? 今まで「外字」を使って表示していた異体字をIVSを使って表示できます。 ※IVS(Ideographic Variation Sequence):「基礎知識」で解説します。 例えば、「つじ くに男」というお名前の場合、名字と名前の文字の違いの組み合わせだけで8種類の違いがでてきます。 どの組み合わせかの区別を、今までは、「外字」を使って区別していました。 しかし、IVSを導入すれば、プレーンテキスト文章でも区別ができます。 IVS文字 表示デモ動画 MacintoshおよびWindows環境でIVS文字の表示確認を行っています。 ※動画を再生するには、videoタグをサポートしたブラウザが必要です。 外字と異体字について 外字とは 文字コード規格表に含まれない文字のことであり、ユーザーが定義したユーザー定義文字やメーカーによって定義された機種依存文字、ベ

    ivs
  • iPhoneの波ダッシュと全角チルダ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    iPhoneで「〜」を入力したいとき、「から」と打って変換すると、(Mac風に)U+301C(波ダッシュ)になる。 が、キーボードの「ー」や「-」をタップしてその仲間から「〜」を選ぶと、(Windows風に)U+FF5E(全角チルダ)になる。 多くの場合、どちらを使っても特に問題はないのだが、条件によっては、これが原因となって文字化けしたりする*1。たとえば、SoftBank iPhoneからU+FF5E(全角チルダ)のほうを使って「やほ〜」というメッセージを送信すると、charset=Shift_JISになる(au iPhoneならcharset=CP932)。この時点ですでにちょっと珍しい動作なのだけれど、しかし、たいていのメーラーはこれを表示できると思う。もちろんiPhone Mailなら表示できる。 次に、この「やほ〜」というメッセージに「ども〜」というコメントを付けて転送する。今

    iPhoneの波ダッシュと全角チルダ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • もじかん ‐ gTef (Galactic Text Encoding Filter)

    Unicode 6.1.0対応! 平成24年2月1日にリリースされたUnicode 6.1.0に対応しています。 「もじかん」なら、常に最新の技術を使うことができます。 高精度の変換 Windows 2000/XPまでと、Windows Vista/7以降では、標準の字体が異なります。Windows 2000/XPまではJIS X 0208準拠ですが、Windows Vista/7以降はJIS X 0213準拠となります。 「もじかん」は、このような場合でも、意図した字形となるよう変換する機能を持っています。 (図解準備中) 汎用度の高いライブラリー 「もじかん」は、ライブラリーですので、様々なプログラミング言語から利用できます。 DLLの追加により、あらゆる符号に対応する拡張性を有しています。 Unicodeはもちろん、それ以外にも世界中の様々な符号に対応しています。 対応する符号は、随

  • 漢字コードの歴史

    なんでやねんDTP/おぢん @works014 [IVS][安岡孝一氏] / “新しいIVDと互換漢字の人名用漢字 | yasuokaの日記 | スラッシュドット・ジャパン” http://t.co/hf8SUmy3 2012-03-05 09:27:16 K.Takata @k_takata 「Unicode文字列型が複数の内部表現をサポート」ってどういうこと?「Python 2系からの移植を容易にするため…Unicodeリテラルシンタックスも復活」これは良い。 http://t.co/LxkUP45x 2012-03-06 21:44:00

    漢字コードの歴史
  • マイクロソフトのIVS対応 - ちくちく日記

    先日、マイクロソフトで「文字コードと異体字とUnicode IVS 〜情報システムにおける日語処理〜」というセミナーを受けてきた。 「文字符号化方式の正しい理解、文字コードの動向、そしてこれらを扱う上でどのような注意が必要なのかなど、IT 管理者、開発者に必要な基礎知識の理解を目指します。話題の IVS、IVD についてもご説明いたします。」 と、いうことで期待していったんだけど、さすがにこれだけの内容を2時間で話すというのは無理があったらしく、文字コードの概要についてダイジェストでお話、といった少々物足りない内容だった。 内容自体は物足りなくて、レポートにまとめるほどでもなかったんだけど、セミナー最後でのQ&AでマイクロソフトのIVS対応などについて触れられていたので、その部分だけメモがわりに。 ・IVSを使える環境でのIMEはどうあるべきか? IVSによって、様々な異体字へのアクセス

    マイクロソフトのIVS対応 - ちくちく日記
  • 文字コードを理解するための参考文献 - yanok.net

    文字コードを理解するために有用なを紹介していきます。拙著『プログラマのための文字コード技術入門』を書くために参考にしたも含んでいます。 文字コードを知る 矢野啓介『プログラマのための文字コード技術入門』技術評論社(2010) 拙著です。いきなり宣伝めきますが、各方面から好評をいただいておりますので、よろしくお願いします。文字コードとは何かという話から、文字コードの大まかな歴史、JIS漢字やUnicode等の現代日向けの各種文字コード規格の紹介、インターネットやプログラミングにおける文字コードの説明など、技術者が必要とする知識を広く取り上げています。技術者以外の方にもお読みいただいています。 芝野耕司『増補改訂 JIS漢字字典』日規格協会(2002) 日の文字コードを知る上で必携といえるのがこの字典。JIS X 0213:2000の全文字を収録し、字形例や読み、文字コードの情報、膨

  • サービス終了のお知らせ - NAVER まとめ

    サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

    サービス終了のお知らせ - NAVER まとめ
  • Java SE 7徹底理解 第7回 Unicode 6.0と国際化

    今回から再びJava SE 7の新機能を解説していきます。今回は、Java SE 7における国際化の拡張について紹介します。 Java SE 7における国際化の一番の目玉といえばUnicode 6.0です。 普段、Unicodeのバージョンを気にしている人はほとんどいないと思います。しかし、Unicode 6.0は少し違います。Unicode 6.0には携帯電話で使われる絵文字が含まれているのです。 Java SE 7ではUnicode 6.0をサポートしているため、この絵文字が使えるようになりました。 もちろん、Unicode 6.0に対応したフォントがあることが必要です。MacではOS X LionからUnicode 6.0に対応したフォントが含まれていますが、他のOSではなんらかのフォントが必要となります。 記事では、和田研細丸ゴシックを使用してUnicode 6.0の絵文字を表示

    Java SE 7徹底理解 第7回 Unicode 6.0と国際化
  • Specials (Unicode block) - Wikipedia

    Specials is a short Unicode block of characters allocated at the very end of the Basic Multilingual Plane, at U+FFF0–FFFF. Of these 16 code points, five have been assigned since Unicode 3.0: U+FFF9 INTERLINEAR ANNOTATION ANCHOR, marks start of annotated text U+FFFA INTERLINEAR ANNOTATION SEPARATOR, marks start of annotating character(s) U+FFFB INTERLINEAR ANNOTATION TERMINATOR, marks end of annota

    makoto15
    makoto15 2011/10/21
    Replacement character
  • 【電子書籍の夜明け】第6回 電子書籍時代の外字問題を探る(1)~文字コード規格とフォントの関係 

  • ユニコード戦記─文字符号の国際標準化バトル - moroshigeki's blog

    著者の小林龍生さんよりご恵贈いただきました。ありがとうございます。 ユニコード戦記 ─文字符号の国際標準化バトル 作者: 小林龍生出版社/メーカー: 東京電機大学出版局発売日: 2011/06/10メディア: 単行購入: 7人 クリック: 466回この商品を含むブログ (20件) を見る 内容も、語り口も、すばらしくおもしろかった、と言いたい。内容の一部は著者人から直接聞いたことがあるものもあるし、すでに読んだことがある原稿の再録もあったりするのだが、それらも含めておもしろかった。 もっとも、文字コード関連の知識を多少なりとも持っていないと、「ISO/IEC JTC1/SC2/WG2/IRG」のようなメダパニ系呪文にやられてしまうかもしれない。逆に文字コードに詳しい人のなかでも、Unicodeの現状に不満を持っている人にとっては、規格制定側からの言い訳にしか読めないかもしれない。私の場

    ユニコード戦記─文字符号の国際標準化バトル - moroshigeki's blog
  • ダウンロード - フォント | サポート

    株式会社モリサワのサポート情報。よくあるご質問、ソフトウェアのダウンロードやアップデート情報、お問合せなど。

    ダウンロード - フォント | サポート
    makoto15
    makoto15 2011/04/01
    Morisawa Font Dictionary
  • いろんな日本語EUCについてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    語EUC(EUC-JP)にはいろいろあって頭がこんがらがってきたので、サルにもわかるように(つまり、自分があとから見て理解できるように)まとめてみた*1。まず、EUC-JPにはどんな種類があるのだろうということで、わたしの環境で実装例を確認できるものをピックアップしてみた。下図のうちeucJP-openとIANAのEUC-JPについては身近な実装例を思いつかなかったが、これを外すわけにはいかないだろうと思って入れておいた。 各EUC-JPのレパートリをまとめたのが、下図。eucJP-openには上図に示したようなバリエーションがあるが、レパートリは共通。「JIS X 0208の国際基準版・漢字用8ビット符号 + JIS X 0201片仮名」については、これを一言で表現できる呼称を思いつかないので、以下の図では仮に「TextEdit」と表記する。 下図は、各EUC-JPのレパートリと符号

    いろんな日本語EUCについてのまとめ - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 安岡孝一の日記: YEN SIGN問題縁起

    tarosukeの日記にもコメントしたのだが、YEN SIGN問題の歴史的経緯は、あまり知られていないように思える。そもそも、情報処理学会コード標準化委員会が1965年1月28日に完成した文字コード案では、「¥」は0x24に収録する予定だった。ところが、1966年4月のISO/TC97/SC2 + CCITT/GM ALPパリ会議において、ISO 7ビットコード最終案の0x24は「$」に固定されてしまい、1967年12月22日にISO R 646として制定された。やむをえず日側は0x5Cに「¥」を移し、JIS C 6220として1969年6月1日に制定した。一方アメリカは、1970年10月のISO/TC97/SC2ロンドン会議において、ISO R 646の0x5Cを「\」にするよう要求してきたが、日はこれに反対、ISO 646の1973年7月1日改正においても、0x5Cを国内使用箇所と

  • Unicode CLDR

    Some of the companies and organizations that use CLDR are: Apple (macOS, iOS, watchOS, tvOS, and several applications; Apple Mobile Device Support and iTunes for Windows; …) Google (Web Search, Chrome, Android, Adwords, Google+, Google Maps, Blogger, Google Analytics, …) IBM (DB2, Lotus, Websphere, Tivoli, Rational, AIX, i/OS, z/OS, …) Meta (Facebook, Messenger, WhatsApp, …) Microsoft (Windows, Of