タグ

文字コードに関するnixenekoのブックマーク (16)

  • Am I Ken, ケン, 剣, 劍, 劍󠄁, or 剑?

    nixeneko
    nixeneko 2024/04/28
    Ken Lundの奥さんの書き間違え由来の「剣」の異体字がAdobe-Japan1-4に入り、さらにはUnicodeのIVSに入ったとのこと
  • Copy-pasting Hindi from a correctly rendering PDF pastes only certain characters correctly

  • バックスラッシュと円記号の悲劇 - 仮想と現実

    Windowsのパス表示を見てみよう。Explorerでは コマンドプロンプトでは というようにパスの区切りは「¥」で表示される。これ、おかしいと思わないだろうか。なぜ円記号なのだ。通貨の円に、なにかを切り分ける意味があるわけでもないし、見た目、文字の形が区切りにふさわしいとも思えない。Yに横棒二つけた記号である。通貨の円を表す以外に使うべきではない。そもそもファイルパスの区切りに円記号を使おうと思った人は誰だ?となるだろう。もちろんそんな人はいない。これはMS-DOS登場以来現在に至るまで、日PC環境でずーっと続いている文字化けである。MS-DOSやWindowsの解説書でも円記号で印刷されているので、文字化けだとは思わない人も多いだろうが、どう考えても文字化けである。日以外の多くの環境ではWindowsのパス区切り文字はバックスラッシュ「\」で表示される。 UNIXではパスの区

    バックスラッシュと円記号の悲劇 - 仮想と現実
  • ビルマ語(ミャンマー語)のUNICODEはUNICODEじゃなかった? | エヤワディ Blog

    2011/12/09IT, ビルマ語(ミャンマー語), ミャンマー絡み 以前ビルマ語(ミャンマー語)についてブログに書いたのは2009年2月の「ビルマ語をWindowsで~Unicode以前」だった。その後すぐに続編を書く予定だったのが、結局今日になってしまった。3年越しの恋ならぬ、3年越しの ユニコードだ。 Unicode(ユニコード)とは、コンピュータで文字を扱うための世界標準の規格だ。Unicodeにはビルマ語も含めて世界中の文字が規定されている。このおかげで、コンピュータで簡単に世界各国の文字を見たり書いたりすることができる。ちなみに、ビルマ語はUnicodeの1000番~109F番とAA60番~AA7B番までのエリアを割り当てられている。ちょうど1000番で覚えやすいが、1000といっても16進の1000だから10進で数えると4096番目だ。 Unicodeの1000番〜109F

    ビルマ語(ミャンマー語)のUNICODEはUNICODEじゃなかった? | エヤワディ Blog
  • ビルマ語(ミャンマー語)をWindowsで~Unicode以前 | エヤワディ Blog

    2009/02/27IT, ビルマ語(ミャンマー語), ミャンマー絡み ユニコード(Unicode)とビルマ語の話を書こうと思ったら、Unicode以前の話も書かないとわかりづらいということで、前半と後半に分けることにした。前半は、Unicode以前、後半はUnicodeの話だ。もしかしたら私の無知や勘違いがあるかもしれないので、間違いがあったらご指摘を。 Windows95や98の時代は日Windowsでビルマ語を表記するのは大変だった。特に2階建て文字のような特殊文字を表示するのが難しかった。当時、文字は1バイト(8ビット)容量の中で扱われていた。8ビットだから256種類だ。256種のうち、前半はアスキー(ASCII)文字と言われる標準的なアルファべトと記号の範囲で、後半は各言語の独自の規格の部分になった。タイ語やアラビア語、日語の半角カタカナなどがこの後半部に入れられた。なお、

    ビルマ語(ミャンマー語)をWindowsで~Unicode以前 | エヤワディ Blog
  • GB18030-2022が来た!詳細編—内容から読み取る本質〈エリックの多言語文字散歩〉|ヒラギノフォント公式note

    前回の概要編では、じっくりとGB18030-2022の表紙を見ながら、中国におけるGBの定義、GB18030規格改定の概要、製品への搭載義務などについて解説しました。今回は、いよいよ表紙をめくって更新された内容について詳しく解説していきます。 漢字はとにかく多いGB18030-2022の規格書の実物を見ると、まずその厚みに圧倒されるでしょう。700ページを超えるページをパラパラとめくってみてわかるのは、文はわずか8ページ程度で、残りのほとんどは付属書である長い文字コード表ばかりです。 文字コードの国際標準としてISO/IEC 10646があります。そして業界規格のUnicodeとおおむね互換しています。一方でGB18030は中国独自の規格です。GB18030は策定当初から国際標準の存在を意識して設計され、膨大な量のコードポイント(符号位置)と、各文字コードを相互変換するための対応表を用意

    GB18030-2022が来た!詳細編—内容から読み取る本質〈エリックの多言語文字散歩〉|ヒラギノフォント公式note
  • 長岡技術科学大学学術情報リポジトリ

    {"_buckets": {"deposit": "b6107de9-e313-4fdf-895d-f64ce44baf92"}, "_deposit": {"created_by": 2, "id": "841", "owners": [2], "pid": {"revision_id": 0, "type": "depid", "value": "841"}, "status": "published"}, "_oai": {"id": "oai:nagaokaut.repo.nii.ac.jp:00000841", "sets": ["12", "15"]}, "author_link": ["4021"], "item_3_alternative_title_21": {"attribute_name": "その他のタイトル", "attribute_value_mlt": [{"

    nixeneko
    nixeneko 2023/10/25
    “Development and Standardization of Sinhala Script Code for Digital Inclusion of Native Computer Users” シンハラ文字のコンピュータでの利用の歴史についてまとまっている博士論文
  • ミャンマー語の文字化け問題~ZawgyiとUnicodeの2大フォントについて~ | スターフィールド株式会社

    ある日のこと ミャンマー支店から連絡があり、PDFで出力したミャンマー語が文字化けしている!とのこと。 日人の私では判別不能ですが文字化けしてるらしいのです。 詳細を聞くと、前回は別の箇所で文字化けが起こったため、その対応として別のフォントをサーバにインストールしたところ今度は別の箇所が文字化けしたという経緯のようでした。 ビルマ語のフォント、UnicodeとZawgyiについて Unicodeとは? コンピュータで使用する文字はUnicodeという国際規格で決められています。 平仮名であれば以下のように「あ」は「U3042」というようにコードが割り振られており、これに基づいて日語のフォントも作成されています。 明朝体で書いた文章をゴシック体にしても文字化けが起こる事がありません。 これはフォントがUnicodeに準拠しているおかげです。 ・・・・が Unicodeに準拠していない国が

  • 基本4情報での名寄せは難しい|MORIDaisuke

    先日は住所の件でお楽しみでしたね。 私も楽しくなってしょうもないツイートをしたところ、@masanorkさんから有用な情報をいただいてしまいました。 異体字に加えて外字も根深いですし、日付型に収まらない住基の生年月日とか、屋号を含んだ個人事業主の口座名義とか、外国人氏名における住民登録のアルファベットと口座名義のカタカナとの解離とか、旧姓併記の例外処理とか、文字列型に刻まれたバッドノウハウの塊ですね https://t.co/GOaytijfst — Masanori Kusunoki / 楠 正憲 (@masanork) June 6, 2023 このとき、私はごく簡単な「名寄せの難しさ」の社内研修資料を作っている最中だったのですが、この情報が大変参考になりました。 一方、私だけが得をしているのがなんとなくムズムズしてきたので、ここにアウトプットしてスッキリしようと思います。 なお、住所

    基本4情報での名寄せは難しい|MORIDaisuke
  • The WTF-8 encoding

    Editor: Simon Sapin (Mozilla) Issue tracking: On GitHub Change history: On GitHub Last updated: 23 February 2022 To the extent possible under law, the editors have waived all copyright and related or neighboring rights to this work. Abstract WTF-8 (Wobbly Transformation Format − 8-bit) is a superset of UTF-8 that encodes surrogate code points if they are not in a pair. It represents, in a way comp

  • ミャンマー語(ビルマ語)のフォントがZawgyiからUnicodeへ大改革

    では10月1日は消費税アップの日だが、ミャンマーではミャンマー語(ビルマ語)フォントの大改革が始まった記念すべき日だ。ミャンマーでパソコンやスマホで使うミャンマー語フォントは、ほとんどの人がZawgyi(ゾージー)と呼ばれるフォントを使っている。これを世界標準のUnicode(ユニコード)に準拠したミャンマー語フォントに変えようとやっと国が動き出したのだ。 Unicode、Zawgyiとは? コンピュータやスマホなどで使う文字は世界標準のUnicodeという規格で決められていて、世界中の人たちがこの規格に沿って作られた各言語のフォントを使っている。日語のフォントももちろんこのUnicodeに準拠じて作成されたフォントだ。 世界中の人々がいろんな言語の文字をパソコンやスマホで問題なく読み書きできるのは、このUnicode規格があるからだ。ところが、このUnicode規格から外れたフォン

    ミャンマー語(ビルマ語)のフォントがZawgyiからUnicodeへ大改革
  • CJK Type Blog | CJK Fonts, Character Sets & Encodings.

    What in the world could オントロ (ontoro) and グスーム (gusūmu) possibly mean? (If you wait a few seconds, a hint will flash in the animated GIF above.) Continue reading… The UTC #160 meeting took place last week at Microsoft’s HQ in Redmond, Washington. For CJK enthusiasts, the big news is that the UTC accepted CJK Unified ideographs Extension G (aka IRG Working Set 2015), which includes 4,939 characters

  • 文字集合の包含関係とテストに使うべき文字 - miauのブログ

    先月あたりから文字コードまわりの調査をしていたので、そのことについて書こうと思ったのですが。もろもろの説明の前提としてエンコーディングに対する説明が必要で、エンコーディングの説明にはその対象となる文字集合についての説明が必要で・・・ということで、まずは文字集合についての概説です。 目的 冒頭に書いたように、私が行った文字コードまわりの調査結果を書くための前提部分の説明が目的ではあるんですが、もうひとつ目的がありまして。 Web を見てまわっていると、いくつかの文字を不適切に選んで「この文字で確認したらうまくいったから大丈夫」というように不十分な調査がなされている事例が多々ありました。せっかく調査結果をまとめてくれているのに不十分なせいで活用できない=同じ調査を再度行う、という残念なことになってしまっているので「今後調査/テストを行う際にどのような文字を抽出すればよいか」という基礎情報的なも

    文字集合の包含関係とテストに使うべき文字 - miauのブログ
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • 新元号 改元の対応のプロセス – Japan New Era Name Support Blog

    皆様こんにちは。前回の記事では新元号対応のために必要な検討事項、対応項目や課題などを発信していくことをお伝えしました。技術的な観点で文字コード、フォント、符号位置、照合順序などの説明や理解は欠かせないテーマですが、この blog をご覧になっている皆様が、まず知りたいことは ・Microsoft の各製品、バージョンの新元号対応の予定 ・新元号対応の対象製品、バージョンが決定するのはいつか ・対応はどのような方法で成されるのか といった具体的なマイルストーンではないでしょうか。 日マイクロソフト株式会社としても、その情報なくしては取るべき対策や意思決定ができない、という点は重々理解しており、日政府、文字の専門家、国際標準化団体などと協業し対応に当たっていますが、IT において改元は極めて複雑な、非常に多くの検討事項、作業が必要なものになります。 多くの方が誤解しているのですが、Era

    新元号 改元の対応のプロセス – Japan New Era Name Support Blog
  • 全学ゼミ講義ノート・文字コード

    ¨ ISO 646 に従う各種の文字集合の異同。 シフト JIS では表現できない文字は ISO 8879 の実体参照を用いたが うまく見えない場合には文字集合名称のところからリンクしておいた 京大の安岡さんの文字表を参照されたい。 しかし同じ符号位置を国ごとに別の文字に割り当てていると 情報交換が国内で閉じているうちは問題ないが、 何も考えないで国際的に情報交換すると 米国で「#」のはずが英国では「£」に、 「\」のはずが日では「¥」に化けてしまう といった問題が発生する。 7ビットの空間を使いながらこの問題を解決するためには 文書のなかで文字集合を切り替える必要がある (これは後述する ISO 2022 の符号化によって可能) が、 必要な文字数が 256 以下ならば、 切り替えが不要になるので 8ビットの空間をそのまま用いることができる。 ISO 6429 ASCII の制御文字に

  • 1