タグ

文字コードに関するhyconのブックマーク (18)

  • iOS 11.4.1では地域設定が中国のiPhoneに「台湾の旗」絵文字を送り処理させることでアプリをクラッシュさせられる不具合が修正。 | AAPL Ch.

    iOS 11.4.1では地域設定が中国iPhoneに「台湾の旗」絵文字を送るだけでアプリをクラッシュさせられる不具合が修正されているそうです。詳細は以下から。 Appleは現地時間2018年07月09日、複数の脆弱性を修正した「iOS 11.4.1」をリリースしましたが、同バージョンでは地域設定が「中国」のiPhoneiPadに、台湾の旗の絵文字が入ったメッセージを送りつけるだけで、アプリをクラッシュさせサービス運用妨害(Denial Of Service)を起こす脆弱性が修正されているそうです。 Apple added code to iOS to appease the Chinese 🇨🇳🤑 …it contained a remote 'emoji-related' flaw (CVE-2018-4290). Read my latest blog post: "A Re

    iOS 11.4.1では地域設定が中国のiPhoneに「台湾の旗」絵文字を送り処理させることでアプリをクラッシュさせられる不具合が修正。 | AAPL Ch.
  • Two iconvs

  • 文字コード:ほら貝

    文字コード問題を考える 加藤弘一 ◇ 新着案内 ◇ 主な変更履歴              Apr07 2000 ◇ 一太郎で使う異体字タグ         普請中 ◇ インターネットと漢字          Nov11 2004 ◇ 文字コード案内 ──どこから読むか?    Mar30 2000 ◇ 「文字コードから見た住基ネットの問題点」 Aug10 2002 ◇ 「アジアの多言語処理 」         Jun22 2002 ◇ 『図解雑学 文字コード』サポートページ  Aug10 2002 ◇ 『電脳社会の日語』サポートページ   May27 2000 ◇ 二千年紀の文字コード問題        Nov18 1999 「二千年紀の文字コード問題」掲載の経緯 ◇ 「超漢字」の「多国語」と称する機能について Mar26 2000 ◇ 多言語テキスト処理はどこまで可能か    Jun

  • コンピューターで全漢字使用可に 6万字コード化 | NHKニュース

    語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。 中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。 このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進め

    コンピューターで全漢字使用可に 6万字コード化 | NHKニュース
  • ユニコードさん、お願い。絵文字の反転で救うことができる大問題に気づいて!

    ユニコードさん、お願い。絵文字の反転で救うことができる大問題に気づいて!2017.12.12 18:0013,020 塚絵文字コンボを成立させたい…! 絵文字も含めた文字コードの国際規格を決めるUnicode Consortium(ユニコード・コンソーシアム)が検討中の新しいガイドライン案に対して、米GizmodoのEmily Lipstein記者はかなり強く同意しています。しかし彼女が賛同しているのは多くの人も注目する新しい絵文字群についてではなく、絵文字の向きを自由に変えられる、という機能についてのようです。 ユニコード・コンソーシアムが現在検討中の新ガイドラインはもしかしたら私たちと絵文字の関係性を大きく変えてしまうかもしれません。どういうことか。そうです、ピンと来た人も多いでしょう。ついに、やっと、絵文字の左右の向きを変えられるようになるかもしれないんです。 Image:

    ユニコードさん、お願い。絵文字の反転で救うことができる大問題に気づいて!
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    hycon
    hycon 2017/11/13
    絵文字が使えるようになっているだけで肌の色や宗教対立といった政治問題をサービス提供者に抱えさせるバグはもう直せないけどな
  • Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita

    これは,こちらのサイトによると, Depending on your requirements, this may or may not be what you want, but it is certainly consistent with the overall design of the String type to abstract away as many Unicode details as possible. Rule of thumb: if two strings look equal to the user, they will be equal in your code. つまり,「Unicodeでの実装にかかわらず,ユーザ側からの見た目が同じであるからには,コード上でも同一として扱われるべきである」という原則に基づいているとのことです。 実際,この仕様はApple

    Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita
  • ISO 2022 wchar_t encoding

    by Markus Kuhn This proposal suggests a standard encoding to be used for representing characters in the ISO C wchar_t data type. The encoding is upwards compatible with ISO 10646, while at the same time it can be used to faithfully preserve all information present in an ISO 2022 character stream. The main aim of this proposal is to demonstrate to sceptics of the ISO C 99 option "__STDC_ISO_10646__

  • @MnjaMnia氏のISO/IEC 10646に至る文字符号の歴史

    tomo.(むにゃむにゃ) @MnjaMnia (ISO/IEC 10646 の弁護をするなら、Unicode って自分で勝手に決めた領域だけを面倒見れば良いのに対して、ISO や JIS 等の公的標準は引用関係の網の目の中で矛盾を来さないよう他の規格に悪影響をもたらさないようにいじらないといけないので難易度が違う気が) 2013-04-04 01:46:33 tomo.(むにゃむにゃ) @MnjaMnia (あと、歴史的には結合文字という概念は ISO/IEC 10646 より前からあって、結合文字を使った文字符号から precomposed なのにしようという流れの中で 8859 シリーズが生まれ、その延長上で 10646 作ろうって話が出てきたみたいだし…) 2013-04-04 01:53:21 tomo.(むにゃむにゃ) @MnjaMnia (あと、伝統的には文字符号の標準って受

    @MnjaMnia氏のISO/IEC 10646に至る文字符号の歴史
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
  • http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-035.pdf

  • JISX0202:1998 情報技術-文字符号の構造及び拡張法

    X 0202 : 1998 (ISO/IEC 2022 : 1994) (1) 2019年7月1日の法改正により名称が変わりました。まえがきを除き,規格中の「日工業規格」を「日産業規格」に読み替えてください。 まえがき この規格は,工業標準化法に基づいて,日工業標準調査会の審議を経て,通商産業大臣が改正した日 工業規格である。これによって,JIS X 0202 : 1991は改正され,この規格に置き換えられる。 この改正では,国際規格との整合性に主眼がおかれた。 JIS X 0202には,次に示す附属書がある。 附属書A(規定) 文字レパートリ及びその符号化の外部参照 附属書B(参考) エスケープシーケンスを用いる文字集合のISO国際登録簿 附属書C(参考) ISO 2022の第3版(1986年)と現第4版との主な相違点 附属書D(参考) 参考規格 X 0202 : 1998 (

    JISX0202:1998 情報技術-文字符号の構造及び拡張法
  • What size wchar_t do I need for Unicode?

  • フォントは自由に変えられる。だから絵文字で何かを伝えるのはナンセンス。そんなことも分からなかったのか、Googleよ。

    Unicodeに絵文字が多数追加されたことは、以前から批判していたのだが、やはりというか何と言うか、しょっぱい問題が起こりつつある。 macOS SierraやiOS 10でピストル絵文字🔫が水鉄砲に変わることで起こる問題。 | AAPL Ch. 絵文字フォント次第で形が変わる。故にフォントが変わればニュアンスも変わる。自分と相手、あるいは今使っている機種と将来使う機種が同じフォントを使っているとは限らない。だからフォントを変更することで様々な問題が起きるわけである。 根的な問題=性質が異なるものを混ぜてしまった文字と絵は質的に性質が違う。 文字はその見た目ではなく、文字を組み合わせた単語、単語を並べた文章によって意味を持つ。フォントが違っても、見た目の違いはあれど、文章そのものの意味は変わらない。どのようなフォントで読んでも意味は通じるのである。 ところが、絵文字はそうは行かない

    フォントは自由に変えられる。だから絵文字で何かを伝えるのはナンセンス。そんなことも分からなかったのか、Googleよ。
  • プログラミング言語における文字コードの話

    世の中がほぼUnicode前提になってめでたしめでたし。とはいかなかった現実の話。 String型でできる文字列処理とか、ソースコード自体、特に識別子で使える文字とか。 軽くおさらい: Unicode まあいろんなところでいろんな人が書いてると思うのでさらっと概要だけ。 Unicodeは、元々、「65,536文字あれば十分だろ」とかいう幻想の元、2バイト固定長の文字コードとして作られていました。 もちろん足りなくて、ビット数を拡張。基が2バイトのままでこの拡張した分を取り扱えるようにしたのが今のUTF-16で、拡張分は2文字分(4バイト)を使って表現。 この、2文字分使って1文字を表すやつのことをサロゲートペア(surrogate pair: 代理対)と呼びます。 あと、ASCII文字も2バイトになるのを欧米人が嫌って、ASCII文字はASCIIコードのまま、逆に漢字・ひらがな・カタカナ

    プログラミング言語における文字コードの話
  • Unicode 9.0が出ています - yanok.net

    UnicodeコンソーシアムからUnicode 9.0が6月21日に出ました。 このバージョンではちょうど7,500文字が追加されたということです。数がずいぶん多いようにも思えますが、多くは西夏文字で、6,881文字あります。この数字はブロックTangut, Tangut Components, Ideographic Symbols and Punctuationの字数の合計です。 西夏文字についてはひとつ前の記事に書きました。 ISO/IEC 10646:2014/追補2:2016がダウンロード可能に (2016年6月26日) ISO/IEC 10646とUnicodeが同期するように更新というのはこういうことで、10646に追加された西夏文字がUnicodeでも追いかけるように追加されているわけです。逆、つまり先にUnicodeに入って後から10646に追加されるものもあります。先の

  • JISX0211:1994 符号化文字集合用制御機能

    2019年7月1日の法改正により名称が変わりました。まえがきを除き,規格中の「日工業規格」を「日産業規格」に読み替えてください。 日工業規格          JIS X 0211-1994 (ISO/IEC 6429 : 1992) 符号化文字集合用制御機能 Information technology−Control functions for coded character sets 日工業規格としてのまえがき この規格は,1992年第3版として発行されたISO/IEC 6429 (Information technology−Control functions for coded character sets) を翻訳し,技術的内容及び規格票の様式を変更することなく作成した日工業規格で ある。 なお,この規格で点線の下線を付した部分は,原国際規格にはない事項である。 1

    JISX0211:1994 符号化文字集合用制御機能
  • 新しい絵文字を提げて iOS 8.3 がやってきた - Ryusei’s Notes (a.k.a. M59のブログ)

    Appleが、ドラフト段階の絵文字修飾子を実装したiOS 8.3をリリースした。パブリック・ベータ版とは、Genericな肌色の絵文字の髪の色が、黄色に変更されている点が違う。これは、黄色がアジア人をイメージしたものだというクレームがあったので、Yellow is ethnic-neutral colorを、髪の色にも敷衍させた解決策だろう。金髪に見えなくもないが、悪くはない。少なくとも、アジア人に見えるというクレームは躱せるし、UTR #51のドラフトで推奨されている「暗い髪色」にするよりも、非現実的な髪の色にする方が、中立的に見える*1。 もうひとつ、気になっていた家族絵文字の実装の詳細が判明した*2。 The new family emojis are made from 4 emojis joined by U+200D character in #iOS and #Yosemit

    新しい絵文字を提げて iOS 8.3 がやってきた - Ryusei’s Notes (a.k.a. M59のブログ)
  • 1