タグ

Unicodeに関するnyopのブックマーク (7)

  • コンピューターで全漢字使用可に 6万字コード化 | NHKニュース

    語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。 中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。 このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進め

    コンピューターで全漢字使用可に 6万字コード化 | NHKニュース
    nyop
    nyop 2017/12/25
    入れ切れず、結局運用混乱するパターンが目に見えすぎてて辛い。
  • 大手IT企業が新元号対応に動く、焦点は「合字」の扱い

    平成が31年で終わり、2019年に新たな元号が施行されることが決まった。日マイクロソフトをはじめ大手ITベンダーは影響調査に動き出した。元号の表記に使う「合字」対応など特有の作業が必要になる。 元号改正まで残り500日を切った。政府は2017年12月8日、天皇陛下の退位日を2019年4月30日に定める政令を閣議決定。2018年中に新元号が公表され、2019年5月1日以降は新元号に変わる。 元号改正をにらんでITベンダーが顧客企業のシステムや自社製ソフトの影響調査に動き出した。焦点の1つが元号を一文字にまとめて表示する「合字」の取り扱いだ。Unicodeに新元号の合字を登録することが検討されている。日マイクロソフトは合字の処理方法をはじめ、同社製品の元号に関する影響を調べる。結果に応じて同社製品の改修や顧客企業への情報提供を検討する。合字を使っている企業はシステム改修が必要になる。 「改

    大手IT企業が新元号対応に動く、焦点は「合字」の扱い
    nyop
    nyop 2017/12/25
    合字やめようよー。
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
    nyop
    nyop 2017/03/13
    文字コード系は呪いが深すぎて、踏み込むのを躊躇してしまう領域。
  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • 変な「はてなマーク�」でLINEやタイムラインが固まって動かなくなる不具合が発生中

    現在「謎のはてなマーク(�)だらけの投稿」がLINEのタイムラインにて回され、それを見た人が「当に重くなった」「LINEが止まった・固まった・動かない」と報告している人が増えています。「今度こそタイムラインがハッキングされた」「ウイルスじゃないのか」と言っている人もいます。今回はこの「変な投稿」について紹介します。 今回の件は、まるで「LINEの不具合」と「タイムライン機能の噂の拡散力」を上手く組み合わせてLINEに大規模障害を起こそうとしているかのようです(後述の理由から、文が無駄に長くなっていますが、とりあえず冒頭の「噂の例」と終盤の「どんでん返し:...」の章だけ読めば雰囲気が分かってちょうど良いのではないかと思います。問題に遭遇している人は対策も読んでください。)。 ちなみに、最後にどんでん返しがあるので、中途半端なところで読むのをやめないでください(勘違いする恐れ)。 目次

    変な「はてなマーク�」でLINEやタイムラインが固まって動かなくなる不具合が発生中
    nyop
    nyop 2014/01/14
    最近の若者の間ではUnicodeはウィルスだと思われているそうな。
  • サロゲートペア - 闘うITエンジニアの覚え書き

    2024-07-29 Spring Boot 開発(2024年) 2024-02-04 Goでリフレクション 他のdocker-compose へのネットワーク接続 2024-01-09 Grafanaパネルプラグイン開発(create-plugin版) Grafanaプラグイン開発(grafana/toolkit版) 2023-09-23 Jupyter Lab に他言語カーネルインストール 2023-09-19 Rustの基礎 Rustのインストール Rust 2022-11-01 MacBook(M1チップ) でOracledockerイメージ作成 2022-02-04 Grafanaバックエンドデータソースプラグイン開発 2021-02-11 dockernginxSSL証明書の自動更新 2021-01-17 GoExcelを読む 2021-01-05 GoでAzure A

    nyop
    nyop 2011/09/05
    画像だけじゃなくてテキストもある。困った時のコピー用に。
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • 1