タグ

ブックマーク / yanok.net (4)

  • Unicode Standardの元号の説明の問題は変わっていなかった - yanok.net

    生前譲位の報道でUnicode仕様書の元号の問題を思い出す 天皇陛下が生前譲位される御意向という報道が出回り、様々な意見や憶測が飛び交っています。その中には譲位がなされれば行われるであろう改元についてのものもあります。これで私が思い出したのはUnicode仕様書の中の元号の説明が微妙に間違っている件です。 Unicode Standardの元号の説明が間違っているように見える (2012年9月) 平成は1989年1月8日から始まりましたが、Unicode Standardの説明では1月7日としており1日ずれています。昭和や大正もなぜか同じく1日ずれています。アメリカ時間でもないのでしょうが、不思議な現象です。 Unicodeの最新版ではどうか? 上の記事を書いた時はUnicode 6.1だったのですが、現行の最新版ではどうかとチェックしてみました。 先日Unicode 9.0が発表されまし

    mkusunok
    mkusunok 2017/12/03
    そういえばあの組み文字っぽいのって誰が何のために使ってるんだろう?
  • 正規化を使いたくても - yanok.net

    あるときJavaプログラムで、入力されたテキストデータに含まれる所謂「全角・半角」の区別を無視したいことがありました。例えば「RAM」という言葉が含まれていたら、所謂「全角」であろうが「半角」であろうがそれは同じ文字なので、重複符号化のせいにすぎないそういう非質的な区別は無視したいわけです。 当ならこれぞまさに正規化処理の出番で、JavaではUnicode正規化が簡単に使えるようになっているのですが、しかしUnicodeの正規化仕様はちょっと使いづらいところがある。 というのは、通常の正規化形式であるNFC, NFDはいずれも、「全角・半角」の区別をそろえてくれないので私の目的の役には立たない。一方、NFKC, NFKDはというと、「全角・半角」をそろえてくれるのはいいのだけど、三点リーダがピリオド3つになってしまうとか、記号類について余計なお節介をしてくれて何がどうなるのか正直私も覚

    mkusunok
    mkusunok 2014/01/18
    日本語の正規化ライブラリーってどんな環境が充実してるんだろう。Oracleとかだと名寄せのミドルウェアが出てるんだけど
  • 「ユニコードは犯罪だからやめてください」の衝撃 - yanok.net

    新年早々、大笑いしてしまったこと。 下らないといえば下らないので書くまでもないかと思ったのですが、後で忘れた頃に読み返すと面白いかもしれないので書きとめておくことにします。 何があったのかは下記のページに詳しく書かれてあります。こちらを読んでいただければ、ぶっちゃけそれ以上のことはないです。 「LINEウイルス」の正体とは―LINE内で流行する「ウイルス攻撃」の現状について 簡単にまとめていうと、 LINE上で「ウイルス」なるものを送りつけることができるという噂があって、実際にそれを送りつけられるとLINEのアプリが誤動作(重くなる)らしい 実際のところ、ここで「ウイルス」と呼ばれているものはある特定の文字列である (プログラムではない。であるからしてウイルスでもない) 特定の文字列を受け取ると動作が極端に重くなる不具合のあるアプリがある、というのが真相らしい 問題を引き起こす文字列は、U

    mkusunok
    mkusunok 2014/01/11
    小林龍生さん @tlk714 をUnicodeの偉い人と紹介するとLINEでヤバいことやってる人と勘違いされるのか
  • JIS X 0208が許されるのは小学2年生まで - yanok.net

    小学3年生でJIS X 0208にない文字を学習するといったら驚くでしょうか。 といっても、漢字ではありません。ローマ字です。ローマ字で日語を表記する際に用いる一部の文字、例えば、yûbinkyoku の û だとか、okâsan の â だとかいう文字は、JIS X 0208にありません。 ローマ字は以前は4年生で習っていましたが、最近3年生に変更になったそうです。理由としては、キーボードから日語を入力するのにローマ字変換を使うのでローマ字に慣れる必要があるということらしいです。(適当なウェブサイトに書かれていたことです。正確なことを知りたい人は然るべき情報源にあたってください) 学校で習うローマ字は、私の記憶が確かならば、基的に訓令式で、ヘボン式も使って良いという風だったと思います。いずれの方式でも、長音を表すのに、ô や ō というような、ダイアクリティカルマーク付きのアルファ

    mkusunok
    mkusunok 2013/11/25
    小学校で教えるローマ字はパスポートと共通化した方がいい気もするけど
  • 1