タグ

charcodeに関するnoriotのブックマーク (10)

  • ATOK 用 JIS 第3・第4水準辞書 公開 - yanok.net

    Anthyに続き、ATOK用にも、JIS第3・第4水準の辞書を作成し、このたび公開しました。下記のリンクからどうぞ。 ATOK用JIS第3・第4水準漢字変換辞書 10年にわたって保守・開発されている、SKK用のJIS X 0213対応辞書SKK-JISYO.JIS3_4とSKK-JISYO.JIS2004を元に作成したものです。 これで、ATOKでも、魹ヶ崎 (とどがさき、岩手県宮古市)、𣖔木作 (ほうのきざく、福島県いわき市)、𩸕網代 (きびなごあじろ、長崎県五島列島)、吐噶喇列島といった地名や、三国志の登場人物の龐統や許褚、邢道栄、賈詡、譙周、などなど、書家の米芾 (べいふつ)、褚遂良 (ちょすいりょう) といった人名、火星の意味の熒惑 (けいこく)、世界史の授業で習った璦琿(あいぐん)条約、菩薩の意味の菩提薩埵、美少女を意味する蜾蠃少女(すがるおとめ)、などなど、様々な漢字が変換

  • シフトJISが符号化文字集合? - yanok.net

    文字コードに関して、符号化文字集合と文字符号化方式という区別がいわれることがあります。拙著『プログラマのための文字コード技術入門』でもその分類に従っています。 この区分によると、JIS X 0208やJIS X 0213は符号化文字集合で、シフトJISは文字符号化方式だということになります。 ところが、混乱させることをいうようですが、JIS X 0208:1997では、シフトJISは符号化文字集合だと書かれています。ウソだと思うなら、JIS X 0208:1997の附属書1を見てみると良いでしょう。 これはどういうことでしょう。シフトJISが文字符号化方式だというのが間違っているのでしょうか、それとも97JISの記述が間違っているのでしょうか? 結論をいってしまうと、これは単に用語法の問題ということになります。 そもそも、「符号化文字集合と文字符号化方式」という区分はISOやJISといった

  • 絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

    Unicodeが携帯電話の絵文字を収録へ 絵文字ってなに?そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな! 8割の女性は「恋人以外にも使う」』(RBB NAVI)なんていうニュースもありました。携帯電話の個人普及率が9割を上回る(平成20年内閣府消費動向調査)この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。 まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

    絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道
  • asahi.com(朝日新聞社):「淫」が常用漢字に仲間入りした理由 - 文化

    萎淫怨苛牙潰傲挫塞斬恣嫉呪凄嘲妬貪罵蔑冥闇拉慄。  呪文のような漢字群を見ていると、荒涼とした心象風景が広がってくる。まるで、今の世相が映し出されるかのように。どれも、常用漢字表に追加される予定の191字の中に入っている。逆に明るいイメージの漢字は、「錦」や「爽」「鶴」「瞳」「虹」くらいしか見あたらない。  81年に当用漢字表から常用漢字表へ移行した時、こんなことはなかった。追加された95字の中に暗いイメージの漢字は少なく、むしろ「蛍」や「」「朴」「癒」「悠」など心なごむ字が目につく。  作家の出久根達郎さんは文化審議会国語分科会の漢字小委員会で委員を務めている。「審議の最中は気づきませんでしたが、当に暗い漢字が多い。拉致の『拉』もあり、現代を象徴しています。私たちが日常よく目にする字が常用漢字になるのでしょう」  小委員会で「鯨」が「鯉(こい)」と「鯛(たい)」を逆転した話が出たこ

  • dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。

  • “情報化時代”に追いつけるか? 審議が進む「新常用漢字表(仮)」: 第2部 新常用漢字表と文字コード規格第5回 なぜUnicode正規化は生まれたか

    ● 互換用文字は、存在するはずのなかった文字 前回までは互換漢字が追加提案しにくくなっている現状について述べた。規格の上から互換用文字/互換漢字といった文字がどのように考えられているかは、次のUnicode規格書の一文に明らかだ。 Conceptually, compatibility characters are those that would not have been encoded except for compatibility and round-trip convertibility with other standards.(概念上からは、互換用文字とは他の規格との互換性及び往復の保全性の目的以外には、符号化されるはずのなかった文字である。) 『Unicode Standard 5.0』2.3 Compatibility Characters(http://www.uni

  • 三菱東京UFJ銀の一部障害、直接の原因は文字コードの設定誤り

    三菱東京UFJ銀行の一部キャッシュカードが、5月12日の午前7時から約5時間セブン銀行のATMで使えなくなった原因が分かった。三菱東京UFJ銀のシステムからセブン銀のシステムに送信する取引結果データの文字コードに誤りがあり、セブン銀のシステムが取引結果を正常に処理できなかった。約2万件の取引が影響を受けた。 取引ができなかったのは、取引対象が旧東京三菱銀の店舗の口座で、かつ通帳に未記入の明細が10件以上あるときに限られる。この条件を満たす場合、三菱東京UFJ銀のシステムは、通帳記帳を促す案内文を取引結果データに加えて、セブン銀に送信する。この案内文はカタカナだけを使用すると両行で取り決めていた。 一方、三菱東京UFJ銀は5月10日の夜9時から12日朝7時までシステムを臨時停止し、旧東京三菱銀ベースの勘定系システムに旧UFJ銀の機能を追加した新システムを稼働するための切り替え作業を実施した。

    三菱東京UFJ銀の一部障害、直接の原因は文字コードの設定誤り
  • 第1回:進まないJIS2004への移行,その原因は?

    2004年に制定された最新の文字コード規格「JIS X 0213:2004(通称:JIS2004)」。このJIS2004に対応したWindows Vistaがリリースされて,早1年が経過した。JIS2004自体は,フォントやIMEの普及に合わせて,ユーザーに順調に浸透している。しかし,ユーザーからのデータを受け取る企業情報システムの側では,JIS2004への対応が進んでいないのが実情だ。なぜJIS2004への対応が進まないのか。その現状をまとめてみよう。 JIS X 0213:2004(JIS2004)は,2004年に制定された最新の文字コード規格。過去の文字コード規格に対して多くの文字を追加しており,従来扱えなかった日の地名・人名などが表現できるようになった(JIS X 0213の概要や,2004年に改訂された経緯については,ITproの記事「VistaでUnicode以外の選択肢はな

    第1回:進まないJIS2004への移行,その原因は?
  • 全角?半角?

    はなおか じった 世界遺産の近くに住んでます。 Microsoft MVP for Visual Developer ASP/ASP.NET 10, 2004 - 9, 2011 ネタもと:文字列の全角半角判定 某所で、てか、普通の「使う人」は文字コードなんて興味ないだろう。と、コメントがあったので。 確かに、興味はないでしょうね。ただし、「どのように表示/印字されるか」には、執着と言っていいほどの興味があると思います。そして、その執着を満足するために、開発者は知っていなければならないのではなかろうか、と思うのです。 元々、全角/半角という言葉は、格子状にしか表示できないところで、表示するために格子のどれくらいを使用するか、を表していました。「あ」のような文字を表示するために格子を1つ使うとすると、「A」のような文字を表示するためには、格子を左右に2つに分けた半分しか使用しません。ここから

  • はてなダイアリーで欧州文字が表示できるのは国際化なのか? - in between days

    人力検索で「ダイアリーとグループ日記の違い」についての質問(question:1179986333)があって、大雑把にグループの利点としてUTF-8だから多言語なひとにはオススメ的なことを書いたところ、コメント欄でid:sibazyunさんから 私のダイアリーでは、utf-8で字上符(アクセント記号、ウムラウトの類)をいれているし、「編集」で過去のを見ると、utf-8ので出ています。つまり、欧文系を書くには問題ない、ということです。 http://q.hatena.ne.jp/1179986333#comment という物言いが付いたので調べてみました。結論から言うと確かに 欧文系を書くには問題ない です。実際の例を下に示します*1 テスト test à test ですが詳しく見てみるとこれはどうやら「UTF-8ではない」ようです。というかやはりEUCの仕様の枠内にあるシングルシフトという

    はてなダイアリーで欧州文字が表示できるのは国際化なのか? - in between days
  • 1