タグ

文字コードに関するsatohiのブックマーク (9)

  • 文字コード | 衆議院議員 河野太郎公式サイト

    2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口

    文字コード | 衆議院議員 河野太郎公式サイト
    satohi
    satohi 2023/05/11
    これだけでもデジタル庁設立の成果。素晴らしい / JISX0213の時に調べたけど、渡なべのなべ、手書き時のちょっとした書き間違いも登録されちゃってるんだよね。人間臭さが抜けるかな。
  • MJ文字情報検索システム | 独立行政法人 情報処理推進機構 - IPA

    文字情報基盤のデータベース検索および情報取得を行うウェブサイトです。また、APIによるデータベースの利用方法を提供します。

  • [続報]住基ネット障害の原因は「文字化け」、231市町村に影響

    2013年3月26日から発生していた住民基台帳ネットワークシステム(住基ネット)の障害の原因が、データベース(DB)に情報を書き込む際の文字コードの誤り(文字化け)にあったことや、障害が影響した市町村の合計が231に及んでいたことなどが分かった。総務省が4月2日に発表した(関連記事:全国200の自治体で住基ネットが利用不可能になる障害が発生)。 今回の障害は、自治体にある住民基台帳システムと住基ネットを接続する「コミュニケーションサーバー」のハードウエアとOSを231の自治体で更新し、それに伴い、コミュニケーションサーバーのアプリケーションに対して、新OSに対応させる修正プログラムを適用することで発生した。 コミュニケーションサーバーのアプリケーションは、氏名・住所・生年月日・性別という4つの「人確認情報」を、DBサーバーである「Oracle Database」に保存する際に、住基ネ

    [続報]住基ネット障害の原因は「文字化け」、231市町村に影響
  • “情報化時代”に追いつけるか? 審議が進む「新常用漢字表(仮)」: 第2部 新常用漢字表と文字コード規格第9回 包摂された字体を区別できる異体字シーケンス

    ● 字形選択子を使って異体字に置き換える 今回はUTS#37に基づいて、どのように異体字シーケンスが規定されているのか詳しく見てみよう。これの符号表現の考え方は、第2部第5回で述べた結合文字を使った合成列と全く同じものだ(第5回図2/第8回図1参照)。合成列では、例えば「ダ」という平仮名は「タ」(U+30BF)に結合文字の濁点(U+3099)を合成させることで「ダ」という文字の形を表現していた。これと同じように、例えば「箸」を表すU+7BB8の後に特定の文字(これを字形選択子と呼ぶ[*1])を並べることで任意の異体字に置き換える。つまり単一の文字で異体字を表すのでなく、符号を並べて表現するので「シーケンス」(並び)と呼ぶわけだ。 図1 異体字シーケンスの仕組み。統合漢字、および拡張領域に収録された漢字と、U+E0100からU+E01EFに収録された字形選択子が合成することで、未定義の文字に

  • Baidu絵文字検索の苦労話、開発者の文字コードマニアが論文に -INTERNET Watch

    satohi
    satohi 2010/03/09
    水野さん
  • 「美乳」で文字化けが直るって本当?

    ・「美乳」で文字化けが直るって当? オンラインDVD&CDレンタルなら月々1980円で借り放題のDMMがお得! えっ? って聞きなおしたくなるようなタイトルですが、「この『美乳』という文字をヘッダー部分にコメントとして挿入しておくと、文字化けが直る」という話は確かに存在します。ただし、これは大前提としてEUC-JPのページを作成するならば、という話になります。 <HTML> <HEAD> <meta http-equiv=Content-Type content="text/html; charset=EUC-JP"> <!-- 美乳 --> <TITLE>テスト1</TITLE> </HEAD> <BODY bgcolor="#FFFFFF"> このページはアダルトサイトとは無縁です。ヌード画像などは一切ありません。 </BODY> </HTML> では、なぜ、この「美乳」がおまじない

  • 新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)

    普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。     (日経コンピュータ) 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

    新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)
  • 第1回:進まないJIS2004への移行,その原因は?

    2004年に制定された最新の文字コード規格「JIS X 0213:2004(通称:JIS2004)」。このJIS2004に対応したWindows Vistaがリリースされて,早1年が経過した。JIS2004自体は,フォントやIMEの普及に合わせて,ユーザーに順調に浸透している。しかし,ユーザーからのデータを受け取る企業情報システムの側では,JIS2004への対応が進んでいないのが実情だ。なぜJIS2004への対応が進まないのか。その現状をまとめてみよう。 JIS X 0213:2004(JIS2004)は,2004年に制定された最新の文字コード規格。過去の文字コード規格に対して多くの文字を追加しており,従来扱えなかった日の地名・人名などが表現できるようになった(JIS X 0213の概要や,2004年に改訂された経緯については,ITproの記事「VistaでUnicode以外の選択肢はな

    第1回:進まないJIS2004への移行,その原因は?
    satohi
    satohi 2008/01/15
    サロゲートペアだけの問題じゃないはず。
  • PDF 千夜一夜: PDFと文字 (25) – CMapで文字コードからCIDへ変換

    Adobe-Japan1、Adobe-GB1などのグリフセットでは、ひとつひとつのグリフにCIDという番号が付いていることは説明しました。CIDフォント・ファイルには、文字を画面表示したり印刷するためのグリフ・データを収容しています。フォント・ファイルに収容されているグリフ・データにアクセスするときはCID番号を使わなければなりません。 WindowsLinuxやマッキントッシュなどのOSや、OSの上で動くアプリケーションは、Unicode、または機種専用の文字コードを使ってテキストを処理します。一方、CIDフォントにあるグリフを使ってその文字を表示・印刷するには、文字コードからCIDに変換しなければなりません。 この文字コードからCIDへの変換を定義するのがCMapです。 図 CMapで文字コードからCIDへ変換 アドビシステムズはAdobe-Japan1、Adobe-GB1などのグリ

  • 1