タグ

文字コードに関するworks014のブックマーク (405)

  • Unicode 10.0.0、リリースされる | スラド

    昨日(6月20日)付でUnicode 10.0.0がリリースされたとの連絡を、日時間の今日(6月21日)にいただいた。今回のリリースでは8518字が追加されていて、うちCJK統合漢字拡張Fが7473字(U+2CEB0~U+2EBE0)、変体仮名が285字(U+1B002~U+1B11E)の追加である。 私(安岡孝一)個人としては、これで戸籍統一文字と住民基台帳ネットワーク文字がほぼ一段落したのがありがたいが、5月23日・24日の日記にも書いたとおり、多少、問題が積み残しとなってしまった。また、絵文字の追加(U+1F900~U+1F9E6)や、「BITCOIN SIGN」の追加(U+20BF)は、今後、微妙な禍根を残す気がしないでもない。 まあ、とりあえずは、戸籍統一文字と住基統一文字のIVS提案を、早急に進めてもらうべきかしら。

    Unicode 10.0.0、リリースされる | スラド
  • Kyoto University Research Information Repository: 日本・中国・台湾・香港・韓国の常用漢字と漢字コード

    ダウンロード数: 3003 このアイテムの引用には次の識別子を使用してください: http://hdl.handle.net/2433/218381

  • 戸籍統一文字046350はUnicode 10.0のどこに行ったのか | yasuokaの日記 | スラド

    私(安岡孝一)の一昨日の日記の読者から、戸籍統一文字046350はUnicode 10.0に収録されたのか、という趣旨の御質問をいただいた。収録されたのはされたのだが、ちょっとヤヤコシイことになっている。JTC1/SC2/WG2/IRGの原案では、戸籍統一文字046350をU+865F「號」に統合しようとしていたのだが、日の抵抗にあって、結局、戸籍統一文字046110と統合した上で、U+2D239に収録することになった(cf. JTC1/SC2/WG2/IRG N2088)。ところが、Unicode 10.0(ドラフト)のCJK Extension Fでは、U+2D239にJMJ-057174だけが示されていて、JMJ-057183は示されていない。この結果、戸籍統一文字046110がU+2D239に収録されているのは確かだが、戸籍統一文字046350がどこに行ったのかは、一般の人たちに

    戸籍統一文字046350はUnicode 10.0のどこに行ったのか | yasuokaの日記 | スラド
  • IVD/IVSとは | 文字情報基盤整備事業

    IVS(Ideographic Variation Sequence/Selector)は、文字符号としては同一視される漢字の、細かな字形の差異を特別に使い分けるための仕組みです。IVSは文字符号の国際規格であるISO/IEC 10646(2008年版以降)に規定されています。また、IVSと、それに対応する字形の一覧は、UnicodeコンソーシアムからIVD(Ideographic Variation Database)として公開されており、ISO/IEC 10646から正規の規格として参照されています。 文字符号(文字コード)を定める日工業規格のJIS X 0213(以下、JIS)やISO/IEC 10646 Universal Coded Character Set(以下、UCS)などでは、複数の字形に対して一つの共通な符号(コード)を与える場合があります(「同一の符号位置に複数の字

  • macOS上のAPFSはUnicode Normalizationを行うのか? - なるせにっき

    iOS 10.3がリリースされましたが、APFSへの移行が含まれていて話題です。特に文字コード界隈ではHFS+で搭載されていた暗黙のUnicode Normalizationがなくなっている点が指摘されています1。 ではmacOSではどうなのでしょうか。SierraならばすでにAPFSを扱うことが出来るので試してみましょう。 % hdiutil create -fs APFS -size 1GB foo.sparseimage WARNING: You are using a pre-release version of the Apple File System called APFS which is meant for evaluation and development purposes only. Files stored on this volume may not be ac

    macOS上のAPFSはUnicode Normalizationを行うのか? - なるせにっき
  • Excelで作成したcsvとtxtの文字コードまとめ – 503DESIGN

    BLOG / 2017.02.10 InDesignのデータ結合用のデータソースを選択する際に毎度エラーを出してしまうので備忘録をまとめようとした際に、どうにもボリューミーになったので別に。 とりあえず手元で調べられるExcelの範囲内で。 文字コードの判別は、Sublime Text 3の文字コードの表示と、Mac ターミナルのnkfコマンドをインストールして見ているので、正しい表記なのかはソフト頼りなので気になる方はご自身で見て下さい。 環境:Windows Excel 2016 保存形式 文字コード

    works014
    works014 2017/02/13
    …データ結合絡み…
  • 0208と0213とUnicode - 明窓浄机 YAMAMOMO

    2016-08-08 當山日出夫 みてきたように、仮名といっても、文字セットによってちがいがある。二つのことを考えてみる。 第一に、『JIS X 0208』から『JIS X 0213』への変化においては、文字の追加がある。『0213』の方が使える文字が増えている。一般に、日語ワープロで使う文字(仮名)としては、基的にこの文字セットを考えることになるだろう。『0213』の文字を考えることになる。 第二に、ユニコードになったからといって、文字が増えるとは限らない。こと仮名についていえばそうである。(追記、これは間違いでした。後述参照。) 以上の二点であるが、第二の点も、整理すれば、基的に次の三つの点になる。 (1). 半濁音つきの仮名が、ユニコードにはいっていない。もともとの『0208』にあったものは入っているが、『0213』で追加になったものは、収録されていない。 半濁音が使用されるの

    0208と0213とUnicode - 明窓浄机 YAMAMOMO
  • JIS X 0213:2000 で追加の片仮名 - 明窓浄机 YAMAMOMO

    2016-08-07 當山日出夫 昨日は、平仮名について見たので、今日は片仮名である。『JIS X 0213:2000』で追加の片仮名については、 4.4.8 この規格では、片仮名29文字を新たに追加している。 とある。以下の文字である。 カ〜コ 半濁点つき ワ〜ヲ 濁点つき セ〜ト 半濁点つき ク〜ロ 小書き これらは、ガ行鼻濁音、外来語表記、それから、アイヌ語表記のための文字である。このうち、濁音つきの「ワ〜ヲ」は、「ヷ、ヸ、ヹ、ヺ」として、見ることができる。Unicodeにある。しかし、これら以外の仮名は、Unicodeの片仮名の一覧のなかにはない。 ワ行濁音のうち「ヴ」は、もとから『0208』にある文字なので、『0213』の追加にならない。 ATOK「和文コード表」の「ひらがな/カタカナ」の一覧を見ると、半濁点つきの「カ、キ、ク、ケ、コ」「セ、ツ、ト」、それから小書きの「ク、シ、ス

    JIS X 0213:2000 で追加の片仮名 - 明窓浄机 YAMAMOMO
  • JIS X 0213:2000 で追加の平仮名 - 明窓浄机 YAMAMOMO

    2016-08-06 當山日出夫 いったん、草仮名、『秋萩帖』からはなれて、JIS規格票を見てみることにする。 『JIS X 0213:2000』では、平仮名もいくつか追加になっている。まず、そのことを確認しておきたい。規格票の解説にはつぎのようにある。 4.4.7 平仮名 この規格では、平仮名8文字を新たに追加している。 ここでいう8文字とは、 半濁点つきの「かきくけこ」 濁点つきの「う」 小書きの「か」「け」 である。このうち実際にエディタ……私は、今、WZ Editor9 をつかっているのだが(文字コードの設定は、UTF8)、メイリオで表示……で、現実に使用することのできるのは、「ゔ」「ゕ」「ゖ」である。半濁点つきの「かきくけこ」は単独の文字としては使用できない。(これは、エディタによって表示がことなる。後述。) ただ、これも、ワープロ(一太郎、Word)であれば、使用可能である。単

    JIS X 0213:2000 で追加の平仮名 - 明窓浄机 YAMAMOMO
  • エンコードマニアックス

    MIME Decode ����������������学�

  • スペース - Wikipedia

    この項目では、言語の表記に使われる空白について説明しています。技術的な文字のスペースについては「空白文字」を、その他の用法については「スペース (曖昧さ回避)」をご覧ください。 スペース(英: space)は、ラテン文字、ギリシア文字、キリル文字などにおいて、語と語の区切りを表すために空ける空白、またその他の字間の空白のことである。 ヘブライ語やアラビア語においては、早い時期から単語の区切りを表すのに空白が置かれていた。ラテン文字で最初に使われたのはアイルランド語で、時期は600年から800年頃と考えられている。それまでラテン文字では中黒が使われていた。 ラテン文字におけるスペース[編集] ラテン文字においては、語と語の間にスペースが置かれる。手書き文字では、間を空けるほか、筆記体では続けて書かない。印刷・組版などの場合、印字エリアの右端をそろえる「ジャスティフィケーション」のためには、ス

    works014
    works014 2016/06/15
    …スペース…
  • UnicodeのU+0020とU+00A0( )は別物である|mattintosh note (跡地)

    ​ Unicodeにはスペースが複数ありますが、その中でもU+0020とU+00A0の違いについてです。 HTMLでもよく使われる はU+00A0の方です。両者の違いは見ていただいた方がわかりやすいでしょう。 キーボード全角スペース a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a キーボード半角スペース a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a U+0020 (SPACE) a a a a a a

    works014
    works014 2016/06/15
    …スペース…
  • 2. スペースは" "だけじゃない的な話

    Home -> 雑用 -> 雑用メモ -> [2. スペースは" "だけじゃない的な話] 2014/10/15 作成 2014/10/20 更新 2014/11/01 更新 一切推敲していない糞文章故、大変読み難い代物となっております。 経緯みたいなアレ [1. ハイフンは"-"だけじゃない、中点は"·"だけじゃない]の整理中にふとテキストエディタを見た時に、半角スペースなのに 記号表示がされていないものがあることに気付いた。というのも、エディタの設定で半角スペースの位置に薄く空白記号が描画される ようにしているのだけれども、一部のスペース(一見普通の半角っぽい)ではそれが描画されていなかったので違和感全開だったのである。 で、調べてみたら記号表示されていない方は (= )であることが分かった。  の存在自体はずっと前から知っていたのだけれども、これはHTML

  • 1. ハイフンは"-"だけじゃない、中点は"·"だけじゃない

    Home -> 雑用 -> 雑用メモ -> [1. ハイフンは"-"だけじゃない、中点は"·"だけじゃない] 2014/10/14 作成 2014/11/01 更新 2016/08/07 更新 (U+02C9, U+05B9, U+05BA, U+05C1, U+05C2, U+05C4, U+05C5,U+06D4, U+06EC, U+0701, U+0702, U+073C, U+073F, U+0740, U+0741, U+0742, U+07F2, U+07FA, U+0830, U+0902, U+093C, U+09BC, U+0A02, U+0A82, U+0B3C, U+0BCD, U+1712, U+1713, U+2027, U+FE52, U+1DA88 を追加) 一切推敲していない糞文章故、大変読み難い代物となっております。 メモ作成の経緯 実はphpか何かでモ

  • NDL書誌情報ニュースレター35号

    2015 年 4 号(通号 35 号) NDL 書誌情報ニュースレター 目 次 世界図書館・情報会議(第 81 回 IFLA 大会)、VIAF 評議会会議報告 (収集・書誌調整課 津田深雪) 1 世界の RDA の取組みのいま(3)―カナダ (外国資料課 河村悦子) 7 世界の RDA の取組みのいま(4)―RDA のフランス語翻訳 (外国資料課 十文字香奈子) 12 世界の RDA の取組みのいま(5)―フィリピン (外国資料課 上田友明) 18 文字コード講座 第 1 回―文字コードの歴史(Unicode 前史) (電子情報部 電子情報企画課 上綱秀治) 23 NACSIS-CAT と JAPAN/MARC(A)の典拠データ同定のための予備調査について (電子情報部 電子情報サービス課 安藤大輝) 31 第 17 回図書館総合展:全国書誌利活用促進の取組み―「これまで」の総括と「これか

  • Unicodeとは(草稿) | 電子書籍、電子出版のCAS-UBブログ

    JEPAサイトで完成版公開 Unicode Unicodeは、Unicodeコンソーシアムという業界団体が定める、地球上の全ての文字を網羅する符号化文字集合(文字コード)である。Unicodeが普及する前は地域・国別に標準化された文字コードが使われていた。地域別に文字コードが異なるとコンピュータ・ソフトウェアのローカライズで、基的なテキスト処理を地域毎に変更しなければならない。この問題を解消するためプログラムの文字処理用にUnicodeが開発されたが、インターネットの普及に伴い、HTMLやXMLのテキスト用文字コードとしても使われるようになり、現在は最もポピュラーな文字コードになった。 Unicodeの歴史 ゼロックスはStarの日版J-Star、アップルはKanji Talk(Macintoshの日語環境)を作る過程で、日語化の問題に直面した。こんなことから両社でUnicodeの

  • 「プログラマのための文字コード技術入門」EPUB版販売開始! - yanok.net

    拙著「プログラマのための文字コード技術入門」の電子書籍版、既に提供済のPDF版に加えて、EPUB版の公開が開始されたようです。 プログラマのための文字コード技術入門 | Gihyo Digital Publishing ... 技術評論社の電子書籍 PDFが先行して販売されていましたが、EPUBはUnicode特有の問題のために時間がかかっていたようです。 書の原稿はJIS X 0213にある文字だけを使っているのですが(EUC-JIS-2004で書いたので当然)、Unicodeで符号化したときにアプリケーションの処理で問題になりそうな点として、サロゲートペアの必要な文字、結合文字の必要な文字、互換漢字、という3つが挙げられます。今回のEPUB (のアプリケーション)では主に結合文字の箇所で問題があったのではないかと思います。そういうところはまさに書が扱っている文字コードの問題です。

  • 表外漢字UCS互換の憂鬱 - yanok.net

    下記のページに、「主権を?奪されて」というくだりがあって、頭の中で警報音が鳴り始めました。 中国はなぜ平気で他人のものを「奪う」のか 専門家が読み解く (NEWSポストセブン) 「?奪」の「?」はHTMLソースから既に疑問符になってしまっています。何かが文字化けしてこうなってしまったのでしょう。 何が起こったのか想像する 前後の文脈から考えて、これは「剥奪」でしょう。もっといえば、「剝奪」だったのではないかというのが、私の想像です。何をいっているか、お分かりでしょうか。 「剥」と「剝」、両者は同じ字ですが、形の違いがあるのに気付いたでしょうか。左上の部分が「ヨ」のような形か「互」の上の横線が無いような形かどうかの違いです。 前者はJIS第1水準漢字(面区点位置1-39-77)ですが、後者はJIS第3水準(面区点位置1-15-94)、それも、JIS X 0213の2004年改正(JIS200

  • 2014.12.10 アップデート「漢字データベースとユニコード」 - JEPA

    Unicodeと漢字関連の最近の動きをご紹介するセミナーです。「文字フォント、文字コードはICTの米」ですので、電子出版関係者、漢字、辞書関係者は必見。 ■概要と講師 ●はじめに 小林 龍生 氏 (JEPAフェロー、CITPC理事)  講師紹介、互換漢字とSVS(Stabilized Variation Sequence)など

  • 日本語ファイル名問題 - Mac環境固有 - ECCS端末 - FAQ - ECCS Tutor's page

    注意 この記事は古い記事です。 過去に東京大学教育用計算機システム(ECCS)で発生していた問題について説明しています。問題としてはECCS以外の一般の環境でも発生しうる問題であり、ECCS以外でも有用であると考え残してありますが、内容は更新されていません。また、一部の事項は、東京大学教育用計算機システム(ECCS)に固有のものであり、一般の環境には該当しなかったり、適用できなかったりする部分がございますことを、予めご了承ください。 現在のECCSではこの問題は対策されており、以下に記述のある問題のほとんどは解消されています。しかしながら、最近においてもFinderで若干の不具合が残っているという報告があります。 →相談員ミーティング(2018年6月15日) →濁点・半濁点を名前に含むフォルダのFinder等における不具合(ECCS広報) 目次 概要 「日語ファイル名問題」とは? 過去の

    works014
    works014 2014/12/04
    “ファイル名に濁点・半濁点付きのかなが含まれている場合にこの症状が発生することが多く見られたことから、ここでは通称を「日本語ファイル名問題」としています”…