タグ

文字コードとunicodeに関するworks014のブックマーク (36)

  • Unicode 10.0.0、リリースされる | スラド

    昨日(6月20日)付でUnicode 10.0.0がリリースされたとの連絡を、日時間の今日(6月21日)にいただいた。今回のリリースでは8518字が追加されていて、うちCJK統合漢字拡張Fが7473字(U+2CEB0~U+2EBE0)、変体仮名が285字(U+1B002~U+1B11E)の追加である。 私(安岡孝一)個人としては、これで戸籍統一文字と住民基台帳ネットワーク文字がほぼ一段落したのがありがたいが、5月23日・24日の日記にも書いたとおり、多少、問題が積み残しとなってしまった。また、絵文字の追加(U+1F900~U+1F9E6)や、「BITCOIN SIGN」の追加(U+20BF)は、今後、微妙な禍根を残す気がしないでもない。 まあ、とりあえずは、戸籍統一文字と住基統一文字のIVS提案を、早急に進めてもらうべきかしら。

    Unicode 10.0.0、リリースされる | スラド
  • スペース - Wikipedia

    スペース(英: space)は、ラテン文字、ギリシア文字、キリル文字などにおいて、語と語の区切りを表すために空ける空白、またその他の字間の空白のことである。 ヘブライ語やアラビア語においては、早い時期から単語の区切りを表すのに空白が置かれていた。ラテン文字で最初に使われたのはアイルランド語で、時期は600年から800年ごろと考えられている。それまでラテン文字では中黒が使われていた。 ラテン文字においては、語と語の間にスペースが置かれる。手書き文字では、間を空けるほか、筆記体では続けて書かない。印刷・組版などの場合、印字エリアの右端をそろえる「ジャスティフィケーション」のためには、スペースを伸縮して調整する。 また様々な形式で文と文の間にスペースを置く。「フレンチ・スペーシング」では文と文の間に1文字分のスペースを置く。「ダブル・スペーシング」または「イングリッシュ・スペーシング」では2文字

    works014
    works014 2016/06/15
    …スペース…
  • UnicodeのU+0020とU+00A0( )は別物である|mattintosh note (跡地)

    ​ Unicodeにはスペースが複数ありますが、その中でもU+0020とU+00A0の違いについてです。 HTMLでもよく使われる はU+00A0の方です。両者の違いは見ていただいた方がわかりやすいでしょう。 キーボード全角スペース a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a キーボード半角スペース a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a U+0020 (SPACE) a a a a a a

    works014
    works014 2016/06/15
    …スペース…
  • Unicodeとは(草稿) | 電子書籍、電子出版のCAS-UBブログ

    JEPAサイトで完成版公開 Unicode Unicodeは、Unicodeコンソーシアムという業界団体が定める、地球上の全ての文字を網羅する符号化文字集合(文字コード)である。Unicodeが普及する前は地域・国別に標準化された文字コードが使われていた。地域別に文字コードが異なるとコンピュータ・ソフトウェアのローカライズで、基的なテキスト処理を地域毎に変更しなければならない。この問題を解消するためプログラムの文字処理用にUnicodeが開発されたが、インターネットの普及に伴い、HTMLやXMLのテキスト用文字コードとしても使われるようになり、現在は最もポピュラーな文字コードになった。 Unicodeの歴史 ゼロックスはStarの日版J-Star、アップルはKanji Talk(Macintoshの日語環境)を作る過程で、日語化の問題に直面した。こんなことから両社でUnicodeの

  • 2014.12.10 アップデート「漢字データベースとユニコード」 - JEPA

    Unicodeと漢字関連の最近の動きをご紹介するセミナーです。「文字フォント、文字コードはICTの米」ですので、電子出版関係者、漢字、辞書関係者は必見。 ■概要と講師 ●はじめに 小林 龍生 氏 (JEPAフェロー、CITPC理事)  講師紹介、互換漢字とSVS(Stabilized Variation Sequence)など

  • 文字コード地獄秘話 第2話:聖母マリアよ、二人を何故別々に? | ALBERT Engineer Blog

    はじめに 二人を最初から一つにしておけば、何も問題など起こらなかったのだ。 一つのものを二つに分けたその時から、長い物語が始まる。 おや?また会いましたね。どうも、文字コードおじさんです。 もう半年近くも前になりますが、前回の投稿はだいぶ反響があったようで驚いております。ありがとうございます。 今回も文字コードネタですが、Unicodeにおける結合文字列を取り上げてみようと思います。 高度に発達した文字コードは地獄と見分けがつかない 次の画像はTwitterの投稿フォームですが、おかしな点があります。わかりますか? そうです。4文字しか入力していないはずなのに 5文字分とカウント されていますね。おかしいと思いませんか?あなた? 改行とかスペース入れてるんじゃねーだろうな?とか言わないで下さいね? さらに次の画像を見てみてください。 こちらは4文字とカウントされていますね。先のものとは一体

    文字コード地獄秘話 第2話:聖母マリアよ、二人を何故別々に? | ALBERT Engineer Blog
  • U+FFFF以上の文字ってなんや → サロゲートペアってなんや → Spring Web Services が言うことを聞きません! とかで一日潰れた話 - エンジニア的なネタを毎週書くブログ

    表題のような感じなのですが、これまで理解が曖昧だったUnicodeとか何とかが今までよりわかったのでメモ。 尚、こちらのサイトを非常に参考にさせていただきました。 Unicodeについて コードポイントとは 文字コードとは 今日覚えた単語その一。Unicodeに限らず、文字をコンピュータ上で表現する際、1つの文字に1つの数値を対応させるわけですが、この文字に対応する数値をコードポイントというそう。 いままでASCIIコードとか呼んでました。 そして、文字と数値の割り当てのルールのことを「文字コード」と言うんだそうです。 Unicodeとは から UTF-XXは何が違うんじゃ という話へ Unicode誕生 文字コードが乱立したため、あるコードポイントで表現される文字が、文字コードによって、てんでばらばらという状況に。 ややこしいから、ひとつの統一した文字コードをつくろう! ということで「U

    U+FFFF以上の文字ってなんや → サロゲートペアってなんや → Spring Web Services が言うことを聞きません! とかで一日潰れた話 - エンジニア的なネタを毎週書くブログ
  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • Unicode正規化 用語の混乱について 第4.2版 – ものかの

    初版 2010/4/5 第2版 2013/5/10 誤解を修正。全面的に書き直し。 第3版 2014/7/13 なるべく分かりやすく全面的に書き直し。 第4版 2015/5/20 さらに分かりやすく全面的に書き直し。 第4.1版 2015/5/27 まだ分かりにくいと不評なので書き直し。 第4.2版 2015/5/27 さらに分かりやすく調整。 Unicode正規化の考え方自体はとてもシンプルです。でも、よく知ろうとしていろいろ調べると、用語がハイコンテキストすぎて、混乱してワケがわからなくなります。日で一般的に見られる用語を図にしてみましょう。 混乱するのはどこだと思いますか? “合成済み文字” と “合成文字” の2か所です。どちらも言葉として同じ意味です。それなのに、異なった状態を表す用語として無理矢理に使い分けようとしています。ここから、以下のような奇妙な文章ができあがります。

    Unicode正規化 用語の混乱について 第4.2版 – ものかの
    works014
    works014 2013/05/11
    _ようわからん…
  • 「Windows 8 で変わる文字 - 異体字と Unicode IVS」雑感 - しろもじメモランダム

    Microsoft のセミナーに行ってきた。 文字コードと異体字と Unicode IVS 〜 情報システムにおける日語処理 〜 | スキルアップ カリキュラム - マイクロソフト イノベーション センター 目新しい情報はあまりなかったが、イベントレポート書いて的な圧力を Twitter 上で受けてしまったので、ここに雑感を書いてお茶を濁したいと思う。 今回の内容は 前半:これまでの文字コード・漢字施策の変遷に関する、ざっくりとした説明 後半:IVS自体と Windows 上におけるIVS対応についての、ざっくりとした説明 という感じだった。幅広い内容をたったの2時間で扱わなければならないので、どうしてもざっくりになってしまう。ある程度の基礎知識がある人であれば、「あーそうだったよね」と自分の頭の中を整理しつつ、まとめ・おさらい的な感覚で聞けると思うが、逆にまったくの初心者がこの2時間だ

    「Windows 8 で変わる文字 - 異体字と Unicode IVS」雑感 - しろもじメモランダム
  • Unicode文字コード表

    ブラウザでの文字コードの表示を確認するためのコード表です。 文字が正しく表示されているかどうかは、閲覧環境のフォントに依存します。花園明朝、IPAmj明朝、源ノ角はPCにインストールされている必要があります。 フォントを指定していても、フォールバックで別フォントで表示されている場合があります。 JIS X 0208(第1,2水準漢字含む) JIS X 0213(第3,4水準漢字含む) Adobe-Japan1-6(UniJISX02132004-UTF32マッピング)固有。上段の数字はcidコード。カッコ内は0-6の範囲。 (JIS-UCSのコード変換はこちらのデータを利用させていただきました。) (IPAフォントのWebフォントは、ボイジャー社のBinBサイトで配布されているものを利用させていただいています。)

    Unicode文字コード表
  • Unicode正規化 日本語訳の混乱

    のユーザがUnicode正規化で混乱する原因のひとつに「日訳語が定まっていない」という現状があります。その最たるものが、この2つです。 Combining 複数文字の組み合せで1文字を表現していること ...Unicode正規化 日語訳の混乱 日のユーザがUnicode正規化で混乱する原因のひとつに「日訳語が定まっていない」という現状があります。その最たるものが、この2つです。 Combining 複数文字の組み合せで1文字を表現していること Composition 複数文字で表現された1文字を単一コードの1文字にすること この2つ、意味がまったく異なるのですが、日語訳では辞書的に「結合」「合成」のどちらも使えてしまいます。しかしUnicode用語として意味が違うのですから、日語でもちゃんと訳語を分けておきたいところです。 この2つの訳語を選定するには、他の語もあわせ

  • ivs

    IVSとは? IVSは何故必要か? 今まで「外字」を使って表示していた異体字をIVSを使って表示できます。 ※IVS(Ideographic Variation Sequence):「基礎知識」で解説します。 例えば、「つじ くに男」というお名前の場合、名字と名前の文字の違いの組み合わせだけで8種類の違いがでてきます。 どの組み合わせかの区別を、今までは、「外字」を使って区別していました。 しかし、IVSを導入すれば、プレーンテキスト文章でも区別ができます。 IVS文字 表示デモ動画 MacintoshおよびWindows環境でIVS文字の表示確認を行っています。 ※動画を再生するには、videoタグをサポートしたブラウザが必要です。 外字と異体字について 外字とは 文字コード規格表に含まれない文字のことであり、ユーザーが定義したユーザー定義文字やメーカーによって定義された機種依存文字、ベ

    ivs
    works014
    works014 2012/11/14
    …(このようなテキストでも英語・数字・括弧類の 1バイト・2バイトの混用がみられる…)
  • JIS漢字とUCS (Unicode)の文字の対応・変換について

    セント記号 JIS漢字のセント記号(¢)はCENT SIGNである。対応するUCSのコードポイン トはU+00A2である。 ところが、これをUCSのFULLWIDTH CENT SIGNに変換するものがある。ASCII にもJIS X 0201にもセント記号はないので、これが「FULLWIDTH」になる理由 はない。従ってこの変換は不適切である。 ポンド記号 JIS漢字のポンド記号(£)はPOUND SIGNである。対応するUCSのコードポ イントはU+00A3である。 ところが、これをUCSのFULLWIDTH POUND SIGNに変換するものがある。 ASCIIにもJIS X 0201にもポンド記号はないので、これが「FULLWIDTH」になる 理由はない。従ってこの変換は不適切である。 否定記号 JIS漢字の否定記号(¬)はNOT SIGNである。対応するUCSのコードポイント は

  • 日本の文字とUnicode 第6回 | 大修館書店 WEB国語教室

    現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日語に特化して作られたわけではないので、日の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、第4回・第5回に引き続き、第6回も、漢字とUnicodeの関係です。 まずは「晴」(U+6674)のIVSを見てみましょう。 何だか妙な感じですね。同じ「晴」が<U+6674 U+E0100>と<U+6674 U+E0103>に、同じ「晴」が<U+6674 U+E0101>と<U+6674 U+E0102>に、それぞれダブって収録されているように見えます。実際そうなのです

  • Firefoxなどで半角濁点が前の文字と一緒に選択される理由 - しろもじメモランダム

    Firefox などで下の半角濁点「゙」・半角半濁点「゚」を選択してみてほしい。 ガ、あ゙、漢゙、a゙、 ゙、☃゙、✐゙ え゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙゙っ!! ぷ゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚゚。 ぬ゙゙゚゙゙゙゚゚゚゚゙゙゙゙゚゙゚゙゙゚゙゙゙゙゙゚゙゙゙゚゙゚゚゚゙゙゙゚゚゚゚゚゚゚゙゙゙゚ーん いくら半角(半)濁点だけを選択しようとしても、前の文字まで(それがスペースだろうが記号だろうが)一緒に選択されてしまうと思う。もう少し正確に言えば選択されるのは [^゙゚][゙゚]* にマッチする部分で、カーソルの移動の際にも [^゙゚][゙゚]* が一文字として扱われる。delete キーを押すと [^゙゚][゙゚]* が一気に消えるが、backspace キーでは半角(半)濁点がひとつずつ消える。 Windows のメモ帳*1など昔ながらのアプリケーショ

  • ユニコード戦記─文字符号の国際標準化バトル - moroshigeki's blog

    著者の小林龍生さんよりご恵贈いただきました。ありがとうございます。 ユニコード戦記 ─文字符号の国際標準化バトル 作者: 小林龍生出版社/メーカー: 東京電機大学出版局発売日: 2011/06/10メディア: 単行購入: 7人 クリック: 466回この商品を含むブログ (20件) を見る 内容も、語り口も、すばらしくおもしろかった、と言いたい。内容の一部は著者人から直接聞いたことがあるものもあるし、すでに読んだことがある原稿の再録もあったりするのだが、それらも含めておもしろかった。 もっとも、文字コード関連の知識を多少なりとも持っていないと、「ISO/IEC JTC1/SC2/WG2/IRG」のようなメダパニ系呪文にやられてしまうかもしれない。逆に文字コードに詳しい人のなかでも、Unicodeの現状に不満を持っている人にとっては、規格制定側からの言い訳にしか読めないかもしれない。私の場

    ユニコード戦記─文字符号の国際標準化バトル - moroshigeki's blog
  • 文字符号の歴史—欧米と日本編 | 配電盤

    安岡 孝一 (著), 安岡 素子 (著) 出版社: 共立出版 ; ISBN: 4320121023 ; 欧米と日編 巻 (February 2006) これはいいね 文字符号の成立過程やその内容に関しては、伝聞や根拠のない憶測はいっさい避け、あくまで文献によって裏づけのとれる事柄だけを、参考とした文献とともに示した。文献学や科学史研究においては、ごくあたりまえとされていることを、あたりまえにやっただけである。 文字符号についての基礎文献になることは間違いない 残念なのは、記述がJIS X 0213の制定(2000.1.20)までで終わっていること。私自身はJIS X 0213の文字セットをUnicodeで使うのが「現実」的だと考えているからまあいいのだが、特に人名・地名などで異体字にこだわる人もいて、そういう人にとって唯一の手段であろうAdobe-Japan1-5(2002.9.20)あ

    文字符号の歴史—欧米と日本編 | 配電盤
    works014
    works014 2011/03/07
    _CID8489とCID20305
  • 出版物のUnicode化推進セミナー 日本電子出版協会(JEPA)

    2010年は、iPadの発売、Kindle3への日フォントの導入、年末のシャープのガラパゴス、ソニーのリーダーの発売など、まさに電子書籍元年にふさわしい話題が満載の年となりました。しかし、ハードウェアの話題ばかりが先行し、実際に読まれるコンテンツに関しては、コンテンツの充実という意味でも、流通経路の整備という意味でも、2011年が格的普及に向けての正念場になることも明らかです。 こうした中で、出版社や印刷会社、編集プロダクションなど、コンテンツの制作を担う現場にとっては、各読書端末における縦組みやルビなどの日語組版機能の実装状況とともに、外字や異体字など、日語の文字表記の状況を正確に把握しておくことは、コンテンツ資産の電子書籍化、迅速かつ効率的な電子書籍の制作には不可欠です。 セミナーは、電子書籍の制作と普及に欠かせない基礎技術である文字コードについて、最新の国際標準化状況

    works014
    works014 2011/01/06
    「ライブ中継もあります。」と…
  • 5-1. 𛀁𛀀の技術情報

    Unicode 6.0.0より使用可能となった次の仮名2文字にまつわる情報をまとめた頁です。 𛀁𛀁: U+1B001; HIRAGANA LETTER ARCHAIC YE(ヤ行のエを表した「江」に由来する平仮名。「エ」のひらがな版) 𛀀𛀀: U+1B000; KATAKANA LETTER ARCHAIC E(あ行のえを表した「衣」に由来する片仮名。「え」のカタカナ版) 技術情報 𛀁𛀁 Unicode: U+1B001; HIRAGANA LETTER ARCHAIC YE UTF-8: f0 9b 80 81 (11110000 10011011 10000000 10000001) UTF-16: d82c dc01 (11011000 00101100 11011100 00000001) 文字参照16進数: &#x1b001;(𛀁) 文字参照10進数: &#1105