[B! 文字コード][unicode] works014のブックマーク

Unicode 10.0.0、リリースされる | スラド

昨日（6月20日）付でUnicode 10.0.0がリリースされたとの連絡を、日本時間の今日（6月21日）にいただいた。今回のリリースでは8518字が追加されていて、うちCJK統合漢字拡張Fが7473字（U+2CEB0～U+2EBE0）、変体仮名が285字（U+1B002～U+1B11E）の追加である。私（安岡孝一）個人としては、これで戸籍統一文字と住民基本台帳ネットワーク文字がほぼ一段落したのがありがたいが、5月23日・24日の日記にも書いたとおり、多少、問題が積み残しとなってしまった。また、絵文字の追加（U+1F900～U+1F9E6）や、「BITCOIN SIGN」の追加（U+20BF）は、今後、微妙な禍根を残す気がしないでもない。まあ、とりあえずは、戸籍統一文字と住基統一文字のIVS提案を、早急に進めてもらうべきかしら。

works014 2017/06/22

リンク

スペース - Wikipedia

スペース（英: space）は、ラテン文字、ギリシア文字、キリル文字などにおいて、語と語の区切りを表すために空ける空白、またその他の字間の空白のことである。ヘブライ語やアラビア語においては、早い時期から単語の区切りを表すのに空白が置かれていた。ラテン文字で最初に使われたのはアイルランド語で、時期は600年から800年ごろと考えられている。それまでラテン文字では中黒が使われていた。ラテン文字においては、語と語の間にスペースが置かれる。手書き文字では、間を空けるほか、筆記体では続けて書かない。印刷・組版などの場合、印字エリアの右端をそろえる「ジャスティフィケーション」のためには、スペースを伸縮して調整する。また様々な形式で文と文の間にスペースを置く。「フレンチ・スペーシング」では文と文の間に1文字分のスペースを置く。「ダブル・スペーシング」または「イングリッシュ・スペーシング」では2文字

works014 2016/06/15

…スペース…

リンク

UnicodeのU+0020とU+00A0( )は別物である｜mattintosh note (跡地)

Unicodeにはスペースが複数ありますが、その中でもU+0020とU+00A0の違いについてです。 HTMLでもよく使われる はU+00A0の方です。両者の違いは見ていただいた方がわかりやすいでしょう。キーボード全角スペース a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a　a キーボード半角スペース a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a U+0020 (SPACE) a a a a a a

works014 2016/06/15

…スペース…

リンク

Unicodeとは（草稿） | 電子書籍、電子出版のCAS-UBブログ

JEPAサイトで完成版公開 Unicode Unicodeは、Unicodeコンソーシアムという業界団体が定める、地球上の全ての文字を網羅する符号化文字集合（文字コード）である。Unicodeが普及する前は地域・国別に標準化された文字コードが使われていた。地域別に文字コードが異なるとコンピュータ・ソフトウェアのローカライズで、基本的なテキスト処理を地域毎に変更しなければならない。この問題を解消するためプログラムの文字処理用にUnicodeが開発されたが、インターネットの普及に伴い、HTMLやXMLのテキスト用文字コードとしても使われるようになり、現在は最もポピュラーな文字コードになった。 Unicodeの歴史ゼロックスはStarの日本版J-Star、アップルはKanji Talk（Macintoshの日本語環境）を作る過程で、日本語化の問題に直面した。こんなことから両社でUnicodeの

works014 2015/11/09

リンク

2014.12.10 アップデート「漢字データベースとユニコード」 - JEPA

Unicodeと漢字関連の最近の動きをご紹介するセミナーです。「文字フォント、文字コードはICTの米」ですので、電子出版関係者、漢字、辞書関係者は必見。 ■概要と講師 ●はじめに　小林龍生氏 (JEPAフェロー、CIT PC理事) 　講師紹介、互換漢字とSVS(Stabilized Variation Sequence)など

works014 2014/12/11

リンク

文字コード地獄秘話第2話：聖母マリアよ、二人を何故別々に？ | ALBERT Engineer Blog

はじめに二人を最初から一つにしておけば、何も問題など起こらなかったのだ。一つのものを二つに分けたその時から、長い物語が始まる。おや？また会いましたね。どうも、文字コードおじさんです。もう半年近くも前になりますが、前回の投稿はだいぶ反響があったようで驚いております。ありがとうございます。今回も文字コードネタですが、Unicodeにおける結合文字列を取り上げてみようと思います。高度に発達した文字コードは地獄と見分けがつかない次の画像はTwitterの投稿フォームですが、おかしな点があります。わかりますか？そうです。4文字しか入力していないはずなのに 5文字分とカウントされていますね。おかしいと思いませんか？あなた？改行とかスペース入れてるんじゃねーだろうな？とか言わないで下さいね？さらに次の画像を見てみてください。こちらは4文字とカウントされていますね。先のものとは一体

works014 2014/10/24

リンク

U+FFFF以上の文字ってなんや　→　サロゲートペアってなんや　→　Spring Web Services が言うことを聞きません！　とかで一日潰れた話 - エンジニア的なネタを毎週書くブログ

表題のような感じなのですが、これまで理解が曖昧だったUnicodeとか何とかが今までよりわかったのでメモ。尚、こちらのサイトを非常に参考にさせていただきました。 Unicodeについてコードポイントとは　文字コードとは今日覚えた単語その一。Unicodeに限らず、文字をコンピュータ上で表現する際、1つの文字に1つの数値を対応させるわけですが、この文字に対応する数値をコードポイントというそう。いままでASCIIコードとか呼んでました。そして、文字と数値の割り当てのルールのことを「文字コード」と言うんだそうです。 Unicodeとは　から　UTF-XXは何が違うんじゃ　という話へ Unicode誕生文字コードが乱立したため、あるコードポイントで表現される文字が、文字コードによって、てんでばらばらという状況に。ややこしいから、ひとつの統一した文字コードをつくろう！　ということで「U

works014 2014/10/23

リンク

文字コード地獄秘話第1話：Unicodeにおける全角・半角 - ALBERT Engineering Blog

ごあいさつ皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。固定観念を捨てよう「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。しか

works014 2014/04/21

リンク

Unicode正規化用語の混乱について第4.2版 – ものかの

初版　2010/4/5 第2版　2013/5/10　誤解を修正。全面的に書き直し。第3版　2014/7/13　なるべく分かりやすく全面的に書き直し。第4版　2015/5/20　さらに分かりやすく全面的に書き直し。第4.1版　2015/5/27　まだ分かりにくいと不評なので書き直し。第4.2版　2015/5/27　さらに分かりやすく調整。 Unicode正規化の考え方自体はとてもシンプルです。でも、よく知ろうとしていろいろ調べると、用語がハイコンテキストすぎて、混乱してワケがわからなくなります。日本で一般的に見られる用語を図にしてみましょう。混乱するのはどこだと思いますか？ “合成済み文字” と “合成文字” の２か所です。どちらも言葉として同じ意味です。それなのに、異なった状態を表す用語として無理矢理に使い分けようとしています。ここから、以下のような奇妙な文章ができあがります。

works014 2013/05/11

_ようわからん…

リンク

「Windows 8 で変わる文字 - 異体字と Unicode IVS」雑感 - しろもじメモランダム

Microsoft のセミナーに行ってきた。文字コードと異体字と Unicode IVS 〜情報システムにおける日本語処理〜 | スキルアップカリキュラム - マイクロソフトイノベーションセンター目新しい情報はあまりなかったが、イベントレポート書いて的な圧力を Twitter 上で受けてしまったので、ここに雑感を書いてお茶を濁したいと思う。今回の内容は前半：これまでの文字コード・漢字施策の変遷に関する、ざっくりとした説明後半：IVS自体と Windows 上におけるIVS対応についての、ざっくりとした説明という感じだった。幅広い内容をたったの2時間で扱わなければならないので、どうしてもざっくりになってしまう。ある程度の基礎知識がある人であれば、「あーそうだったよね」と自分の頭の中を整理しつつ、まとめ・おさらい的な感覚で聞けると思うが、逆にまったくの初心者がこの2時間だ

works014 2013/03/06

リンク

Unicode文字コード表

ブラウザでの文字コードの表示を確認するためのコード表です。文字が正しく表示されているかどうかは、閲覧環境のフォントに依存します。花園明朝、IPAmj明朝、源ノ角はPCにインストールされている必要があります。フォントを指定していても、フォールバックで別フォントで表示されている場合があります。 JIS X 0208(第1,2水準漢字含む) JIS X 0213(第3,4水準漢字含む) Adobe-Japan1-6(UniJISX02132004-UTF32マッピング)固有。上段の数字はcidコード。カッコ内は0-6の範囲。 (JIS-UCSのコード変換はこちらのデータを利用させていただきました。) (IPA フォントのWebフォントは、ボイジャー社のBinBサイトで配布されているものを利用させていただいています。)

works014 2013/01/29

リンク

Unicode正規化日本語訳の混乱

日本のユーザがUnicode正規化で混乱する原因のひとつに「日本訳語が定まっていない」という現状があります。その最たるものが、この２つです。 Combining 複数文字の組み合せで１文字を表現していること ...Unicode正規化日本語訳の混乱日本のユーザがUnicode正規化で混乱する原因のひとつに「日本訳語が定まっていない」という現状があります。その最たるものが、この２つです。 Combining 複数文字の組み合せで１文字を表現していること Composition 複数文字で表現された１文字を単一コードの１文字にすることこの２つ、意味がまったく異なるのですが、日本語訳では辞書的に「結合」「合成」のどちらも使えてしまいます。しかしUnicode用語として意味が違うのですから、日本語でもちゃんと訳語を分けておきたいところです。この２つの訳語を選定するには、他の語もあわせ

works014 2012/12/27

リンク

ivs

IVSとは？ IVSは何故必要か？今まで「外字」を使って表示していた異体字をIVSを使って表示できます。 ※IVS(Ideographic Variation Sequence)：「基礎知識」で解説します。例えば、「つじ　くに男」というお名前の場合、名字と名前の文字の違いの組み合わせだけで8種類の違いがでてきます。どの組み合わせかの区別を、今までは、「外字」を使って区別していました。しかし、IVSを導入すれば、プレーンテキスト文章でも区別ができます。 IVS文字表示デモ動画 MacintoshおよびWindows環境でIVS文字の表示確認を行っています。 ※動画を再生するには、videoタグをサポートしたブラウザが必要です。外字と異体字について外字とは文字コード規格表に含まれない文字のことであり、ユーザーが定義したユーザー定義文字やメーカーによって定義された機種依存文字、ベ

works014 2012/11/14

…（このようなテキストでも英語・数字・括弧類の 1バイト・2バイトの混用がみられる…）

リンク

JIS漢字とUCS (Unicode)の文字の対応・変換について

セント記号 JIS漢字のセント記号(¢)はCENT SIGNである。対応するUCSのコードポイントはU+00A2である。ところが、これをUCSのFULLWIDTH CENT SIGNに変換するものがある。ASCII にもJIS X 0201にもセント記号はないので、これが「FULLWIDTH」になる理由はない。従ってこの変換は不適切である。ポンド記号 JIS漢字のポンド記号(£)はPOUND SIGNである。対応するUCSのコードポイントはU+00A3である。ところが、これをUCSのFULLWIDTH POUND SIGNに変換するものがある。 ASCIIにもJIS X 0201にもポンド記号はないので、これが「FULLWIDTH」になる理由はない。従ってこの変換は不適切である。否定記号 JIS漢字の否定記号(¬)はNOT SIGNである。対応するUCSのコードポイントは

works014 2012/10/21

リンク

日本の文字とUnicode　第6回 | 大修館書店　WEB国語教室

現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日本語に特化して作られたわけではないので、日本の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、第4回・第5回に引き続き、第6回も、漢字とUnicodeの関係です。まずは「晴」(U+6674)のIVSを見てみましょう。何だか妙な感じですね。同じ「晴」が<U+6674 U+E0100>と<U+6674 U+E0103>に、同じ「晴」が<U+6674 U+E0101>と<U+6674 U+E0102>に、それぞれダブって収録されているように見えます。実際そうなのです

works014 2012/08/10

リンク

Firefoxなどで半角濁点が前の文字と一緒に選択される理由 - しろもじメモランダム

Firefox などで下の半角濁点「ﾞ」・半角半濁点「ﾟ」を選択してみてほしい。ｶﾞ、あﾞ、漢ﾞ、aﾞ、ﾞ、☃ﾞ、✐ﾞえﾞﾞﾞﾞﾞﾞﾞﾞﾞﾞﾞﾞﾞﾞﾞﾞﾞっ!! ふﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟﾟ。ぬﾞﾞﾟﾞﾞﾞﾟﾟﾟﾟﾞﾞﾞﾞﾟﾞﾟﾞﾞﾟﾞﾞﾞﾞﾞﾟﾞﾞﾞﾟﾞﾟﾟﾟﾞﾞﾞﾟﾟﾟﾟﾟﾟﾟﾞﾞﾞﾟーんいくら半角（半）濁点だけを選択しようとしても、前の文字まで（それがスペースだろうが記号だろうが）一緒に選択されてしまうと思う。もう少し正確に言えば選択されるのは [^ﾞﾟ][ﾞﾟ]* にマッチする部分で、カーソルの移動の際にも [^ﾞﾟ][ﾞﾟ]* が一文字として扱われる。delete キーを押すと [^ﾞﾟ][ﾞﾟ]* が一気に消えるが、backspace キーでは半角（半）濁点がひとつずつ消える。 Windows のメモ帳*1など昔ながらのアプリケーショ

works014 2011/09/02

リンク

ユニコード戦記─文字符号の国際標準化バトル - moroshigeki's blog

著者の小林龍生さんよりご恵贈いただきました。ありがとうございます。ユニコード戦記 ─文字符号の国際標準化バトル作者: 小林龍生出版社/メーカー: 東京電機大学出版局発売日: 2011/06/10メディア: 単行本購入: 7人クリック: 466回この商品を含むブログ (20件) を見る内容も、語り口も、すばらしくおもしろかった、と言いたい。内容の一部は著者本人から直接聞いたことがあるものもあるし、すでに読んだことがある原稿の再録もあったりするのだが、それらも含めておもしろかった。もっとも、文字コード関連の知識を多少なりとも持っていないと、「ISO/IEC JTC1/SC2/WG2/IRG」のようなメダパニ系呪文にやられてしまうかもしれない。逆に文字コードに詳しい人のなかでも、Unicodeの現状に不満を持っている人にとっては、規格制定側からの言い訳にしか読めないかもしれない。私の場

works014 2011/06/08

リンク

文字符号の歴史—欧米と日本編 | 配電盤

安岡孝一 (著), 安岡素子 (著) 出版社: 共立出版 ; ISBN: 4320121023 ; 欧米と日本編巻 (February 2006) これはいいね文字符号の成立過程やその内容に関しては、伝聞や根拠のない憶測はいっさい避け、あくまで文献によって裏づけのとれる事柄だけを、参考とした文献とともに示した。文献学や科学史研究においては、ごくあたりまえとされていることを、あたりまえにやっただけである。文字符号についての基礎文献になることは間違いない残念なのは、記述がJIS X 0213の制定（2000.1.20）までで終わっていること。私自身はJIS X 0213の文字セットをUnicodeで使うのが「現実」的だと考えているからまあいいのだが、特に人名・地名などで異体字にこだわる人もいて、そういう人にとって唯一の手段であろうAdobe-Japan1-5(2002.9.20)あ

works014 2011/03/07

_CID8489とCID20305

リンク

出版物のUnicode化推進セミナー　日本電子出版協会（JEPA）

2010年は、iPadの発売、Kindle3への日本語フォントの導入、年末のシャープのガラパゴス、ソニーのリーダーの発売など、まさに電子書籍元年にふさわしい話題が満載の年となりました。しかし、ハードウェアの話題ばかりが先行し、実際に読まれるコンテンツに関しては、コンテンツの充実という意味でも、流通経路の整備という意味でも、2011年が本格的普及に向けての正念場になることも明らかです。こうした中で、出版社や印刷会社、編集プロダクションなど、コンテンツの制作を担う現場にとっては、各読書端末における縦組みやルビなどの日本語組版機能の実装状況とともに、外字や異体字など、日本語の文字表記の状況を正確に把握しておくことは、コンテンツ資産の電子書籍化、迅速かつ効率的な電子書籍の制作には不可欠です。本セミナーは、電子書籍の制作と普及に欠かせない基礎技術である文字コードについて、最新の国際標準化状況

works014 2011/01/06

「ライブ中継もあります。」と…

リンク

5-1. 𛀁𛀀の技術情報

Unicode 6.0.0より使用可能となった次の仮名2文字にまつわる情報をまとめた頁です。 𛀁𛀁: U+1B001; HIRAGANA LETTER ARCHAIC YE（ヤ行のエを表した「江」に由来する平仮名。「エ」のひらがな版） 𛀀𛀀: U+1B000; KATAKANA LETTER ARCHAIC E（あ行のえを表した「衣」に由来する片仮名。「え」のカタカナ版）技術情報 𛀁𛀁 Unicode: U+1B001; HIRAGANA LETTER ARCHAIC YE UTF-8: f0 9b 80 81 (11110000 10011011 10000000 10000001) UTF-16: d82c dc01 (11011000 00101100 11011100 00000001) 文字参照16進数: 𛀁（𛀁）文字参照10進数: &#1105

works014 2010/06/24

リンク

はてなブックマーク

タグ

関連タグで絞り込む (22)

文字コードとunicodeに関するworks014のブックマーク (36)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス