地域Linuxユーザーズグループ「小江戸らぐ」の2017年11月の月例会に参加して、「濁点の話」というコネタを発表しました。 知ってる人はよく知ってる、Unicodeの濁点や半濁点の問題です。 Unicodeの濁点半濁点とか、NFD/NFDとか、UTF8-MACとかいうと、macOSのファイル名の問題だと早合点されがちです。しかし、macOSではテキストの本文でもしばしば発生するし、むしろ正規化されていないぶん、もっと面倒だ、というのが言いたかったことです。
昨日の記事「数学記号とか特殊な文字のUnicode」で、Unicodeの記号文字をリストしました。気になる点や追加情報を書きます。 論理否定記号の文字は2種類あります。 U+00AC 'NOT SIGN' U+FFE2 'FULLWIDTH NOT SIGN' 半角文字と全角文字です。Unicodeの本来の思想「全世界の文字を統合(unify)する」からすると、半角・全角も統合して重複は避けたかったでしょうが、諸般の事情から半角・全角を残さざるを得なかったのでしょう。 以前、否定記号が2種類あることがトラブルの原因だったことがあります(ココラの話)。半角・全角で重複している文字は、コード範囲FF00-FFEFの"Halfwidth and Fullwidth Forms"ブロックに集められています。 http://unicode.org/charts/PDF/UFF00.pdf 見渡したと
Intro textarea などに入力された文字数を、 JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。 それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。 なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。 例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID
という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/
鈴木です。ラズパイ部がやや休止中気味です。私の久しぶりの記事は、Unicodeにある横棒のコレクションです。 ハイフンとかダッシュとか、半角と全角とか、複数あることはご存じの方も多いと思います。Shift-JISとの変換で悩まされるケースもありますよね。 Unicodeにあるハイフンとかマイナスとかダッシュとか、横線に見える文字をある程度を一覧にしたブログなどはたくさん見つかるのですが、結構漏れがあったりします。自分で納得できるレベルにまで網羅した横線一覧がなかなか見つからなかったので、自分で作りました。せっかくなのでここに公開しておきます。 ハイフンやカタカナの長音記号など、直線が横に延びているものが対象で、縦方向や斜めの線は除きます。 ほとんど横方向だけどちょっとだけ傾いているものや、端にちょっとしたハネとかうろことか付いているもの、太さが途中で変わっているものは含めました。横線の場所
UnicodeとUTF-8の違いは? - Humanityはあんなに反響があるとは思わなかった。 ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。 と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。 調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。 参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact
Web ブラウザで表示してみる Mac OS X Yosemite + Mozilla Firefox 41.0.1 で表示したもののスクリーンショット。 Windows 8.1 + Mozilla Firefox 41.0.2 で表示したもののスクリーンショット。 以前、 Windows XP で調べたときは波ダッシュが「下がって上がる」形状になっていた。いまどきの環境とは逆の波の形状。 ⇒ [ヅ] 2つの WAVE DASH ~ (2005-04-30) どういうことなのか Wikipedia で調べる この文字の全角 (fullwidth tilde) は「~」であり、UnicodeにおけるコードはU+FF5Eである。この文字は波ダッシュ「〜」(すなわち範囲などを表す「波線」)と字形が似ているが、UnicodeやJIS X 0213では別の文字である。Windows OSでは波ダッシ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く