[B! unicode] snaka72のブックマーク

https://yuanchuan.name/2018/05/06/unicode-patterns.html

snaka72 2018/05/22

css
unicode

リンク

絵文字のユニコード符号化: 符号化提案用のオープンソースデータ

メディア関係者向けお問い合わせ先メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

snaka72 2012/01/01

unicode

リンク

Classic VB - Does Visual Basic 6 support Unicode?-VBForums

snaka72 2011/07/27

vb6
unicode

リンク

踊り字 - Wikipedia

漢字のように見えるが、あくまで反復記号の一種であって漢字ではなく、固有の読みはない。同じ漢字を重ねるときに、2文字目以降の文字の代用として用いられる。時時 → 時々（ときどき）刻刻 → 刻々（こくこく）明明白白 → 明々白々（めいめいはくはく）赤裸裸 → 赤裸々（せきらら）代代木 → 代々木（よよぎ）複複複線 → 複々々線（ふくふくふくせん[注釈 1]）小小小支川 → 小々々支川（しょうしょうしょうしせん）「公演会々場」のように使われることもある。特に、結婚や葬式に関しては、同じ漢字を直接繰り返すことは、再婚や不幸の繰り返しを連想させ縁起が悪いため、「結婚式々場」、「告別式々場」と表記することが多い。二字以上の熟語を重ねるときにも使うこともある。部分部分 → 部分々々後手後手 → 後手々々一歩一歩 → 一歩々々南無阿弥陀仏南無阿弥陀仏 → 南無阿弥陀仏々々々々々

snaka72 2011/07/05

unicode

リンク

Twitterで見かけるハミ出した顔文字の正体 - RyoAnna

少し前からTwitterで見かけるようになった、上下に飛び出す変な顔文字。気持ち悪いのであまり関わらないようにしていたのだが、この顔文字の謎が明らかになったのでお伝えしたい。いつものようにiPhoneのApp Storeをぶらぶらしていた時のこと。 Unicoder Lite (App Store)というアプリが気になりダウンロードした。起動するとなにやら見慣れた文字が。顔文字でよく使われるギリシャ文字やキリル文字だ。しばらく眺めているとこんな符号が。合成用区分符号これが上と下の行にはみ出す顔文字の正体だった。ためしに作ってみよう。ベースとなる顔文字を置く。左目に合成用区分符号を入れる。続いて右目に。見事にはみ出す。 Unicode（ユニコード）とは、世界中のコンピュータの文字を符号化したもの。その "U+0300-036F" に配置されているダイアクリティカルマー

snaka72 2011/06/08

unicode

リンク

vs UTF-8, UTF-16, UCS4 - 枕を欹てて聴く

前置きおはミルキィ! ChromeFullFeedが公開停止になった話を前置きとして書いていたのですが, あまり関係がないのと, 長くなりそうになってきたので, 別の記事に分けました. http://d.hatena.ne.jp/Constellation/20110530/1306701693 概要という前置きで. ECMAScriptと切っても切れない文字コード, UTF-16. iv / lv5はUnicode変換のためにICUに依存していたのですが, UTF-8 <=> UTF-16なら何とか自分でも書けるのではないかと思い, Unicode Converterを書きました. これでlv5の依存はlibboost, libgc (Boehm GC)に減りましたー. Unicodeの変換の教授, bugつぶしにおいて, id:masa141421356 さんに非常にお世話になりま

snaka72 2011/05/31

リンク

Unicodeで「漢字」の正規表現 – ものかの

改訂：2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。改訂：2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS（CP932）の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第３・第４水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

snaka72 2011/01/07

リンク

Unicode対応 JIS X 0208 文字コード表

Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区～08区　JIS非漢字（各種記号、英数字、かな） 13区～13区　NEC特殊文字（機種依存） 16区～47区　JIS第1水準漢字 48区～84区　JIS第2水準漢字文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字文字コード表区点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

snaka72 2010/12/01

unicode

リンク

charとUnicodeとワイド文字をごっちゃにしないために

ホーム < ゲームつくろー！ < C++踏み込み編 < charとUnicodeとワイド文字をごっちゃにしないためにその４ charとUnicodeとワイド文字をごっちゃにしないために Visual Studio 2003あたりになってから、ちらほらと出てきたのが「Unicode」や「ワイド文字」という言葉。DirectXでもたびたびこれに苦しめられたりします。どうも世の中従来の1バイト文字からUnicodeへ過渡しそうな気配です。これらの文字の仕様については色々なサイトや辞書に詳しく説明されています。しかし、しっかりまとめないとやっぱり混乱してしまうもんなんです。「バイト文字をUnicodeに変換するのと、マルチバイト文字をワイド文字に変換するのは何が違うのか？」と聞かれたときに、すっと回答できますでしょうか？できる方はすばらしい。迷った方も大丈夫。世の中そんなもんです。ここでは、c

snaka72 2010/08/13

char
unicode

リンク

UTF-7 XSS Cheat Sheet

Countermeasures against XSS with UTF-7 are: Specify charset clearly (HTTP header is recommended) Don't place the text attacker can control before <meta> Specify recognizable charset name by browser. For more information about UTF-7 trick, see "Cross-site scripthing with UTF-7". These XSS patterns are tested on IE6 and IE7. Yosuke HASEGAWA <hasegawa@openmya.hacker.jp> Last modified: 2008-01

snaka72 2010/07/16

リンク

文字コード（UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP）についての俺的まとめ - 今日もスミマセン。

「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。間違いなどあればコメントなど頂けるとありがたいです。それぞれの文字コードはどう違うのか？日本語の文字コードは大きく以下の２つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。上で挙げた「文字コード」とは正確には「エンコーディング（文字符号化方式）」の事を指す。文字符号化方式文字集合って？読んでそのまんま”文字の種類の集まり”。「キャラ

snaka72 2010/07/10

セルクマ／図は Google Drawings で描いてみました。

リンク

Unicode 15.1 Character Code Charts

European Scripts Armenian Armenian Ligatures Carian Caucasian Albanian Cypriot Syllabary Cypro-Minoan Cyrillic Cyrillic Supplement Cyrillic Extended-A Cyrillic Extended-B Cyrillic Extended-C Cyrillic Extended-D Elbasan Georgian Georgian Extended Georgian Supplement Glagolitic Glagolitic Supplement Gothic Greek Greek Extended Ancient Greek Numbers Latin Basic Latin (ASCII) Latin-1 Supplement Latin

snaka72 2010/07/10

各コード表へのリンク

unicode

リンク

波ダッシュ・全角チルダ問題 - Wikipedia

Unicode（ユニコード）は、符号化文字集合や文字符号化方式などを定めた、文字コードの業界標準規格。文字集合（文字セット）が単一の大規模文字セットであること（「Uni」という名はそれに由来する）などが特徴である。従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]。ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日本語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても本質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]。1980年代に、Starワークステーションの日本語化（J-Star）などを行ったゼロックスが提唱し、マイクロソフト、Apple、IBM、サン・マイクロシステムズ、ヒ

snaka72 2010/07/10

unicode

リンク

Index

Automatic redirect: http://home.unicode.org/

snaka72 2010/07/10

Unicode公式

unicode

リンク

Unicode/コード表 - BugbearR's Wiki

2017-04-16 FreeBSD/mpd 2016-12-23 RecentDeleted Blogアプリ日記 2016-11-17 本当にあった怖いコード/1 2016-05-16 .NET 2015-07-06 書きたいこと 2015-07-05 postgres Java/変数の初期化に安易に空オブジェクトを代入しない 2015-06-30 PukiWiki/1.4/マニュアル/プラグイン/u 本当にあった怖いコード/15 2014-10-01 日記/2014-10-01 2014-09-09 日記/2014-09-09 2014-08-13 日記/2014-08-10 2014-05-28 バグパターン/日時バグパターン 2014-04-13 IPv6 2014-03-20 パスワード問題 2014-01-27 DNS/ルートサーバーは13台という神話 2014-01-25

snaka72 2010/07/10

unicode

リンク

漢字辞典ネット

新着情報 2014年11月11日…今年の漢字を更新（2014年予想を掲載） 2014年10月15日…センター試験漢字問題を更新（2014年追試験） 2014年1月18日…センター試験漢字問題を更新（2014年本試験） 2013年11月9日…今年の漢字を更新（2013年予想を掲載） >>更新履歴

snaka72 2010/07/10

文字に割り当てられたコード(UTF-8,16,Shift_JIS,EUC-JP,IS0-2022-JP)が調べられる

リンク

デバッグより重要なもの : 404 Blog Not Found

2009年04月02日16:00 カテゴリCodeArt デバッグより重要なものこの話題、すっかり乗り遅れてしまった。 2009-03-22 - 未来のいつか/hyoshiokの日記プログラミング入門書では、デバッグについて、ほとんど議論されていないし、仮にふれられていても、おざなりな方法というか、かなり邪険にあつかわれていたりする。プログラマの多くの時間がデバッグについやされていたとしてもだ。あえていわせていただく。コードはデバッグできるだけはるかにましなのだ、と。printfを使うかどうかなんぞ、その問題と比べれば屁ですらないのだと。デバッグよりもはるかに重要なもの、それはデータ構造の選定。ここで一歩間違えると、バグが仕様化し、デバッグどころかバグにあわせてプログラムを書かねばならぬ羽目になる。その最も顕著な例が、Unicodeだろう。最初の設計を間違えたおかげで、最新のソ

snaka72 2010/06/26

unicode

リンク

備忘録: Unicode, UCS, and UTF : 404 Blog Not Found

2005年12月20日11:45 カテゴリiTechLogos 備忘録: Unicode, UCS, and UTF まだ混乱が収まっていらっしゃらないようなので、備忘録を兼ねてここでまとめておきましょう。電脳社会の日本語加藤弘一 quinta essentia - del.icio.us買収, Yonahあってるかな? Character Set (文字集合) vs. Encoding (符号化) まずこの二つが別物だということを抑えましょう。UCSというのは名前からわかる通り、Character Set (文字集合)です(とはいえ、Unicode.orgのGlossaryを見ると、符号化の一手段にも見えなくはない)。この段階では、各文字は「背番号」を持っているに過ぎません。狭義の「Unicode」はこの「背番号」を指します。これをどう実際のデータにするのかがEncoding (

snaka72 2010/04/04

utf8
unicode

リンク

UnicodeとUTF-8の違いは？ - 自分的まとめ - Humanity

UnicodeとUTF-8の違いは？ - Humanityはあんなに反響があるとは思わなかった。ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact

snaka72 2010/04/04

utf8
unicode

リンク

UnicodeとUTF-8の違いは？ - Humanity

という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/

snaka72 2009/12/02

unicode

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

unicodeに関するsnaka72のブックマーク (25)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス