[B! unicode] ftnkのブックマーク

Unicodeで「漢字」の正規表現 – ものかの

改訂：2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。改訂：2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS（CP932）の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第３・第４水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

ftnk 2010/05/05

リンク

UnicodeとUTF-8の違いは？ - 自分的まとめ - Humanity

UnicodeとUTF-8の違いは？ - Humanityはあんなに反響があるとは思わなかった。ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact

ftnk 2010/01/29

リンク

「UnicodeによるXSSとSQLインジェクションの可能性」プレゼン資料 - ockeghem's blog

だいぶ間があいてしまいましたが、本年1月31日に開催された、第04回まっちゃ４４５勉強会目覚まし勉強会におけるライトニングトークの資料を公開します。 UnicodeによるXSSとSQLインジェクションの可能性View more presentations from ockeghem.

ftnk 2009/09/20

リンク

UTF-8.jp

- WinMirror - 任意のアプリケーションのウィンドウやデスクトップをミラーリングして表示できます。解説: オンサイトでの登壇で返しのモニターがなくてもデモをやりやすくするツールを作った - SSTエンジニアブログ - 音声字幕機能付きのWebカメラ - Web Audio APIを使ってマイク入力をスピーカーから出力 - LTタイマー - JavaScript セキュリティの基礎知識：連載｜gihyo.jp … 技術評論社 - HTML5時代の「新しいセキュリティ・エチケット」－ @IT - 教科書に載らないWebアプリケーションセキュリティ－＠IT - 連載：本当は怖い文字コードの話｜gihyo.jp … 技術評論社 - JSF*ck - encode JavaScript with only 6 letters - []()!+ (broken) JSF*ck demo

ftnk 2008/05/24

リンク

ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに

UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。また、UnicodeはASCIIだけでなく、Western Europeanもほぼ同時に追い越している。 Unicodeは多くの言語に対応した標準文字コード体系で、発音区別符号などを利用したローマ字なども扱っている。何十年も前に定められたASCIIコードは128文字あるいは256文字（ASCIIで128 文字、拡張ASCIIで256文字）しか表現できず、タイプライターの影響を受けた同文字コードの拡張は苦戦している。 UnicodeがASCIIとWestern Europeanを追い越したのは12月で、双方が追い越された日は10日も違わなかった。 Unicodeの動きについ

ftnk 2008/05/07

リンク

EmacsとUnicode文字で遊ぶ - 檜山正幸のキマイラ飼育記 (はてなBlog)

http://xahlee.org/emacs/emacs_n_unicode.html (by Xah Lee, 2006-07)に面白いことが載っていました。Emacsで、Unicodeレパートリのさまざまな文字を入力する方法；実用性はともかくも、まー、遊べます。 [追記]ミスとtypoがありました。アクセント記号の順序と、Lisp式中のfaile→fileです。直しました。[/追記][さらに追記]まだLispコードにミスが残っていたので、直しました。画面も差し替えないと。←差し替えた。[/さらに追記][もっと追記]アンレーーッ？？ Lispコードの一部が注釈になっちゃてるよ。Lispだと括弧2つなんてザラだからな。[/もっと追記] ダイアクリティカルマーク付きアルファベットの入力ダイアクリティカルマーク（Wikipedia項目参照）が付いたアルファベットを入力できます。最初の3

ftnk 2007/12/27

リンク

perl - 文字列ばらしはsplit //, $strで : 404 Blog Not Found

2007年11月27日13:30 カテゴリLightweight Languages perl - 文字列ばらしはsplit //, $strでうーん、ここがあきまへん。 [を] 転置インデックスによる検索システムを作ってみよう！ 9 my @char = ($c =~ /([\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]| 10 [\xE0-\xEF][\x80-\xBF]{2}| 11 [\xF0-\xF7][\x80-\xBF]{3})/gsx); 文字列をばらして(utf8の)文字一つ一つの配列にするには、バイト列に正規表現をかますのではなく、utf8文字列にしてからそれにsplit //をかますのが一番です。単にわかりやすいだけではなく、その方がずっと高速です。以下、Benchmark。 #!/usr/local/bin/perl use strict; u

ftnk 2007/12/27

リンク

Arial Unicode MS - Cafe Babe

Unicode MLで，WindowsにArial Unicode MSと呼ばれる，Unicodeの多くの文字を含んでいるフォントがあり，これがなぜ継続開発されないのか？という質問があり，MSとAppleのエンジニアが次のように回答していたので，書き留めておく．現在のUnicodeの収録文字総数は，TrueTypeとOpenTypeの収録可能なグリフ数を既に超えている．さまざまな国のスクリプトをサポートするためには，さらに他のグリフも必要になる． Unicodeのすべての文字を統一したデザインで作ることは，現実には不可能．巨大なフォントをメモリ上にロードした時に，大部分の文字が使われないのでリソースを無駄使いしてしまう．昔の幻想は，すでに完全に死に絶えたという感じだ．

ftnk 2007/09/11

Arial Unicode MS はなぜ継続開発されないのか？

Font
Unicode

リンク

Unicodeはなんの役に立つのか？ - もじのなまえ

一昨日は駅前の喫茶店にて文字コードについてのインタビューをうけました。なんでも文字コードについて面白い読み物にしたいとのこと。X だとか02いくつだとか、訳の分からない数字やアルファベットが続くのに強い違和感を抱いている様子。うーん、いいなあ、ぼくも昔はそういうこと考えていたんだよなあ、正確さよりも面白さが大事だって。どこで間違っちゃったんだろうなあ。で、乞われるままにASCIIからISO R 646、ISO 2022からISO/IEC 10646への流れ、そしてその中で日本が果たした役割、あるいはJIS X 0208がISO 2022に基づいた構造であること。もともとISO 2022は事前の二者間の合意を前提とした情報交換のために作られた符号化方法であり、合意のない情報交換や、コンピュータ内部の情報処理用としては向いてなかったこと、そしてこれがUCS≒Unicodeの登場を促すことにな

ftnk 2007/09/11

Unicode

リンク

UCS-2とUTF-8

最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例

ftnk 2007/09/11

リンク

機種依存文字とUnicode - WebStudio

導入機種依存文字と呼ばれる文字があります。例えばWindowsでは、大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、丸囲み文字(㊤㊥㊦㊧㊨)、カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、単位記号(㎝㎏㎡)、複数のアルファベットを合成した文字(㏍℡№)、元号(㍻㍼㍽㍾)、会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。機種依存文字は一般的に、異機種間でデータの交換を行った場合、例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。しかし、これらは機種依存文字と呼ばれているものの、その意味はあ

ftnk 2007/09/11

リンク

シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら

ftnk 2007/09/11

リンク

Unicode 5.0：言語の分裂に挑み続けるUnicodeの新バージョン | OSDN Magazine

Unicode Consortiumの究極的な目的は、人間界で用いられているすべての言語をコンピュータ上で再現するための標準を定めることだ。こうした目的を完全に達成するのはしばらく先のことになりそうだが、およそ3年をかけた作業の成果としてリリースされるUnicodeバージョン5.0の登場は、目標達成に向けて更なる一歩を前進させることになるだろう。こう説明するのは、同標準の創設者の1人でありUnicode委員会の代表を務めるMark Davis氏である。最終的な公開日が至近に迫った先日、Davis氏は多忙な中時間を割き、Unicodeの開発過程と克服すべき課題について語ってくれた。 Unicodeによるエンコードは、キャラクタとそのプロパティおよび文書による説明という3つの要素で構成されていると、Davis氏は説明する。ただし誤解されがちだが、ここで言うキャラクタとは特定のフォントセット内で

ftnk 2007/09/11

リンク

Unicode の曖昧な文字幅問題その2 - diary of a madman

9月30日の続き。 UTF-8 環境で w3m のメニュー表示が崩れる原因が分かった。俺は GNU screen を常用してるんだが、実はそちらが原因だった。(使っていることを忘れるくらいに使いまくってるため、screen 以外の環境でテストすることを思いつかなかった。間抜け過ぎる) 調べてみたところ、UTF-8 の East Asian Ambiguous Character Width に関してパッチ付きのバグ報告がされていた*1。このパッチを適用してみたところメニューの表示が崩れなくなり、とりあえず問題が解決したらしい。ついでなので、Unicode の曖昧な文字幅問題に関して、各ソフトウェアでの対処法のまとめ。 w3m w3m-dev 4049 に投稿されている ambwidth パッチを使い、オプションで "Use double width for some Unicode ch

ftnk 2007/09/11

unicode

リンク

Unicodeで拡張子を偽装された実行ファイルの防御方法 - 葉っぱ日記

「それ Unicode で」などで紹介されている、Unicode の U+202E (RIGHT-TO-LEFT OVERRIDE; RLO)を使って拡張子を偽装された exe ファイルの実行を抑止する方法を思いついた。メモ帳を開いて、"**"と入力する(前後の引用符は不要)。 "*"と"*"の間にキャレット(カーソル)を移動させる右クリックで「Unicode 制御文字の挿入」から「RLO Start to right-to-left override」「RLO Start of right-to-left override」を選択 Ctrl-A で全て選択、Ctrl-C でクリップボードにコピー。ローカルセキュリティポリシーを開く画面左側の「追加の規則」を右クリック「新しいパスの規則」を選択「パス」欄で Ctrl-V をして、メモ帳の内容を貼り付ける。セキュリティレベルが「

ftnk 2007/09/11

Unicode の U 202E (RIGHT-TO-LEFT OVERRIDE; RLO)を使った拡張子偽装

リンク

シフトJISを捨てられるか? - 記者のつぶやき：ITpro

これまで，Windows Vistaの文字の扱いに関する事柄を何度か取り上げてきた。同じキャラクタ・コードで，Windows XPのときと文字の形が変わったり，Unicodeでしか扱えない文字があったりするという話題だ。今回は，エンコーディングについて考えてみたい。これまでの記事でも書いてきたが，文字処理とエンコーディングに関する問題は，何もWindows Vistaに始まったわけではない。Windows XPやWindows 2000など，既存のWindowsでも同様だ。例えば，「鴎」の旧字である「シナカモメ」は，Unicodeでしか扱えない文字だが，Windows XP以前のMS-IMEでも入力できる。石鹸の「鹸」の旧字もそうである。これらの文字を扱うには，アプリケーション・ソフトが，文字列をUnicodeで処理しなればならない。シフトJISに変換した瞬間に，文字情報が無くなってしま