[B! unicode] k_37toのブックマーク

k_37to id:k_37to

unicodeに関するk_37toのブックマーク (12)

PHPにおけるUnicode文字列の正規化：CodeZine
はじめに　与えられた文字列を含む文書を返す検索機能を実装しているところを想像してください。　検索語として「ページ」が与えられれば、「ページ」という文字列を含む文書を返します。これは特に難しいことではありません。　半角の「ﾍﾟｰｼﾞ」が与えられたらどうでしょう。「ページ」と「ﾍﾟｰｼﾞ」を区別する必要がないような、一般的な文書検索においては、「ページ」という文字列を含む文書を返すのが望ましいはずです（もちろん、この2つは常に同一視できるわけではありません。同一視できない例として本稿があります）。　もしかしたら、「㌻」で検索しようとする人がいるかもしれませんし、日本語を母国語としない人が、「へﾟ」（「ヘ」と半角の半濁点「ﾟ」）や「ﾍ゜」（半角カナ「ﾍ」と半濁点「゜」）を使うかもしれません。　人間なら簡単に対応できることですが、コンピュータで対応するには特別な処理が必要になります。例えばUnic
k_37to 2008/07/24
php

unicode
リンク
はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28
k_37to 2008/01/21
python

emacs

unicode

escape
リンク
シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories
2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら
k_37to 2007/11/21
sjis

euc

unicode

convert

encoding
リンク
機種依存文字とUnicode - WebStudio
導入機種依存文字と呼ばれる文字があります。例えばWindowsでは、大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、丸囲み文字(㊤㊥㊦㊧㊨)、カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、単位記号(㎝㎏㎡)、複数のアルファベットを合成した文字(㏍℡№)、元号(㍻㍼㍽㍾)、会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。機種依存文字は一般的に、異機種間でデータの交換を行った場合、例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。しかし、これらは機種依存文字と呼ばれているものの、その意味はあ
k_37to 2007/11/21
Unicode

sjis

euc

character

convert
リンク
Unicodeのハイフンっぽい文字いろいろ - こせきの技術日記
全角ハイフンを半角に変換する処理ではまったので。同じに見える字形で違うコードを指してた。 #!/usr/bin/ruby # 'HYPHEN-MINUS' (U+002D) # http://www.fileformat.info/info/unicode/char/002d/index.htm puts "\x2D" # 'MINUS SIGN' (U+2212) # http://www.fileformat.info/info/unicode/char/2212/index.htm puts "\xE2\x88\x92" # 'FULLWIDTH HYPHEN-MINUS' (U+FF0D) # http://www.fileformat.info/info/unicode/char/ff0d/index.htm puts "\xEF\xBC\x8D" # 'KATAKANA-HIR
k_37to 2007/11/19
unicode

character
リンク
Unicodeエスケープ - sawatのブログ
付箋紙Greasemonkeyで、GM_setValueに登録した日本語の文字化け対策にencodeURIをつかったけど、encodeURIはURIをエンコードするための関数なのであんまり褒められた使い方ではないですね。しかも、encodeURIのようなURLエンコーディングは文字列をUTF-8にしてから、エンコード対象の各バイトを%xx形式*1で表現するので、日本語１文字をあらわすのにたいていの場合ASCII9文字が必要になって効率が悪いです。*2 なので、前述のような単に非ASCII文字をエスケープしたいだけのようなケースではUnicodeエスケープを使った方がよいです。Javaのpropertiesとかnative2asciiとかのやつです。 Unicodeエスケープは\uxxxx*3の形式であらわすので、たいていの日本語１文字はASCII6文字になって、URLエンコーディングに比べ
k_37to 2007/04/10
javascript

Unicode

escape
リンク
http://boodebr.org/python/pyunicode/index.html
This page has moved here. You should be automatically redirected.
k_37to 2007/02/08
Python

Unicode

Tutorials

document
リンク
[鏡] しっぽのさきっちょ 2006年11月 -- Spiegel's Trunk ケータイ族は受動的？
ネーミングセンス悪いなぁ，日経。「ITメタボリック症候群」に，ご用心！チェックリストを見る限り「ITメタボリック症候群」というよりはむしろ IT Addiction だよな。 IT 投資自体が目的化し，それをしないといけないような強迫観念に駆られる。典型的な嗜癖行動じゃん。ケータイ族＝テレビが好きな層と考えてみるあーあ，ほらね，やっぱり「文明の衝突」もしくは「優越感ゲーム」になっちゃうんだよな。道具なんてのは二次的なものに過ぎない。そうでなければ日本人ユーザの多くが Yahoo! Japan や楽天や mixi に安住している理由がわからないだろう。「携帯はコミュニケーションデバイスの面が強い」と言うが，ケータイ上で行われているのがコミュニケーションかどうかも疑わしいし。あれは単なるコネクションで互いに Keep Alive 信号を送りあってるだけでしょ。だか
k_37to 2007/01/03
encoding

Unicode

UTF-8
リンク
http://www.macchiato.com/unicode/chart/
k_37to 2007/01/03
javascript

Unicode

chart

convert

UTF-8
リンク
それ Unicode で – TEXT HACKS
(Last Updated On: 2006年12月14日)クロスサイトスクリプティングに利用可能なテキストハックが簡潔にまとめられている。目新しかったのはUnicodeのBidi機能（テキストの記載方向が異なる言語、たしかアラビア、イスラエルなどの言語）を使ってWindowsの拡張子をごまかせる事です。 # 他のOSでも問題になるかも。もし同じ問題があったとしても、UNIX系 # OSの場合は実行ビットが有効でないと実行バイナリであっても実行さ # れないので影響は少ないですが。ファイルマネージャ、コマンドラインなどはBidi機能はロケールのみよって有効・無効を設定できるようになっていないとセキュリティ上問題です。文書の途中で「アラビア語の文字列を書く」必要がある場合もあると思うのでシステム全体としてBidiを無視することは良くありません。しかし、文書中でBidiが有効になっていて
k_37to 2006/12/15
security

unicode

XSS
リンク
Unicodeは文字集合か符号化方式か : 404 Blog Not Found
2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。文字コード規格の基礎：ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合，文字の集合エンコード方法という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが，ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。まずUnic
k_37to 2006/11/25
charset

encoding

unicode
リンク
ユメのチカラ: 日本語文字コードのお話
レガシーエンコーディングプロジェクトというのをやっていて昨日その検収があった。開発そのものは一段落したのだが、まだ、事務処理が残っているので、全て完了というわけではない。プロジェクトの背景として、Unicodeによるオープンソースソフトウェアの国際化が普及した結果として、日本語処理にいろいろな問題(文字化け)が発生したというのがある。奇妙に聞こえるかもしれない。Unicodeというのはソフトウェアの国際化のためにやっているのではないか？ソフトウェアが国際化すれば文字化けは解消するのではないか？話が逆じゃないのか？という疑問があるだろう。ところがだ、Unicodeによって解決した問題ももちろんあるがそれによって生じた問題もある。例えば、日本語を表現する文字のエンコーディングとして、シフトJIS、日本語EUC、JISコードなど複数あるが、それぞれのコード変換で文字化けする場合がある。ある
k_37to 2006/11/03
unicode

system
リンク
1