タグ

unicodeに関するk_37toのブックマーク (12)

  • PHPにおけるUnicode文字列の正規化:CodeZine

    はじめに 与えられた文字列を含む文書を返す検索機能を実装しているところを想像してください。 検索語として「ページ」が与えられれば、「ページ」という文字列を含む文書を返します。これは特に難しいことではありません。 半角の「ページ」が与えられたらどうでしょう。「ページ」と「ページ」を区別する必要がないような、一般的な文書検索においては、「ページ」という文字列を含む文書を返すのが望ましいはずです(もちろん、この2つは常に同一視できるわけではありません。同一視できない例として稿があります)。 もしかしたら、「㌻」で検索しようとする人がいるかもしれませんし、日語を母国語としない人が、「ぺ」(「ヘ」と半角の半濁点「゚」)や「ヘ゜」(半角カナ「ヘ」と半濁点「゜」)を使うかもしれません。 人間なら簡単に対応できることですが、コンピュータで対応するには特別な処理が必要になります。例えばUnic

  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

    2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。 変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。 変換表に求めら

  • 機種依存文字とUnicode - WebStudio

    導入 機種依存文字と呼ばれる文字があります。 例えばWindowsでは、 大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、 小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、 丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、 丸囲み文字(㊤㊥㊦㊧㊨)、 カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、 単位記号(㎝㎏㎡)、 複数のアルファベットを合成した文字(㏍℡№)、 元号(㍻㍼㍽㍾)、 会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。 機種依存文字は一般的に、異機種間でデータの交換を行った場合、 例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、 これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。 しかし、これらは機種依存文字と呼ばれているものの、 その意味はあ

  • Unicodeのハイフンっぽい文字いろいろ - こせきの技術日記

    全角ハイフンを半角に変換する処理ではまったので。同じに見える字形で違うコードを指してた。 #!/usr/bin/ruby # 'HYPHEN-MINUS' (U+002D) # http://www.fileformat.info/info/unicode/char/002d/index.htm puts "\x2D" # 'MINUS SIGN' (U+2212) # http://www.fileformat.info/info/unicode/char/2212/index.htm puts "\xE2\x88\x92" # 'FULLWIDTH HYPHEN-MINUS' (U+FF0D) # http://www.fileformat.info/info/unicode/char/ff0d/index.htm puts "\xEF\xBC\x8D" # 'KATAKANA-HIR

    Unicodeのハイフンっぽい文字いろいろ - こせきの技術日記
  • Unicodeエスケープ - sawatのブログ

    付箋紙Greasemonkeyで、GM_setValueに登録した日語の文字化け対策にencodeURIをつかったけど、encodeURIはURIをエンコードするための関数なのであんまり褒められた使い方ではないですね。しかも、encodeURIのようなURLエンコーディングは文字列をUTF-8にしてから、エンコード対象の各バイトを%xx形式*1で表現するので、日語1文字をあらわすのにたいていの場合ASCII9文字が必要になって効率が悪いです。*2 なので、前述のような単に非ASCII文字をエスケープしたいだけのようなケースではUnicodeエスケープを使った方がよいです。Javaのpropertiesとかnative2asciiとかのやつです。 Unicodeエスケープは\uxxxx*3の形式であらわすので、たいていの日語1文字はASCII6文字になって、URLエンコーディングに比べ

    Unicodeエスケープ - sawatのブログ
  • http://boodebr.org/python/pyunicode/index.html

    This page has moved here. You should be automatically redirected.

  • [鏡] しっぽのさきっちょ 2006年11月 -- Spiegel's Trunk ケータイ族は受動的?

    ネーミングセンス悪いなぁ, 日経。 「ITメタボリック症候群」に,ご用心! チェックリストを見る限り「ITメタボリック症候群」というよりはむしろ IT Addiction だよな。 IT 投資自体が目的化し, それをしないといけないような強迫観念に駆られる。 典型的な嗜癖行動じゃん。 ケータイ族=テレビが好きな層と考えてみる あーあ, ほらね, やっぱり「文明の衝突」もしくは「優越感ゲーム」になっちゃうんだよな。 道具なんてのは二次的なものに過ぎない。 そうでなければ日人ユーザの多くが Yahoo! Japan や楽天や mixi に安住している理由がわからないだろう。 「携帯はコミュニケーションデバイスの面が強い」と言うが, ケータイ上で行われているのがコミュニケーションかどうかも疑わしいし。 あれは単なるコネクションで互いに Keep Alive 信号を送りあってるだけでしょ。 だか

  • http://www.macchiato.com/unicode/chart/

  • それ Unicode で – TEXT HACKS

    (Last Updated On: 2006年12月14日)クロスサイトスクリプティングに利用可能なテキストハックが簡潔にまとめられている。 目新しかったのはUnicodeのBidi機能(テキストの記載方向が異なる言語、たしかアラビア、イスラエルなどの言語)を使ってWindowsの拡張子をごまかせる事です。 # 他のOSでも問題になるかも。もし同じ問題があったとしても、UNIX系 # OSの場合は実行ビットが有効でないと実行バイナリであっても実行さ # れないので影響は少ないですが。 ファイルマネージャ、コマンドラインなどはBidi機能はロケールのみよって有効・無効を設定できるようになっていないとセキュリティ上問題です。 文書の途中で「アラビア語の文字列を書く」必要がある場合もあると思うのでシステム全体としてBidiを無視することは良くありません。しかし、文書中でBidiが有効になっていて

    それ Unicode で – TEXT HACKS
  • Unicodeは文字集合か符号化方式か : 404 Blog Not Found

    2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か 以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。 文字コード規格の基礎:ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合, 文字の集合 エンコード方法 という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが,ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。 これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。 まずUnic

    Unicodeは文字集合か符号化方式か : 404 Blog Not Found
  • ユメのチカラ: 日本語文字コードのお話

    レガシーエンコーディングプロジェクトというのをやっていて昨日その検収があった。 開発そのものは一段落したのだが、まだ、事務処理が残っているので、全て完了というわけではない。 プロジェクトの背景として、Unicodeによるオープンソースソフトウェアの国際化が普及した結果として、日語処理にいろいろな問題(文字化け)が発生したというのがある。奇妙に聞こえるかもしれない。Unicodeというのはソフトウェアの国際化のためにやっているのではないか?ソフトウェアが国際化すれば文字化けは解消するのではないか?話が逆じゃないのか?という疑問があるだろう。ところがだ、Unicodeによって解決した問題ももちろんあるがそれによって生じた問題もある。 例えば、日語を表現する文字のエンコーディングとして、シフトJIS、日語EUC、JISコードなど複数あるが、それぞれのコード変換で文字化けする場合がある。ある

  • 1