タグ

文字コードに関するfn7のブックマーク (12)

  • JIS漢字とUCS (Unicode)の文字の対応・変換について

    セント記号 JIS漢字のセント記号(¢)はCENT SIGNである。対応するUCSのコードポイン トはU+00A2である。 ところが、これをUCSのFULLWIDTH CENT SIGNに変換するものがある。ASCII にもJIS X 0201にもセント記号はないので、これが「FULLWIDTH」になる理由 はない。従ってこの変換は不適切である。 ポンド記号 JIS漢字のポンド記号(£)はPOUND SIGNである。対応するUCSのコードポ イントはU+00A3である。 ところが、これをUCSのFULLWIDTH POUND SIGNに変換するものがある。 ASCIIにもJIS X 0201にもポンド記号はないので、これが「FULLWIDTH」になる 理由はない。従ってこの変換は不適切である。 否定記号 JIS漢字の否定記号(¬)はNOT SIGNである。対応するUCSのコードポイント は

  • Unicode::Normalize で遊ぶ - daily dayflower

    Unicode の規格では,文字の合字(リガチャ等)等を統一的に扱えるように,「正規化」という処理が仕様として定まっています。この正規化処理のうち「互換性分解」という処理を行うと副作用として半角カナを全角カナに変換できます(逆に全角カナ→半角カナはできません)。 #!/usr/bin/perl use strict; use utf8; use Encode; use Unicode::Normalize; my $src = 'ポンジュース'; my $dst = Unicode::Normalize::NFKC($src); print Encode::encode('utf8', "${src} => ${dst}\n"); # OUTPUT is: ポンジュース => ポンジュースUnicode の正規化についてはperl5.8のUnicodeサポート および http:/

    Unicode::Normalize で遊ぶ - daily dayflower
  • UTF8 フラグあれこれ - daily dayflower

    UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象: UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし, UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc, etc ... Perl は(後方互換性確保などの理由から)ISO-8859-1

    UTF8 フラグあれこれ - daily dayflower
  • 電波…とどいた? [200402 上旬]

    ▽雑記 なんかこの数日、IRC がみょーに静かです(苦笑)。nick が ほげFate なやつ多数…… 昨日。某社某案件全体会議。いろいろ忙しくなりそうです。 買い物。今後書籍については読んだ後に書くようにします。たぶん。 HERO 英雄 (DVD) モンティ・パイソン 人生狂騒曲 (THE MEANING OF LIFE) (DVD) モンティ・パイソンは、以前さわりだけみせてもらって大爆笑したのを、ふと見掛けたのでげっと。たぶんみんなでみたほうがおもしろいので、そのうちだれか観賞会しませう ▽うぇーぶだっしゅ や、 そのあたり、今、なにがどうなってるんだったかは、私も把握してないので、毎回しらべてるんですが……(苦笑) 歴史的経緯的は、たぶんこんなかんじ。 Unicode の規格票の WAVE DASH のグリフデザインが、一般的なデザインと上下逆 (推定) それをみながら変換テーブル

  • 文字化け - BugbearR's Wiki

    2017-04-16 FreeBSD/mpd 2016-12-23 RecentDeleted Blogアプリ 日記 2016-11-17 当にあった怖いコード/1 2016-05-16 .NET 2015-07-06 書きたいこと 2015-07-05 postgres Java/変数の初期化に安易に空オブジェクトを代入しない 2015-06-30 PukiWiki/1.4/マニュアル/プラグイン/u 当にあった怖いコード/15 2014-10-01 日記/2014-10-01 2014-09-09 日記/2014-09-09 2014-08-13 日記/2014-08-10 2014-05-28 バグパターン/日時 バグパターン 2014-04-13 IPv6 2014-03-20 パスワード問題 2014-01-27 DNS/ルートサーバーは13台という神話 2014-01-25

  • Unicode 簡単メモ

    稿は "ファイル名における Unicode" と題してもよい内容になっていて、Unicode の様々な側面のうち、Mac OS X でファイル名を扱う場合に必要となる事柄にのみフォーカスをあてています。そのようにした理由は、あらゆる Mac OS X アプリケーションがサポートすべき領域であるからです。もし Unicode を扱うようなワードプロセッサを作っているような場合には、Unicode に関してここで扱うよりもたくさんの様々な理解が必要になることでしょう。稿記載の情報の大部分は、Richard Gillam 氏の手になる素晴らしい書籍 "Unicode Demystified" に基づいています。しかし、Mac OS X でファイル名を適切に扱いたいというだけなら、800 ページもあるこののボリュームはちょっと多すぎるかも知れません。 訳注:"Unicode Demystif

    fn7
    fn7 2007/11/13
    unicode勉強資料
  • 404 Blog Not Found:perl tips - Encodeを速く使う方法

    2007年04月23日01:30 カテゴリLightweight LanguagesTips perl tips - Encodeを速く使う方法 はっきり言ってこれはフェアではない。 みかログ: ErlangとPerlの速度比較 Perl側は,Encodeが遅い. Encode::from_toがinplaceでコンバートしてしまうために,直前に文字列コピーがあるのも影響しているのかも なぜなら、Encode::from_to()は速度ではなく、安全性に最適化しているから。 そもそもはじめからUTF-8、それもutf8フラグがたっている文字列にfrom_toを使うのはばかげている。 for(my $i = 0; $i < 0xffff; $i++) { my $str2 = $str; Encode::from_to($str2, "UTF-8", "Shift_JIS"); } は単に

    404 Blog Not Found:perl tips - Encodeを速く使う方法
  • Unicode と UTF

    Unicode ってなに? 「よーするに Unicode ってなんなのさ!」ということでいろいろ調べてみたものをまとめてみました。で、頑張って調べてはみたのですが調べれば調べるほどイモヅル式に新しい情報が出てきてまとめきりませんでした。なので少々不完全です。いちおう「Unicode ってどんなものなのかな~」ってことが分かってもらえればと思います。 このコーナーでは、「45」のように二桁で区切られた文字を16進で表された1バイトの表現として扱います。このコーナーではこのような表現もビット列と呼ぶことにします。例えば「F0」という16進のバイト表現があれば「11110000」のようなビット列を思い浮かべてください。 コンピュータと文字 コンピュータが扱えるデータはそもそも「0」と「1」の2進数です。2進数は頑張れば10進数とか16進数とかになるので数値は使えます。ですが来、文字は扱え

    fn7
    fn7 2007/04/10
    ややこしーーーーー
  • UTF-8 エンコーディングの危険性 - WebOS Goodies

    的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。 例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです(昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ

  • subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes
  • Perlについて文字列を一定文字数で改行したい。

    質問者 まき 投稿日 7/22(月) 21:05:47 掲示板などで書き込まれたコメントを 強制的に一定文字数で(例えば5文字で)改行して表示したいのです。 例)$wordに「あいうえおかきくけこさしすせそ」があるとします。 これを、5文字毎に改行したいのです。 $word:「あいうえおかきくけこさしすせそ」 ↓ $newword:「あいうえお<br>かきくけこ<br>さしすせそ<br>」 for($i=0; $i<length($word); $i+=10) { $newword .= substr($word,$i,10); $newword .= "<br>"; } こうすると、コメント文が全て全角だと大丈夫なのですが、 半角文字が入ってしまうと、うまく表示できません。 正規表現を使って作るのでしょうか?? 解る方がおりましたらぜひ教えてください。 よろしくお願いいたします プロバイ

    fn7
    fn7 2006/12/11
    文字数の取得
  • ' + title + ' - ' + basename(imgurl) + '(' + w + 'x' + h +')

    またまたストリートビューです。 さっきはJSからストリートビューをいじってみました(位置変更ね) ほかにもJSからいじれるものとしてヨー角(左右)とピッチ角があります(上下)とズームLvがあります setLocationAndPOV関数の第二パラメータにGPov形式でいれてやります gsv.setLocationAndPOV(d.location.latlng,{yaw:10,pitch:10,zoom:2}); ↑こんな感じね yawは0~359.99999までで北→東→南→西と変化していくようです pitchは-90~90でマイナスは上でプラスは下です zoomは0~2で大きければ大きいほどズームします #間違ってたら補足お願いします じゃぁJSからの制御はわかった! ストリートビューからのイベントはどうやってとるかというと initialized ストリートビューの

    fn7
    fn7 2006/12/11
  • 1