タグ

文字コードに関するtks_periodのブックマーク (7)

  • Rubyのエンコーディング - tmtms のメモ

    Ruby 1.9 から文字列や正規表現オブジェクトはそれぞれエンコーディング(いわゆる文字コード)を保持するようになりました。 たとえば 0xB1 0xB2 という2バイトは EUC-JP エンコーディングでは「渦」、SHIFT_JIS エンコーディングでは「アイ」という文字になります。つまり同じバイト列でもエンコーディングが異なれば異なる文字として解釈されます。 1.8 では文字列はただのバイト列でした。なので、それがどのような文字を表しているのか、つまりエンコーディングが何なのかはプログラムが知っている必要がありました。 1.9 では文字列オブジェクト自身が自分が何のエンコーディングかを知っています。同じ 0xB1 0xB2 というバイト列でも、それが EUC-JP の「渦」なのか SHIFT_JIS の「アイ」なのかは、文字列自身が知っています。 スクリプトエンコーディング スクリプ

    Rubyのエンコーディング - tmtms のメモ
  • MySQL/Rubyにおける正しいエンコーディング変更方法 - しばそんノート

    MySQLの文字化けを直したい! 発端はSequelを使ってMySQLのデータを操作するRubyスクリプトを書いていたときでした。 UTF-8で保存したはずの文字列が、妙に文字化けしています。 mysqlコマンドでエンコーディングの確認をしてみると、 $ mysql -h host -u user -p database ...(略)... Type 'help;' or '\h' for help. Type '\c' to clear the buffer. mysql> \s -------------- mysql Ver 14.14 Distrib 5.1.30, for portbld-freebsd7.1 (i386) using 5.2 ...(略)... Server characterset: ujis Db characterset: utf8 Client char

    MySQL/Rubyにおける正しいエンコーディング変更方法 - しばそんノート
    tks_period
    tks_period 2009/09/21
    うわあ… お疲れさまです。非常に参考になります。 大量の時間が掛かったと思いますが、その屍を乗り越えて私たちは快適に…w
  • それ Unicode で

    UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

    tks_period
    tks_period 2006/12/14
    ZERO-WIDTHと¥と\ぐらいは知ってたけど、それ以外はほとんどは知らなかった。勉強になる。
  • またぞろHATENA-TUBEがとまってます | fladdict

    一応見れますが、現在更新不能状態です。 坂さんのお力で復帰したハテチューですが、再び不正なUTF8の魔の手がせまってきました。 Input is not proper UTF-8, indicate encoding ! Bytes: 0x9A 0xE3 0×83 0xAB in 犯人はこのブックマーク。はてなの出力がショボイのか、PHPという言語がショボイのかはわかりませんが、すくなくとも僕がショボイのは確実です。 UTF8にマッチする正規表現 UTF-8 の文字にマッチする正規表現 UTF-8 vs. ISO-10646 グーグル超先生のお力で色々と資料みつけたり、正規表現辞典 を買ってみたりしたのですが、じゃあ実際にperlのコードをどうphpに適用するかというと、まったくもって謎です。

  • yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須

    (Last Updated On: 2016年3月3日)最近PostgreSQLMySQL両方にSJISエンコーディングを利用している際のエスケープ方法の問題を修正がリリースされています。この件は単純に「データベースシステムにセキュリティ上の脆弱性があった」と言う問題ではなく「アプリケーションの作り方を変える必要性」を提起した問題です。 参考:セキュアなアプリケーションのアーキテクチャ – sandbox化 PostgreSQLMySQLの脆弱性は特にSJIS等、マルチバイト文字に\が含まれる文字エンコーディングが大きな影響を受けますが、同類の不正な文字エンコーディングを利用した攻撃方法が他の文字エンコーディングでも可能です。例えば、UTF-8エンコーディングは1文字を構成するバイト列の最初のバイトの何ビット目までが1であるか、を取得してUTF-8文字として1バイト~6バイト必要なのか

    yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須
  • Shift-JISテキストを正しく扱う perl 日本語パターンマッチ正規表現 の問題と落とし穴

    最近の更新履歴 2006-10-28: 「Shift-JISの漢字を含むファイル名/パス名」について若干追記。 2005-03-26: 「最初に」中、XML日語プロファイル第2版に基づき、若干追記。 2005-03-09: 「最初に」中、文章を若干修正。 2003-06-24: Shift-JISの漢字を含むファイル名/パス名 2003-05-31: 「最初に」中、「シフトJIS」などの表記について。 2003-05-24: CP932重複定義文字の変換 2002-08-30: Perl 5.8.0 について。 2002-01-17: 長い文字列に対する正規表現検索 2001-12-15: ShiftJIS::Collate が overrideCJK パラメータを廃止したことに伴う 日語文字列を並び替えるの書き換え。 最初に 日語の文字コードにはいくつかのものが使われています。ある

  • 文字コード:ほら貝

    文字コード問題を考える 加藤弘一 ◇ 新着案内 ◇ 主な変更履歴              Apr07 2000 ◇ 一太郎で使う異体字タグ         普請中 ◇ インターネットと漢字          Nov11 2004 ◇ 文字コード案内 ──どこから読むか?    Mar30 2000 ◇ 「文字コードから見た住基ネットの問題点」 Aug10 2002 ◇ 「アジアの多言語処理 」         Jun22 2002 ◇ 『図解雑学 文字コード』サポートページ  Aug10 2002 ◇ 『電脳社会の日語』サポートページ   May27 2000 ◇ 二千年紀の文字コード問題        Nov18 1999 「二千年紀の文字コード問題」掲載の経緯 ◇ 「超漢字」の「多国語」と称する機能について Mar26 2000 ◇ 多言語テキスト処理はどこまで可能か    Jun

  • 1