タグ

文字コードに関するfbisのブックマーク (9)

  • Macで作った濁点・半濁点入りのファイル名をWindowsで扱うときの罠 - ヨヨギ産のブログ

    photo by Slayer925 Macでファイルやフォルダを作成して、それをメールで送ったり、LAN経由で取り込む際にしばしば「ファイル名の文字化け」が起こります。これはMacの文字コードが「UTF-8-Mac」であるために起こります。 特に厄介なのは、濁点・半濁点入りのファイル名です。例えば「ハンドバッグ.jpeg」とか「ペペロンチーノ.gif」とかの場合です。 「UTF-8-Mac」では、濁点・半濁点文字、例えば「ド」を「ト」と「゛」、「ぺ」を「へ」と「゜」を合成して表現します。つまり、文字コードが異なるわけです。 しかし、Windowsのエクスプローラーでは、これをちゃんと認識して「パパとじいじ.jpg」と言う風に、違和感無く表示してくれちゃいます。 ここまでは「Windows賢いな~」なんですが、この後が厄介。 この「パパとじいじ.jpg」のパスをAccessやExcelなど

    Macで作った濁点・半濁点入りのファイル名をWindowsで扱うときの罠 - ヨヨギ産のブログ
  • PHP5.4のhtmlspecialcharsに非互換問題

    第3引数を指定していない場合の影響前述のように、htmlspecialchars関数の第3引数を指定していない場合、PHP5.3までは、文字エンコーディングがISO-8859-1が指定されたとみなされます。この場合、入力内容にかかわらず不正な文字エンコーディングと判定されることはありません。したがって、文字エンコーディングのチェックが働かない代わりに、エラーになることもありませんでした。 これに対して、PHP5.4の仕様により文字エンコーディングがUTF-8とみなされた場合に、Shift_JISやEUC-JPの2バイト文字が入力されると、高い確率で「UTF-8として不正」というエラーになり、htmlspecialchars関数の出力は空になります。つまり、プログラムが正常に動作しません。 htmlspecialchars関数の第3引数を指定しておらず、内部文字エンコーディングがShift_

  • DBIで文字コード変換その後 - omoonのブログ

    http://d.hatena.ne.jp/omoon/20070710/1184034594 http://q.hatena.ne.jp/1183789393 このあたりに書いていたことの顛末です。とりあえず、この形で様子を見る、というのができたので書いときます。とりあえず今のところ暫定版。変化があり次第追記します。 結論から言うと、DBIのサブクラスを作って実装しました。 主に、この部分を参考にしました。 http://search.cpan.org/~timb/DBI-1.58/DBI.pm#Subclassing_the_DBI やったことは、以下の3つ。 prepare部分でsql文をencode(cp932へ) execute部分でプレースホルダへの変数をencode(cp932へ) fetch部分で戻り値をdecode(cp932から) 上2つで、更新(insert, upd

    DBIで文字コード変換その後 - omoonのブログ
    fbis
    fbis 2007/07/19
    最終手段に
  • hide-k.net#blog: Catalystでマルチバイトを取り扱うときのまとめ

    #前に社内wikiに書いておいたのを公開してみるテスト。 Catalystでマルチバイトを扱う機会があるのは主に ユーザーがフォームで入力する値 ($c->req->param()) データベースからの入出力 (DBIx::Class) それ以外の文字列の評価 View::TTによる出力の生成 FillInFormによるフォームの埋め込み HTTPレスポンス です。 ここでは以下の条件でまとめてみました。 文字コードはUTF8に統一 データベースにはmysqlを使用 下準備 テンプレート、perlのコードは全てUTF8で書きます。 mysqlの文字コードの指定は/etc/my.cnfに [mysqld] default-character-set = utf8 skip-character-set-client-handshake [mysql] default-character-set

  • subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes
  • それ Unicode で

    UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

  • Windowsヤバイ :【2ch】ニュー速クオリティ

    1 名前:以下、名無しにかわりましてVIPがお送りします[] 投稿日:2006/07/21(金) 17:19:32.16 ID:YXStSPIN0 3 名前:名無しさん@6周年[sage] 投稿日:2006/07/21(金) 14:16:17 ID:PhA/tTGo0 Windowsには米政府による検閲ソフトが組み込まれています。 米政府にとって不利益なキーワードを含むテキストは ハードディスク上に保存することができません。 例: メモ帳で「Bush hid the facts」(ブッシュは事実を隠している)と入力し、 一度保存してから再び開いてみてください。 2 名前:以下、名無しにかわりましてVIPがお送りします[sage] 投稿日:2006/07/21(金) 17:21:25.29 ID:nZ6a6gKQ0 うほw 3 名前:以下、名無しにかわりましてVIPがお送りします[] 投稿日

    fbis
    fbis 2006/07/24
    単なる文字化けバグネタみたい
  • 日本語 (EUC-JP)の substr …について : にぽたん研究所

    どうも気になったので。。。 shag の日記 - 日語(EUC-JP)の substr 今の Perl(5.8 以降)は文字列が utf8 だったら標準添付の substr() を使って終了なネタなわけだが、わけあって EUC-JP な文字列で日語も 1 文字と数えて substr をするサブルーチンを考えてみた。今さら。 かの有名な Perlメモに日語(EUC-JP)を含む文字列の split というのが(文字単位に分割する)あるんだけど、これを参考に euc_substr() というサブルーチンを書いてみた。一応 offset だけでもイケル。 なんか、euc_substr($str, 0, 5) と、LENGTH を 5 に指定しているのに、6 文字切り出されるのは正しい動きだと思いがたかったのと、 use strict; use Encode; sub euc_substr

    日本語 (EUC-JP)の substr …について : にぽたん研究所
  • 文字コードについて

    文字コード、標準化について 文字コードについての実用的な説明です。 文字コード表 JIS X 0201、JIS X 0208、JIS X 0213のJIS、EUC-JP、Shift_JIS、Unicodeの文字コード表と、JIS X 0221のUnicodeの文字コード表です。 JIS X 0211 の制御コード表(JIS制御コード) JIS X 0201 の文字コード表(JISローマ字:ASCII、JISカナ) JIS X 0201 の文字コード一覧(Unicode対応) JIS X 0208 の文字コード表(JIS漢字:第1・第2水準) JIS X 0208 の文字コード一覧(Unicode対応) JIS X 0213 の文字コード表(JIS漢字:第1・第2・第3・第4水準) [UTF-8テキスト版] Unicode、常用漢字、人名漢字対応 JIS X 0213 の文字コード一覧 [U

  • 1