タグ

文字コードに関するtraverseのブックマーク (5)

  • Encode::First をリリース: blog.bulknews.net

    Encode::First をリリース Encode::First を CPAN にリリース。ある文字列を最小の character set でエンコードしたいときに使う。使い方は、 use Encode::First; my($enc, $bytes) = encode_first("ascii,latin-1,euc-jp,utf-8", $string); という感じ。Email を送信するときとか、utf-8 を読めないメーラ対策として文がすべて日語なら iso-2022-jp で送る、というのを Gmail とかでもやっているんだけど、それをやりたくてつくった。 で、Traditional なエンコード (us-ascii, latin-1, iso-2022-jp, iso-2022-kr, koi8-ru etc.) を対象にして文字列をエンコードする Encode::E

  • 備忘録

    このサイトについて このサイトは、複雑怪奇なパソコンの文字をめぐる問題を整理するための 備忘録として作成しました。 資料は、できるだけ個人の判断が入らないように注意を払い、 原資料に忠実であるように心がけました。 これは、個人的な見解よりも、現実認識の方が重要だと思ったからです。 そのため、作成の目的上、不要と思われるものも、そのまま載せました。 ご利用の際は、各自で個別の判断をして、取捨選択していただきたいと思います。 また、出来るだけ原資料を明示するように心がけました。 それぞれの資料にも直接あたられることをお勧めします。 PDFが主体で、フォントを全て埋め込んだために、重いものも少なくありません。 ブラウザーで表示するよりも、直接ダウンロードした方が早いかも知れません。 また、表示がぎこちなかったり、印刷に支障が出る場合は、 Acrobat Reader のバージョンを下げると改善さ

  • ショック! ISO/IEC 10646の規格票がフリー・ダウンロード - もじのなまえ

    なんの気なしに「漢字データベースプロジェクト」を見ていたら、以下の記述が。 2006年現在、ISO/IEC 10646:2003、ISO/IEC 10646:2003/Amd 1:2005、ISO/IEC 10646:2003/Amd2:2006は一般にPDFで公開されています。 うそ! だって俺、ものすごい決心して、わざわざ赤坂の日規格協会まで行ってあれのCD-ROM版を買ったんですよ! たしか18,000円くらいとられた覚えが……。 驚いてそこで示されている以下のurlへ行ったら、……あーあ、当だ。無料でダウンロードできるよ。 Freely Available Standards でも、もしかしたらUnicodeやJISのように印刷できない制限付きじゃないかなあ……などと思って実際にダウンロードしたら、ひえ〜、買ったのと全く同一、印刷どころかテキストのコピーだって、しおりだって作れ

    ショック! ISO/IEC 10646の規格票がフリー・ダウンロード - もじのなまえ
  • yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須

    (Last Updated On: 2016年3月3日)最近PostgreSQLMySQL両方にSJISエンコーディングを利用している際のエスケープ方法の問題を修正がリリースされています。この件は単純に「データベースシステムにセキュリティ上の脆弱性があった」と言う問題ではなく「アプリケーションの作り方を変える必要性」を提起した問題です。 参考:セキュアなアプリケーションのアーキテクチャ – sandbox化 PostgreSQLMySQLの脆弱性は特にSJIS等、マルチバイト文字に\が含まれる文字エンコーディングが大きな影響を受けますが、同類の不正な文字エンコーディングを利用した攻撃方法が他の文字エンコーディングでも可能です。例えば、UTF-8エンコーディングは1文字を構成するバイト列の最初のバイトの何ビット目までが1であるか、を取得してUTF-8文字として1バイト~6バイト必要なのか

    yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須
  • Legacy Encoding Project

    Legacy Encoding Project † オープンソースソフトウェアでのレガシーエンコーディング(シフトJIS、日語EUC、7ビットJISコード)の文字コード変換で生じる問題の解決を目指すプロジェクトです。 プロジェクトIPA (情報処理推進機構) の 2005年度下期 オープンソースソフトウェア活用基盤整備事業 で「オープンソースソフトウェアにおける統一したレガシーエンコーディングの変換機能の開発」として採択され支援を受けています。 概要 IPA オープンソースソフトウェア活用基盤整備事業 キャラクタセットの詳細 cp932 cp51932 eucJP-ms ISO-2022-JP-MS 各キャラクタセットの対応関係 ↑

  • 1