タグ

文字コードとWebに関するardarimのブックマーク (7)

  • HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血

    さよならレガシーエンコーディング。 文字エンコーディング宣言が存在するかどうかにかかわらず、文書のエンコードに使用される実際の文字エンコーディングはUTF-8でなければならない。 4.2.5.5 文書の文字エンコーディングを指定する - HTML Standard 日語訳 Require utf-8 when specifying character encoding by sideshowbarker · Pull Request #3091 · whatwg/htmlにより、HTMLで使用できるエンコーディングはUTF-8のみとなりました。これにより、古いHTMLでは許容されていた、Shift_JIS、ISO-2022-JP、EUC-JP、UTF16LEといった文字エンコーディングは適合するHTMLではなくなりました。すでにNu Html CheckerでUTF-8以外の文字エンコー

    HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血
  • 文化庁ホームページの文字コード | yasuokaの日記 | スラド

    今日が「改定常用漢字表試案への意見」の〆切なので、景気づけに文化庁ホームページの「サイト内検索(e-Gov)」で、問題の4字を検索してみることにした。 「𠮟」検索不能 「塡」検索不能 「剝」検索不能 「頰」検索不能 …っていうか、このホームページ、そもそも文字コードがShift_JISなんだけど。その上、HIDDENパラメータの中に「JCODE=SJIS」ってのがあって、e-GovにはシフトJISしか渡せなくなってる。 仕方がないので、【改定常用漢字表試案への意見】テンプレートで最初に示した4字を、代わりに検索してみた。 「叱」31件ヒット 「填」65件ヒット 「剥」316件ヒット 「頬」6件ヒット ふーん。表外漢字字体表を9年前に答申して、5年10ヶ月前にはJIS X 0213まで改正させたのに、文化庁内部ですらまだこんな状態なのね。まあ、常用漢字表が改定されたら、e-Govの作り直し

    ardarim
    ardarim 2010/01/07
    まあ縦割り行政なんてそんなものでしょう…
  • htmlspecialcharsに関する残念なお知らせ - 岩本隆史の日記帳(アーカイブ)

    htmlspecialcharsのパッチ私案」に書いた件、バグレポートを出してみましたが、「すでに同じバグレポートがあるだろ」という理由により、あえなく却下されました。 せめて先方が「同じ」とみなしているレポート番号ぐらいは示してほしくて、そのようにコメントしましたが、お相手のjaniという人は気難し屋のようで*1、教えてもらえる気がしません。 私なりに探した結果、下記のレポートがくさいように感じました。 PHP :: Bug #43896 :: htmlspecialchars() returns empty string on invalid unicode sequence 「不正なUTF-8シーケンスの場合に空文字列を返すのはおかしい」というレポートで、私のそれとは正反対どころか、Shift_JISにもEUC-JPにも触れられていない別個のものです。もちろん、私はレポート送信前に

    htmlspecialcharsに関する残念なお知らせ - 岩本隆史の日記帳(アーカイブ)
  • 何故かあたり前にならない文字エンコーディングバリデーション

    (Last Updated On: 2018年8月8日)私が4年前(2005年)に「Webアプリセキュリティ対策入門」を執筆していた時には、既に壊れた文字エンコーディングなどの不正な文字エンコーディングを利用したJavaScriptインジェクションやSQLインジェクション攻撃は比較的広く知られていました。この問題は当時のスラッシュドットジャパンでも取り上げられていました。/.で取り上げられたので、そこら中のWebサイトとユーザが被害に合うのでは?とヒヤヒヤしたので良く覚えています。 不正な文字エンコーディングを利用した攻撃は、文字エンコーディングを厳格に取り扱い、文字エンコーディングをバリデーションすれば無くなります。これを怠ると、システムのどこで問題が発生するか予想できなくなります。つまり、いい加減に文字エンコーディングを取り扱うと安全なシステムは作れないのです。 参考:エンジニア向けに

    何故かあたり前にならない文字エンコーディングバリデーション
    ardarim
    ardarim 2009/09/16
    「誤字・脱字では自分でも見つけましたが、こういう本の評価に重要なのでしょうか?」 信頼性が低く見られる。ちゃんと推敲されてないってことだから。「書く事だけに一生懸命」とか時間がないとかは言訳にできない
  • アポストロフィの悩み | Okumura's Blog

    何でもいいから英語の単語に「痴」を付けてGoogleで検索してみる。例えば「he痴」でもいい。うまく見つからなければ,例えば Shakespeare痴 Got A Gun を見てみる。英語のサイトなのに何でこう「痴」が多いのか(うまく「痴」に見えないなら,ブラウザのデフォルトのエンコーディングをシフトJISにしてみてください)。 答え:Windows-1252(CP1252)のアポストロフィは 0x92 であり,これにs(0x73)が付くと 92 73 となり,これはシフトJISで「痴」になる。つまり,「He's」が「He痴」に化けるページはアポストロフィをWindows-1252でエンコーディングし,エンコーディング指定をしていないのでシフトJISで表示してしまったのである。書いた人はLatin-1(ISO 8859-1)のつもりかもしれない。 アポストロフィは '(0x27)でいいの

    ardarim
    ardarim 2009/08/27
    よくある話。ブラウザも「痴」でシフトJISと勘違いしちゃうケースがあるのかね。
  • 第7回■文字エンコーディングが生み出すぜい弱性を知る

    文字コードに関する問題は大別すると文字集合の問題と文字エンコーディングの問題に分類できる。前回は文字集合の取り扱いに起因するぜい弱性について説明したので、今回は文字エンコーディングに起因するぜい弱性について説明しよう。 文字エンコーディングに依存する問題をさらに分類すると2種類ある。(1)文字エンコーディングとして不正なデータを用いると攻撃が成立してしまう点と,(2)文字エンコーディングの処理が不十分なためにぜい弱性が生じることがある点だ。 不正な文字エンコーディング(1)――冗長なUTF-8符号化問題 まず,(1)の不正な文字エンコーディングの代表として,冗長なUTF-8符号化問題から説明しよう。前々回に解説したUTF-8のビット・パターン(表1に再掲)を見ると,コード・ポイントの範囲ごとにビット・パターンが割り当てられているが,ビット・パターン上は,より多くのバイト数を使っても同じコー

    第7回■文字エンコーディングが生み出すぜい弱性を知る
  • Windows Vistaの「文字セット」問題を解決、富士通が新ソフト

    富士通は12月7日、Windows Vista/XPなどOSのバージョンが違っても、Webブラウザで表示する漢字の字体を統一できるようにした新ソフト「Interstage Charset Manager Web入力 Agent」の説明会を開催した。文字コード体系の新規格「JIS2004」を採用しているWindows Vista上で、同XPと同様の「JIS90」規格に従った漢字を入力・表示できる。反対にXP上で、同OSが未対応のJIS2004に従った字体を入力・表示することも可能だ。新ソフトは、11月に出荷を開始している。 仕組みはこうだ。Webサーバー上で動作する新ソフトは、文字コードと漢字の変換テーブルを保持しており、OSによって字体が異なる漢字については、画像データに変換してWebブラウザに送信する。このため、どちらのOS上で動作するWebブラウザでも、同じ字体が表示される。文字入力時

    Windows Vistaの「文字セット」問題を解決、富士通が新ソフト
    ardarim
    ardarim 2007/12/10
    まあ解決はするかもしれないが、ずいぶんとローテクだな。先進性は一切ない。
  • 1