タグ

charsetに関するftnkのブックマーク (11)

  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
  • UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity

    UnicodeとUTF-8の違いは? - Humanityはあんなに反響があるとは思わなかった。 ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。 と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。 調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。 参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact

    UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity
  • 「UnicodeによるXSSとSQLインジェクションの可能性」プレゼン資料 - ockeghem's blog

    だいぶ間があいてしまいましたが、年1月31日に開催された、第04回まっちゃ445勉強会目覚まし勉強会におけるライトニングトークの資料を公開します。 UnicodeによるXSSとSQLインジェクションの可能性View more presentations from ockeghem.

    「UnicodeによるXSSとSQLインジェクションの可能性」プレゼン資料 - ockeghem's blog
  • アポストロフィの悩み | Okumura's Blog

    何でもいいから英語の単語に「痴」を付けてGoogleで検索してみる。例えば「he痴」でもいい。うまく見つからなければ,例えば Shakespeare痴 Got A Gun を見てみる。英語のサイトなのに何でこう「痴」が多いのか(うまく「痴」に見えないなら,ブラウザのデフォルトのエンコーディングをシフトJISにしてみてください)。 答え:Windows-1252(CP1252)のアポストロフィは 0x92 であり,これにs(0x73)が付くと 92 73 となり,これはシフトJISで「痴」になる。つまり,「He's」が「He痴」に化けるページはアポストロフィをWindows-1252でエンコーディングし,エンコーディング指定をしていないのでシフトJISで表示してしまったのである。書いた人はLatin-1(ISO 8859-1)のつもりかもしれない。 アポストロフィは '(0x27)でいいの

  • Windowsの文字コードって… | Okumura's Blog

    今のWindowsはファイル名もUnicodeになったので,「萌え♥.txt」のようなファイルが簡単に作れる(♥はWindowsの「文字コード表」ツールで入力できる)。ところがこのファイル,メモ帳では開けるが,xyzzyでは開けない。 最近のMacLinuxは,ファイル名はUTF-8だ。これをそのままZipで束ねて,Windowsで解凍すると,名前が化ける。あらかじめconvmvでファイル名をShift JIS(正確にはCP932)に変換してからZipしなければならない(Linux 上で Windows 向けの zip ファイルを作る - ~fumi/ChangeLog 参照)。なんでUnicodeなのにShift JISなの? これでは「萌え♥.txt」は扱えないし。 MoodleのようなWebアプリでも,Windowsサーバを使った場合にこれが問題になる。MoodleはUTF-8で動

    ftnk
    ftnk 2008/07/29
    リンク張られた
  • ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに

    UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。また、UnicodeはASCIIだけでなく、Western Europeanもほぼ同時に追い越している。 Unicodeは多くの言語に対応した標準文字コード体系で、発音区別符号などを利用したローマ字なども扱っている。何十年も前に定められたASCIIコードは128文字あるいは256文字(ASCIIで128 文字、拡張ASCIIで256文字)しか表現できず、タイプライターの影響を受けた同文字コードの拡張は苦戦している。 UnicodeがASCIIとWestern Europeanを追い越したのは12月で、双方が追い越された日は10日も違わなかった。 Unicodeの動きについ

    ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに
  • JIS2004登場でより複雑化する文字コードの問題を解決--富士通の「Interstage Charset Manager」

    富士通は12月7日、文字運用管理の一元化を実現するミドルウェア製品「Interstage Charset Manager」の新機能であるJIS2004対応や、顧客が抱える文字管理の課題とその対策方法に関する説明会を開催した。 Interstage Charset Managerは、メインフレームやWindows、UNIXなど、システムによる文字コードの違いを吸収するためのミドルウェア製品。業務システムで使用するあらゆる文字資源を効率的に集中管理できるので、文字化け対策のための作業時間やコストを削減することが可能になる。 新しい機能として、外字ライブラリに、JISの文字規格である「JIS X 0213:2004(JIS2004)」や最新の人名漢字、住民基台帳ネットワーク統一文字、戸籍統一文字などを含む約9万字を収録。新たに外字を制作することなく、外字エディタ機能を使用して容易に外字を利用す

    JIS2004登場でより複雑化する文字コードの問題を解決--富士通の「Interstage Charset Manager」
  • 日本語文字セットがVista最大の問題として急浮上

    「どこでどういった問題が起こるのか分からない。まさかデータベースが壊れるということはないと思うが」――。国内大手ベンダーの幹部は不安そうに話す。この幹部が懸念するのは、Windows Vistaで採用された新文字セットの情報システムへの影響である。別の大手ベンダーのシステム構築部門も、「情報システムのクライアントとしてVistaを見た場合、最大の問題は日語の文字セットだ。現在、共通の基盤技術セクションで影響を調査している」という。 企業向けVistaの出荷開始を目前に控え、Vistaの新文字セット採用が大きな問題として浮上してきた。 Windows Vistaは、新しい文字セットに関するJIS規格「JIS X 0213:2004」に準拠した日フォントを標準で搭載する。これにより、既存の漢字のうち122文字の字形が変更になり、約900文字の漢字、約200文字の非漢字(英語の発音記号や記

    日本語文字セットがVista最大の問題として急浮上
  • 文字コードの基本文献は? - もじのなまえ

    そういえば日曜日の「もじもじカフェ」、お出でくださった皆様どうもありがとうございました。いつも一番の楽しみは、終わった後の懇親会だったりするんですが、その席である学生さんから「文字コードを勉強するとっかかりになるような文章、ありませんか?」との質問が。 ネット上で入手できて、信頼性が高く、しかも読んだ後に次のステップが見えてくるような文章。つまり基文献ですね。もちろん、ぼくなどの原稿ではダメダメ。しばらく考えて挙げたのが以下のもの。皆さんならどんな文章を挙げますか? 漢字・日語処理技術の発展:漢字コードの標準化(芝野耕司) 日の漢字コードを前史の段階から詳述 JIS X 0221(ISO/IEC 10646)の目指すもの(芝野耕司) ISO/IEC 10646(Unicode)についての基文献ならこれ 文字コードと図書館(芝野耕司) 標題にとどまらず、国際規格の歴史を詳述 JIS漢

    文字コードの基本文献は? - もじのなまえ
  • ショック! ISO/IEC 10646の規格票がフリー・ダウンロード - もじのなまえ

    なんの気なしに「漢字データベースプロジェクト」を見ていたら、以下の記述が。 2006年現在、ISO/IEC 10646:2003、ISO/IEC 10646:2003/Amd 1:2005、ISO/IEC 10646:2003/Amd2:2006は一般にPDFで公開されています。 うそ! だって俺、ものすごい決心して、わざわざ赤坂の日規格協会まで行ってあれのCD-ROM版を買ったんですよ! たしか18,000円くらいとられた覚えが……。 驚いてそこで示されている以下のurlへ行ったら、……あーあ、当だ。無料でダウンロードできるよ。 Freely Available Standards でも、もしかしたらUnicodeやJISのように印刷できない制限付きじゃないかなあ……などと思って実際にダウンロードしたら、ひえ〜、買ったのと全く同一、印刷どころかテキストのコピーだって、しおりだって作れ

    ショック! ISO/IEC 10646の規格票がフリー・ダウンロード - もじのなまえ
    ftnk
    ftnk 2007/09/11
  • シフトJISを捨てられるか? - 記者のつぶやき:ITpro

    これまで,Windows Vistaの文字の扱いに関する事柄を何度か取り上げてきた。同じキャラクタ・コードで,Windows XPのときと文字の形が変わったり,Unicodeでしか扱えない文字があったりするという話題だ。今回は,エンコーディングについて考えてみたい。 これまでの記事でも書いてきたが,文字処理とエンコーディングに関する問題は,何もWindows Vistaに始まったわけではない。Windows XPやWindows 2000など,既存のWindowsでも同様だ。例えば,「鴎」の旧字である「シナカモメ」は,Unicodeでしか扱えない文字だが,Windows XP以前のMS-IMEでも入力できる。石鹸の「鹸」の旧字もそうである。これらの文字を扱うには,アプリケーション・ソフトが,文字列をUnicodeで処理しなればならない。シフトJISに変換した瞬間に,文字情報が無くなってしま

    シフトJISを捨てられるか? - 記者のつぶやき:ITpro
  • 1