[B! 文字コード] ftnkのブックマーク

ftnk id:ftnk

文字コードに関するftnkのブックマーク (13)

UnicodeとUTF-8の違いは？ - 自分的まとめ - Humanity
UnicodeとUTF-8の違いは？ - Humanityはあんなに反響があるとは思わなかった。ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact
ftnk 2010/01/29
unicode

utf-8

utf8

charset

文字コード
リンク
UTF-8.jp
- WinMirror - 任意のアプリケーションのウィンドウやデスクトップをミラーリングして表示できます。解説: オンサイトでの登壇で返しのモニターがなくてもデモをやりやすくするツールを作った - SSTエンジニアブログ - 音声字幕機能付きのWebカメラ - Web Audio APIを使ってマイク入力をスピーカーから出力 - LTタイマー - JavaScript セキュリティの基礎知識：連載｜gihyo.jp … 技術評論社 - HTML5時代の「新しいセキュリティ・エチケット」－ @IT - 教科書に載らないWebアプリケーションセキュリティ－＠IT - 連載：本当は怖い文字コードの話｜gihyo.jp … 技術評論社 - JSF*ck - encode JavaScript with only 6 letters - []()!+ (broken) JSF*ck demo
ftnk 2008/05/24
unicode

utf8

文字コード
リンク
eucJP-ms と CP51932 の違いコードページ932/ウェブリブログ
「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧
ftnk 2007/09/11
euc-jp

文字コード
リンク
UTF8の文字数を数える手法の検討 — ありえるえりあ
Recent entries Apache2.4のリリース予定は来年(2011年)初め(あくまで予定) inoue 2010-12-23 Herokuの発音 inoue 2010-12-20 雑誌記事「ソフトウェア・テストPRESS Vol.9」の原稿公開 inoue 2010-12-18 IPA未踏のニュース inoue 2010-12-15 労基法とチキンゲーム inoue 2010-12-06 フロントエンドエンジニア inoue 2010-12-03 ASCII.techno logies誌にMapReduceの記事を書きました inoue 2010-11-25 技術評論社パーフェクトシリーズ絶賛発売中 inoue 2010-11-24 雑誌連載「Emacsのトラノマキ」の原稿(part8)公開 inoue 2010-11-22 RESTの当惑 inoue 2010-11-22 「プ
ftnk 2007/09/11
文字コード
リンク
UCS-2とUTF-8
最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例
ftnk 2007/09/11
文字コード

UTF-8

Unicode
リンク
yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須
(Last Updated On: 2016年3月3日)最近PostgreSQL、MySQL両方にSJISエンコーディングを利用している際のエスケープ方法の問題を修正がリリースされています。この件は単純に「データベースシステムにセキュリティ上の脆弱性があった」と言う問題ではなく「アプリケーションの作り方を変える必要性」を提起した問題です。参考：セキュアなアプリケーションのアーキテクチャ – sandbox化 PostgreSQL、MySQLの脆弱性は特にSJIS等、マルチバイト文字に\が含まれる文字エンコーディングが大きな影響を受けますが、同類の不正な文字エンコーディングを利用した攻撃方法が他の文字エンコーディングでも可能です。例えば、UTF-8エンコーディングは1文字を構成するバイト列の最初のバイトの何ビット目までが1であるか、を取得してUTF-8文字として1バイト～6バイト必要なのか
ftnk 2007/09/11
Programming

PHP

MySQL

PostgreSQL

文字コード
リンク
ほら貝：文字コード
ftnk 2007/09/11
文字コード
リンク
シフトJISの拡張文字
JISコードの区点では、9~15区と85~94区を未定義とされてゐる。然し、シフトJISでは、13区と89~92区と115~119区の部分に対し独自に漢字などの文字の割当てを行つてゐる。此処では、この件についてunicode(utf-8)と絡めて説明し、併せて正漢字の使用についての留意点を纏めておきたい。本論「拡張文字」の一覧表 13区(0x8740~0x879E) ①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ・㍉㌔㌢㍍㌘㌧㌃㌶㍑㍗㌍㌦㌣㌫㍊㌻㎜㎝㎞㎎㎏㏄㎡・・・・・・・・㍻〝〟№㏍℡㊤㊥㊦㊧㊨㈱㈲㈹㍾㍽㍼≒≡∫∮∑√⊥∠∟⊿∵∩∪・・ 89区(0xED40~0xED9E) 纊褜鍈銈蓜俉炻昱棈鋹曻彅丨仡仼伀伃伹佖侒侊侚侔俍偀倢俿倞偆偰偂傔僴僘兊兤冝冾凬刕劜劦勀勛匀匇匤卲厓厲叝﨎咜咊咩哿喆坙坥垬埈埇﨏塚增墲夋奓奛奝奣妤妺孖寀甯寘寬尞岦岺峵崧嵓﨑嵂嵭嶸嶹巐弡弴彧德 90区
ftnk 2007/09/11
文字コード

SJIS
リンク
機種依存文字とUnicode - WebStudio
導入機種依存文字と呼ばれる文字があります。例えばWindowsでは、大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、丸囲み文字(㊤㊥㊦㊧㊨)、カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、単位記号(㎝㎏㎡)、複数のアルファベットを合成した文字(㏍℡№)、元号(㍻㍼㍽㍾)、会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。機種依存文字は一般的に、異機種間でデータの交換を行った場合、例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。しかし、これらは機種依存文字と呼ばれているものの、その意味はあ
ftnk 2007/09/11
Unicode

文字コード
リンク
シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories
2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら
ftnk 2007/09/11
文字コード

Unicode

euc-jp

SJIS
リンク
文字コードの基本文献は？ - もじのなまえ
そういえば日曜日の「もじもじカフェ」、お出でくださった皆様どうもありがとうございました。いつも一番の楽しみは、終わった後の懇親会だったりするんですが、その席である学生さんから「文字コードを勉強するとっかかりになるような文章、ありませんか？」との質問が。ネット上で入手できて、信頼性が高く、しかも読んだ後に次のステップが見えてくるような文章。つまり基本文献ですね。もちろん、ぼくなどの原稿ではダメダメ。しばらく考えて挙げたのが以下のもの。皆さんならどんな文章を挙げますか？漢字・日本語処理技術の発展：漢字コードの標準化（芝野耕司）日本の漢字コードを前史の段階から詳述 JIS X 0221（ISO/IEC 10646）の目指すもの（芝野耕司） ISO/IEC 10646（Unicode)についての基本文献ならこれ文字コードと図書館（芝野耕司）標題にとどまらず、国際規格の歴史を詳述 JIS漢
ftnk 2007/09/11
charset

文字コード
リンク
Vistaで化ける字，化けない字（続報）
前報で述べた通り，マイクロソフトのWindows Vistaでは，文字コードにUnicodeを使いながら，Unicodeとは異なる文字コード規格のJIS X 0213をサポートする，という方式を取っている。というのも，Windows 98日本語版以降ずっとサポートしてきたCP932（本名はWindows Codepage 932，いわゆるMS 漢字コード）やJIS X 0212を捨てるわけにはいかないので，CP932もJIS X 0212もJIS X 0213もみんなまとめてUnicodeで扱う，というやり方を取らざるをえないのである。前報では，JIS X 0213の第一水準～第三水準漢字7614字について，Vistaで新たに採用された日本語フォントセットであるメイリオとXP以前のMSゴシックを見比べ，7614字のうち325字*が，VistaとXP以前との間で文字化けする（ここでは本来表
ftnk 2007/09/11
文字コード

文字化け

japanese

Windows

Microsoft

Vista
リンク
404 Blog Not Found:ajax - 文字化け判定表
2007年04月14日01:20 カテゴリLightweight Languages ajax - 文字化け判定表「誰か」という時にhyukiさんの視線を感じたのは気のせいかしらん。結城浩のはてな日記以下のような「文字化け判定表」があるといいなあと思って作り始めましたが、飽きちゃいました（←おい）。誰か作って…。というわけで、そっこーで作ったのが以下。をで表示漢字、カタカナ、ひらがなの入ったquery。これはUTF-8で書かれたテスト文字化けを解決することは鯖側のソースはこちら倉側はお使いのブラウザーで「ソースを見て」下さい。 Enjoy! Dan the Man with too Many Mojibake to Fix See Also: 文字化けクイズ(解答編) - 西尾泰和のはてなダイアリー「Lightweight Languages」カテゴリの最新記事
ftnk 2007/09/11
文字コード

encoding
リンク
1