[B! charset] suVeneのブックマーク

Shift_JISにおける危険な文字まとめ

今時Shift_JISでプログラミングするバカな奴はいないだろうけど折角まとめたので公開 2バイト目がアスキーコードど丸被りしているものを列挙する@[\]^_`{|}~405B5C5D5E5F607B7C7D7E81　ー―‐／＼??＋??±×82・・・・・・Ａ・・・・83ァゼソゾタダチボポマミ84АЪЫЬЭЮЯклмн85・・・・・・・・・・・86・・・・・・・・・・・87????????・????・・・??88・・・・・・・・・・・89院閏噂云運雲荏閲榎厭円8A魁骸浬馨蛙垣柿顎掛笠樫8B機擬欺犠疑祇義宮弓急救8C掘啓圭珪型契形鶏芸迎鯨8D后梗構江洪浩港砿鋼閤降8E察纂蚕讃賛酸餐施旨枝止8F宗充十従戎柔汁旬楯殉淳90拭深申疹真神秦須酢図厨91繊措曾曽楚狙疏捜掃挿掻92叩端箪綻耽胆蛋畜竹筑蓄93邸甜貼転顛点伝怒倒党冬94如納能脳膿農覗倍培媒梅95鼻票表評豹廟描府怖扶敷96法房暴望某棒冒本翻凡

suVene 2008/03/06

charset

リンク

http://openblog.meblog.biz/article/61959.html

suVene 2007/03/18

charset

リンク

Unicode に関する誤解の誤解 - odz buffer

ref:Open ブログ: ◆ シフトJIS と unicode via:Matzにっき(2007-03-12) 初めにお断りしておくが、本項は、誰かを批判することが目的ではない。素人にありがちな誤解を正すことにある。上記のサイトで、素人が間違いを犯しているからといって、素人を批判するつもりは毛頭ない。素人が専門知識をもたないのは当然だからだ。私としては、批判するためというよりは、読者が他山の石として眺めるために、上記のサイトを見ることをお勧めする。 Encode.pm の maintainer である dankogai 氏を素人呼ばわりするのもなかなか勇気があると思うが、じゃ、そういう本人の誤解を正しておこうか。一方、 unicode には問題が山積みだ。だいたい、素人は unicode という言葉を使っているが、 unicode というものは一種類しかないわけではない。UTF-8，

suVene 2007/03/18

『Encode.pm の maintainer である dankogai 氏を素人呼ばわりするのもなかなか勇気があると思うが』わろた

リンク

UTF-8 エンコーディングの危険性 - WebOS Goodies

基本的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです（昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ

suVene 2007/02/22

リンク

VistaをXPの字体に戻すというjp90タグの罠

JIS C 6226が最初に制定されたのは1978年。6802字を収録した漢字コードとして制定され，規格票の例示字体は写研の石井明朝体で印刷された。ところがJIS C 6226は，1983年に改正された際，漢字300字の字体を変更した。この改正で「同じ文字コードでも違う字が表示されてしまう」という現象が頻繁に起こった。いわゆる「83JIS改正の悪夢」だ。さらにJIS C 6226は，1987年にJIS X 0208という名前に変わっているが，このときには規格そのものの変更は一切おこなわれていない。次の1990年の改正では，規格票例示字体を平成明朝体に変えたので，1983年版とは微妙に字体が変わってしまった。これに懲りて，1997年の改正では，規格票例示字体は一切いじることなく，字数も全く変更せず，あくまで規格そのものの明確化につとめた。一方，1990年にはJIS X 0212（補助漢字

suVene 2007/02/13

リンク

槻ノ木隆の「BBっとWORDS」

■ 文字コードって何？ PCに限らずコンピュータは一般に、文字を文字として扱うことはできません。そこで、文字に番号を付けて対応を行なっており、この番号のことを「文字コード」と呼びます。文字コードとして昔から使われてきたものには、「ASCIIコード」や「EBCDICコード」、最近では「ISO-8859」などが世界的に使われています。また、日本に限って言えば、「JIS X 0208/0212/0213」という、いわゆる「JIS漢字」が古くから使われてきましたが、これを表現するための符号化方式として「ISO-2022-JP/Shift JIS/EUC」などが組み合わされて使われていたほか、最近はUnicodeも広く利用されるようになってきました。問題は、これらの文字コードが「大雑把には相互変換可能」、逆に言えば「細かい非互換部分が残されている」という点でしょう。 ■ 文字集合と符号化方式上

suVene 2007/02/05

リンク

ウノウラボ Unoh Labs: 絵文字の相互変換リスト

こんばんは。harukです。 2週間前からビデオポップ担当になり、まず最初に、3キャリアの絵文字の変換から取り組みました。検索して探してみたものの、いいものが見つからなかったのですが、幸いにも、3キャリアそれぞれメールでは絵文字の自動変換があるので、それを利用して作ることができます。(昔は手入力で一つ一つやってました) Tab区切りのテキストファイル(TSV)を置いておきましたので使いたい方は使ってください。絵文字の番号の付け方はそれぞれ以下のようになっています。 DoCoMo(i-mode) 基本絵文字：%i(1～176)% 拡張絵文字：%i(1001～1076)% au(EZweb) 絵文字番号＝%e(1～822)% SoftBank PAGE1(G)：%s( 1～ 90)% PAGE1(E)：%s(101～190)% PAGE1(F)：%s(201～290)% P

suVene 2007/02/04

リンク

Vista で導入される JIS X 0213:2004(JIS2004) のまとめ（お勉強編）

「日本語文字セットがVista最大の問題として急浮上：ITpro」　が初めのネタになったのですが、なかなか時間もとれず、この記事を書き始めてはや３週間も経ってしまいました・・・orz Windows Vistaは、新しい文字セットに関するJIS規格「JIS X 0213:2004」に準拠した日本語フォントを標準で搭載する。これにより、既存の漢字のうち122文字の字形が変更になり、約900文字の漢字、約200文字の非漢字（英語の発音記号や記号、アイヌ文字など）が新たに表示可能になる。〜中略〜さらに、追加される新しい文字の一部をUnicodeで表現すると、通常の2バイトではなく4バイトで表現されるものがある。をみて、SJIS → UTF-8 → SJIS とかやると文字化けするものとかでるじゃん！大丈夫だっけ？大丈夫じゃなかったら、どんな対策をとったらいいんだっけ？ってのを考察しています

suVene 2006/12/17

リンク

Vistaで化ける字，化けない字

11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで，“文字化け”が起こるらしい。文字化けといっても，Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく，その多くは似た文字が表示される程度である。ここでは，本来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは，Windows 98日本語版の発売以来，Windows 2000，Windows Me，Windows XPまでCP932（本名はWindows Codepage 932，いわゆるMS漢字コード）とJIS X 0212をサポートしてきたが，最新のWindows VistaではJIS X 0213に乗り換えた。いや，乗り換えたというのは，ちょっと語弊がある。CP932とJIS X 0212に加えて，JIS X 0213もサ

suVene 2006/12/15

リンク

それ Unicode で

UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

suVene 2006/12/13

文字コードに絡むXSSの例が沢山

リンク

Unicodeは文字集合か符号化方式か : 404 Blog Not Found

2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。文字コード規格の基礎：ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合，文字の集合エンコード方法という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが，ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。まずUnic

suVene 2006/11/24

リンク

文字コード規格の基礎：ITpro

この記事は，日経ソフトウエア 1999年10月号に掲載したものです。それ以降の情報が盛り込まれていませんので，現在とは異なる場合があります。文字コード規格の基礎を手早く理解したい場合などにお役立てください。文字コードは間違いなく情報を交換するための「決まりごと」なので，正確を期すため厳密な仕様が規定されている。だが，その仕様そのものを実装するプログラムを作る場合を除けば，プログラマが仕様の詳細を隅々まで理解している必要はない。六法全書を読んでいなくても問題なく普段の生活ができるようなものだ。ここでは，通常のプログラミングをするうえで必要と思われる範囲のことを，なるべく簡潔に説明したい。「半角カナ」のような呼び名は正確さを欠くものだが，多くの人に伝わりやすいので説明の中でも使っていく。説明を簡略化するため「正確な仕様を知りたいときは規格書そのものを必ず参照してほしい」と書きたいところだ

suVene 2006/11/23

文字集合とエンコーディングについて、ビットコードの重複範囲などの説明など(概要的に)。http://blog.livedoor.jp/dankogai/archives/50696661.html

リンク

Passing Pictures 3rd: もはや死語？『機種依存文字』

もはや死語？『機種依存文字』機種依存文字…。丸付き数字とか、単位記号とか、(株)やら(有)やらを一文字で表したヤツとか、JISに規定されていない文字のことです。こういう文字を使うと、違う環境で見ている人には意図した文字が表示されず、別の文字に化けてしまうので、ネットでは使わないことが望ましい、とされていました。（←過去形でいいのだろうか？)　例えばWindowsで丸付きの1、2、3は、Macではカッコ付の月、火、水に化けるようです。一昔前の、パソコン通信の時代には、こういうのをネット上で使ってはいけない、というのはある意味常識で、知らずに使っている人がいればやんわり注意する人がいて、と常にどこかでそういう光景かあったのですが…。最近は結構知名度の高い方のblogなどでも、平気でWindows依存の文字が使われていることが多いですし、Macの方や携帯の方は大丈夫なのかなー、と心配にな

suVene 2006/11/16

本筋と関係ないが、『「私たちは素人だからそんなことは知らない」といわれてしまいます…。』これ、なめられてるだけだろｗ

net
charset

リンク

[を] UTF-8 で半角カナを判定

UTF-8 で半角カナを判定 2006-11-09-3 [Programming] Perl で UTF-8 で半角カナを判定するには、顔文字みたいな正規表現を使うと良いみたい。なお、下記では全角になっていますが、「。」「゜」は半角です。 print if /[。-゜]/; 以下、確認スクリプト utf8hankana-test.pl。 begin 755 utf8hankana-test.pl.gz M'XL("+7C4D4``W5T9CAH86YK86YA+71E<W0N<&P`1<_)2L-@$,#Q^SS%9[Q8 ML>0J1H1"]>K!>'()M48-U"A)BP<1M.[5NN];L>[[OFM]F"IXZROX5P\._&!F MF!F8XB(]X7MZB^/JW;87DV+UF4Y]'<SEDR?YP51)O5D3+`](PK>5'_><:-SX MS7L

suVene 2006/11/10

リンク

OSXでは半角￥マークとバックスラッシュは区別される « ku

suVene 2006/09/13

チェック。

リンク

文字コードについて（シフトJISの問題）

文字コードをシフトJISで開発し、Windowsのサーバで動かす場合の文字コード問題について示します。厳密にいうとWindowsが扱う文字コードは、シフトＪＩＳでは、ありません。MS932です。または、コードページ CP932ともいいます。MS932は、マ社がシフトＪＩＳを拡張して定義したコード体系です。で、ここで何が問題になるかというと、クライアントへの出力をcharset="Shift_JIS"とか定義して、アプリケーションサーバーなどが一生懸命シフトＪＩＳで出力しようとすると、ある文字列が文字化けするのです。ようは、MS932にある文字コードはシフトＪＩＳには、ないので、'? 'で出力されるということです。なお、OC4JやJBuilderで利用するtomcatは、MS932で出力しようとするので、あんまり文字化けしません。 Java内部で扱う文字コードは、Unicodeです。

suVene 2006/08/11

リンク

http://web.hc.keio.ac.jp/~fujimura/lang/page-8.html

suVene 2006/07/26

リンク

http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtml

suVene 2006/07/24

euc shift-jis あり

リンク

文字コード最新リンク集2005

正規表現/文字コード最新リンク2005 [3000URL最新人気リンク発表][お報せ][開発管理運営者][サイトマップ] ★リンク追加希望はホムペ紹介掲示板へ | 文字主体の高速表示リンク集 | 紹介文付き ■:最近行ってない | ■:最近行った | ●リンク切れ最終チェック:2003/10/26 NEWSだ!(^o^)/ : 台風 - 地図検索 Start is Hello world : HSP - C - Borland - VB - DLL&OCX - Web開発 - DB - 正規表現コミュニティ : 掲示板 - 市場 - 出会い　トレンド : そよ風くん(風力発電機) メモ帳(M)あります : 小説 - 料理 - 占い - ? - 辞書&文例 - HARD - SOFT - 政 - 名スレ ◆文字コード表 ◆日本はjp ◆Unicode時代のWeb開発 ◆Un

suVene 2006/07/24

リンク

Ingrid.org

Ingrid.org This Page Is Under Construction - Coming Soon! Why am I seeing this 'Under Construction' page? Related Searches: Best Penny Stocks Best Mortgage Rates Anti Wrinkle Creams Top Smart Phones Healthy Weight Loss Trademark Free Notice Review our Privacy Policy Service Agreement Legal Notice Privacy Policy

suVene 2006/07/24

まっぴんぐ

リンク

はてなブックマーク

タグ

関連タグで絞り込む (18)

charsetに関するsuVeneのブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス