タグ

文字コードに関するat_yasuのブックマーク (12)

  • U+2028とU+2029の取り扱い - bbr-program-memo

  • 文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して

    UnicodeとUTF-8の違いを理解していない方が結構居るようなので、文字コードの考え方を元に解説してみようと思う。 文字コードとは何か? 文字コードとは、コンピュータ上で文字を扱うために、文字に対して割り当てられた数値のことであり、文字と数値の対応付けと呼べる。 この対応付けの種類は沢山あって、Shift-JISであったり、UTF-8であったりする。 以上!と言いたいけど、文字コードはこんなに単純ではない。文字コードを複雑にする要素は沢山あるが、今回の記事ではUnicodeとUTF-8の違いに焦点を絞って解説してみたいと思う。 文字コードの構成要素 文字コードの世界は以下の2つの要素で構成されている。 この違いを意識しておかないと混乱を招くだろう。 (1).文字集合 – 表現したい文字の範囲(”あ”、”い”・・・といった文字の集合体) (2).符号化方式 – 文字集合を構成する個々の文

    文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して
  • fudist - Shift_JISのダメ文字

    Shift_JIS(SJIS, cp932) の文字コードで、2byte目が0x5c の \ になっているものの俗称(だめ文字、駄目文字) 0x5cの \ は使用するフォントやロケールによりバックスラッシュまたは¥記号で表示されます。 ダメ文字を含む文字列やパス、ファイル名を処理する場合には文字化け、検索不可など様々な不具合が起きることがあります。 ダメ文字には ー ソ 十 表 など、使用頻度の高いものもあるので cp932を扱う場合には注意が必要です。 また広義には2byte目が 0x7c のパイプ文字 | になっている文字や、2byte目が正規表現などのメタ文字と重なる文字も含む場合もあります。 ダメ文字問題は正規表現をはじめとする様々な言語、システムで制御用のメタ文字として扱われる文字と同じバイト列が、SJISの漢字の2byte目に含まれていることにより起こります。 特に 0x5c

  • What's New in SQL2016 CTP2 Release - MSDN Blogs

    In Visual Studio 2022 17.10 Preview 2, we’ve introduced some UX updates and usability improvements to the Connection Manager. With these updates we provide a more seamless experience when connecting to remote systems and/or debugging failed connections. Please install the latest Preview to try it out. Read on to learn what the Connection ...

    What's New in SQL2016 CTP2 Release - MSDN Blogs
  • UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由 

    UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由 
  • 全角チルダ問題

    株式会社メルカリ様で行われた第2回CircleCI ユーザーコミュニティミートアップでの資料です。 #circlecijp

    全角チルダ問題
  • Masato Kinugawa Security Blog: accounts.google.comに存在したXSS

    Googleの脆弱性報酬制度の報酬がアップされましたね! Google、脆弱性情報に支払う報奨金を大幅アップ - ITmedia エンタープライズ http://www.itmedia.co.jp/enterprise/articles/1306/10/news027.html Googleアカウントページに存在するクロスサイトスクリプティング(XSS)の脆弱性情報については3133.7ドルから7500ドル accounts.google.comのXSSは$7,500 だそうです。みつけたいですね! みつけるのはかなり厳しいと思いますが、かつて2つみつけたことがあります。 今日はそのうち1つを紹介したいと思います。 oeパラメータを使ったXSS 2012年12月27日に報告し修正された問題です。 Googleは、一部のサービスで「oe」というクエリパラメータを付加することで、ページの表示に

  • なんたら統一文字の面積比の正確な図 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    戸籍統一文字、住基ネット統一文字、登記統一文字に含まれる漢字の数について、面積比が正確になるように図を描いてみた*1。 法務省が戸籍のオンライン手続きのために整理した文字集合が、戸籍統一文字。この戸籍統一文字を拡張した文字集合が登記統一文字であり、拡張部分を登記固有文字と呼ぶ。図にすると、こんなかんじ。 総務省の住民基台帳ネットワーク統一文字(住基ネット統一文字)には、法務省の戸籍統一文字・登記統一文字との互換性はない。図にすると、こんなかんじ。 この図に、JIS X 0208とJIS X 0213も入れてみる。住基ネット統一文字は基的にJIS X 0213ベースだが、「JIS X 0213に含まれていて戸籍統一文字に含まれていない漢字」は、けっこうある。 IPAの文字情報基盤整備事業が対象としているのは、オレンジ色の枠で囲んだ部分。登記固有文字がんばれ。 *1:使っている数字は、『汎

    なんたら統一文字の面積比の正確な図 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 住民基本台帳ネットワーク障害、LASDECからの「お詫び」を国分寺市が公開 | スラド

    さて、標記の件につきましては、既にご報告を申し上げているところですが、CS機器更改作業の中、平成25年3月26日に39都道府県のサーバにおいて、231市町村のCSからの人確認情報の更新の際にエラーが発生し、人確認情報が更新できなくなる、住民基台帳カードの発行に支障が生じる等の事象が発生しました。年度末年度始めの繁忙期にもかかわらず関係者の皆様、そして住民の皆様には多大なご迷惑をおかけしまして、深くお詫び申し上げます。 事象は、市町村のCS機器更改に際して配付した特定OS向けの修正プログラムにおいて文字コードの種類の設定に誤りがあったため、CS上で不正確な文字コードで書き込まれた人確認情報が発生し(いわゆる「文字化け」事象)、さらに都道府県サーバがその更新電文を受信した際に更新プロセスが停止して以降の更新ができなくなったものです。 事象の対応につきましては、この業務繁忙期の中で業

    at_yasu
    at_yasu 2013/05/17
    地雷爆発案件
  • 『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    『Unicode IVS/IVD入門』(田丸健三郎、小林龍生)を読んでいたら、いくつか気になる点があったので、まとめてみることにした。とりあえず、第4章(37ページ分)だけ。時間と気力があれば、今後、他も追加していくかも*1。組版上の突っ込みは(ひどい例以外は)省いた*2。 p.103 ISO/IEC 8859は《中略》パート16まで定義されています(パート15は破棄)。 破棄されたのはパート12。 p.104 「ISO-10646」の文字集合 「ISO-10646」→「ISO/IEC 10646」。 たとえば、1面19区75点を符号位置とする文字をシフトJISで8ビット符号化した場合0x8A6Bとなる文字を例に見てみましょう。この文字は、葛飾区の「葛」という文字ですが 「葛」はシフトJISで「0x8A6B」ではなく「0x8A8B」。 p.106 「U+000000」→「U+0000」(U

    『Unicode IVS/IVD入門』へのツッコミ・第4章編 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    at_yasu
    at_yasu 2013/04/09
    これまたすごい量だな…
  • Microsoftコードページ932 - Wikipedia

    Template‐ノート:特殊文字に、このページに関する質問があります。(2023年1月) 質問の要約:Template:特殊文字で「Microsoftコードページ932(はしご高)」と書かれている場合があること この記事には複数の問題があります。改善やノートページでの議論にご協力ください。 出典がまったく示されていないか不十分です。内容に関する文献や情報源が必要です。(2011年11月) 出典は脚注などを用いて記述と関連付けてください。(2011年11月) 出典検索?: "Microsoftコードページ932" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL MS932とその他の日語に関連した文字集合との関係オイラー図 Microsoft コードページ 932(マイクロソフト コードページ 932

    Microsoftコードページ932 - Wikipedia
  • 新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)

    普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。     (日経コンピュータ) 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

    新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)
    at_yasu
    at_yasu 2009/12/11
    いい機会だから皆Win7,MacOS10.6にしちゃいなよ。
  • 1