タグ

文字コードに関するjayaseのブックマーク (31)

  • asahi.com(朝日新聞社):日本IT界の鬼っ子「外字問題」解消を 経産省が着手 - 社会

    「外字(がいじ)」。コンピューターで使う漢字として日工業規格(JIS)が定めた約1万字に含まれない、規格外の文字たち。文字化けや正常なデータ通信ができない原因になり、IT業界にとって悩ましい、この「外字問題」を一気に解消しようというプロジェクトが始まった。パソコンで文章を書くときの使い勝手は大きく変わるのか――。  例えば「渡辺」の「辺」。JIS規格には「邊」「邉」をあわせた3文字しか含まれないが、100字近い異体字があるとされる。  約58万人分の戸籍を扱う東京都足立区。区役所のパソコン画面には49もの「辺」の異体字が現れた。戸籍などを管理するコンピューターシステムに区が登録したものだ。名前に未登録の漢字がある住民が転入するたびに増え、今では外字全体で約5千もある。  外字を作るのは区職員。パソコンで、1文字に30分ほどかけて点描する。完成後は庁内や出先機関にある千数百台のパソコンに登

  • Unicode の雪だるま - bkブログ

    Unicode の雪だるま Unicode Snowman for You というサイトを知りました。Unicode の雪だるま (U+2603 SNOWMAN ☃) が表示されるだけのサイトです。が、ソースを見ると font-face で EOT 形式のウェブフォントが使われていることに気づきました。 この EOT (Embedded Open Type) 形式のウェブフォントは IE しか対応していないようです。IE で表示するとこのような雪だるまが表示されました。これはおそらく Arial Unicode MS の雪だるまです。ちょっとこわいような。。 一方、他のブラウザで表示すると、このような雪だるまが表示されました。これは私がデフォルトのフォントに設定しているメイリオの雪だるまです。これはかわいい。意外なところにも力が入っています。

  • サロゲートペア入門:CodeZine

    はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日語漢字の数が増えました。従来、12238字(Windows XP)だったのが13145字(Windows Vista)になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです(Windows XPまでは一部サポート)。 またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。 ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。 対象読者 Unicode

  • EUC-UTF8の可能性 : 404 Blog Not Found

    2007年03月18日06:00 カテゴリCodeLightweight Languages EUC-UTF8の可能性 404 Blog Not Found:シフトJISを残すべきか?のコメント欄の、UTFCPのLightConeさんとMatzさんの会話をぼ〜っと眺めているうちに、ひらめきました。 EUCとUTF-8って、マッシュアップできなくね? 鍵は\xFFにあります。このバイト、EUCにもUTF-8にも絶対あらわれないのです。 さすれば、あとはこう定義するだけです。 EUC-UTF8-CHAR = EUC-CHAR | \xFF + UTF-8-CHAR LightConeさん曰く、 UTFCP2の特徴として,日中国の漢字の主要部分が二バイトで現せる 特徴もありますが.他に, 後ろのバイトから正確に一文字づつ逆戻りできるという事があるのを知ってますか. 正確に逆戻り出来るのは,プ

    EUC-UTF8の可能性 : 404 Blog Not Found
  • dfltweb1.onamae.com – このドメインはお名前.comで取得されています。

    このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年10月時点の調査。

  • スラッシュドット ジャパン | 文字エンコーディングはUTF8で本当に十分なのか?

    RedHatの技術者であり、Debian開発者でもあるtagoh氏のblogに「 UTF-8は十分かどうか」という書き込みがある。 これは、「 シフトJISを捨てられるか?」というITproの記事に対して、Ruby開発者のMatz氏が 「『短いに越したことはない』というごく弱い理由で、さらに別のエンコーディングの必要性をほのめかさないでいただきたい」 と、自身の日記で述べていることに対して、 tagoh氏が意見を述べているものだ。 tagoh氏によれば、エンコーディングを増やさないことは賛同できるが、「UTF8でいいのか」というところには特に他言語を考慮した場合において疑問を呈し、 「エンコーディングに言語タグでも入れた方がいいんではないだろうか」と意見を述べている。 locale併用というのは今の方式だが、これでは複数言語を使えないわけで、tagoh氏の言語タグということには賛同できる。

  • http://wiz.syscon.co.jp/xoops/modules/newbb/viewtopic.php?viewmode=thread&topic_id=357&forum=2&post_id=1513

    jayase
    jayase 2007/02/21
    La!cooda WIZ からのメール文字化けについて原因と対処。
  • Windows Vistaで追加された文字の利用にはご注意

    図2●Windows Vistaで字形が追加された文字の例。字体の変更ではなく文字の追加なので,同じフォントのまま2つの字体を同時に利用できるのは一見便利なようだが,検索性などの面では不便だ。Windows VistaのMS-IMEでは,「環境依存文字」と表示される 図3●Windows Vistaで追加された文字を使った文書をWindows XPで開いたときの例。中央のVMware Workstation上で動作しているのがWindows Vista。その文書をWindows XPで開いたのが左上のメモ帳。「叱」の正字が「・」になる。だが,「剥」の正字は正しく表示される。ただし,ゴシック体に変更しても明朝体で表示される 既に報道されているとおり,Windows Vistaでは,日語の扱いについて大きく2つの変更がある。1つは,一部の文字について形(字形)が変わること。もう1つは,利用で

    Windows Vistaで追加された文字の利用にはご注意
  • 文字コード規格の基礎:ITpro

    この記事は,日経ソフトウエア 1999年10月号に掲載したものです。それ以降の情報が盛り込まれていませんので,現在とは異なる場合があります。 文字コード規格の基礎を手早く理解したい場合などにお役立てください。 文字コードは間違いなく情報を交換するための「決まりごと」なので,正確を期すため厳密な仕様が規定されている。だが,その仕様そのものを実装するプログラムを作る場合を除けば,プログラマが仕様の詳細を隅々まで理解している必要はない。六法全書を読んでいなくても問題なく普段の生活ができるようなものだ。 ここでは,通常のプログラミングをするうえで必要と思われる範囲のことを,なるべく簡潔に説明したい。「半角カナ」のような呼び名は正確さを欠くものだが,多くの人に伝わりやすいので説明の中でも使っていく。説明を簡略化するため「正確な仕様を知りたいときは規格書そのものを必ず参照してほしい」と書きたいところだ

    文字コード規格の基礎:ITpro
  • JIS-Unicode間の変換表の選択について

    背景 多言語対応アプリケーションでは、文字列を扱う場合に内部でUnicodeを用いることが一般的に行われています。しかし、ファイルとして保存する場合や、ネットワークを通す場合には、ISO-2022-JP・EUC-JP・シフトJISが使われるため、入出力の段階で変換する必要があります。特定のプラットフォームを対象としたアプリケーションの場合は、プラットフォームの変換モジュールを利用できますが、クロスプラットフォームのアプリケーションのために、言語処理系やアプリケーション自身が、Unicodeと既存のエンコーディングとの変換モジュールを持つことが多くなっています。 シフトJISなどのエンコーディングは、 JIS X 0201 や JIS X 0208 などの文字集合を元にしていますが、これらの文字集合とUnicodeとの対応は、規格として厳密には定まっていないため、実装ごとに変換表が違っていま

  • 2006-08-03 - つれずれなるままに…

    (8/4追記:「おまけ」に旧ブラウザ用登録ブックマークレットを追加。および一部推敲) 発端 先日の記事で、「↑B」を使ったときのURLエンコードがはてなブックマークのエンコード仕様と異なっていたバグを修正するソースを示したのだが、これでもまだうまくいかない場合があることがわかった。 また、ブックマーク登録時にも、エンコードでの不具合が報告されている(例:idea:7954)。 そこで、はてなブックマークのURLエンコード仕様を洗い出し、どうすればよいのか調べた。 JavaScriptの3つのエンコード関数 小見出しの通りだが、JavaScriptには3つのエンコード関数がある。 escape() encodeURI() encodeURIComponent() の3つだ。 もともとはescape()のみが存在していたが、これは特にマルチバイト文字のエンコードがブラウザによって挙動が異なって

  • 改行コード(HTML, Java, URL, エスケープシーケンス)

    改行コード: HTML 10進, HTML 16進, Java 16進, URL 16進, エスケープシーケンス

    jayase
    jayase 2006/07/11
    各処理系の改行コード表。
  • notepadのバグ - やねうらおブログ(移転しました)

    Windows付属のNotepadのバグが書いてあった。 "Bush hid the facts". Now save it and open it again. 4文字 + 3文字 + 3 文字 + 5文字 タイプしてファイルに保存して、再読み込みすると文字化けを起こすらしい。 そんな餌に俺様が……クマーーー!!!となった。どうやら、ファイルopenするときに文字コードを自動判定するのだけどそれに絡むバグのようだが…。

    notepadのバグ - やねうらおブログ(移転しました)
  • https://support.microsoft.com/ja-jp/help/170559

    すべての Microsoft 製品 Microsoft 365 Office Windows Surface Xbox セール サポート ソフトウェア Windows アプリ OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入する アクセサリ VR & 複合現実 エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム 映画テレビ番組 法人向け Microsoft Azure Microsoft Dynamics 365 Microsoft 365 Microsoft Industry データ プラットフォーム Power Platform 法人向けを購入する Developer & IT .NET Visual Studi

  • シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

    2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。 変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。 変換表に求めら

  • yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須

    (Last Updated On: 2016年3月3日)最近PostgreSQLMySQL両方にSJISエンコーディングを利用している際のエスケープ方法の問題を修正がリリースされています。この件は単純に「データベースシステムにセキュリティ上の脆弱性があった」と言う問題ではなく「アプリケーションの作り方を変える必要性」を提起した問題です。 参考:セキュアなアプリケーションのアーキテクチャ – sandbox化 PostgreSQLMySQLの脆弱性は特にSJIS等、マルチバイト文字に\が含まれる文字エンコーディングが大きな影響を受けますが、同類の不正な文字エンコーディングを利用した攻撃方法が他の文字エンコーディングでも可能です。例えば、UTF-8エンコーディングは1文字を構成するバイト列の最初のバイトの何ビット目までが1であるか、を取得してUTF-8文字として1バイト~6バイト必要なのか

    yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須
  • rssに非UTF8の不正な文字列がある場合の対処法

    PHP5のSimpleXMLが、rss内に不正な文字列があるとパースエラーを起こしてしまうのだけど、ついに対処法を編み出した。 というか朝思いつきでやったら動いたwwwww $xmlStr = mb_convert_encoding($xmlStr, "SJIS", "UTF-8"); //一度sjisにする $xmlStr = mb_convert_encoding($xmlStr, "UTF-8", "SJIS"); //またutf8に戻す mb_convert_encodingスゴス。

  • Yahoo! JAPANのソース <!--京--> は何か意味があるのでしょうか?

    <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=euc-jp"> <!--京--> <title>Yahoo! JAPAN</title> この <!--京--> は何か意味があるのでしょうか? お願いします。

    jayase
    jayase 2006/05/30
    いわゆる美乳すね。
  • 2006-02-08

    サードパーティのアプリケーションサービスにて Windows XP SP1 および Windows Server 2003 にて特権の上昇が可能とのこと。 より分かり易く充実した情報提供のため、JVN をご利用される皆様のご意見・ご要望を伺いたく、アンケートを実施いたします。 だそうです。 今さらな感もあるけど、備忘録ついでにメモ。 WebAppSec XSSにより発生しうる被害 − WebAppSec CSRF対策をちゃんとしていて、なおかつセッションCookieが取れない状況でも、スクリプトが動けばブログの更新とか勝手にできちゃうこともあるわけで。 Windows 上で Unicode を扱う場合に発生するセキュリティ上の問題点などについて不定期に書いていくことにします。以前の内容と重なる部分も多いですし、時間的にもどこまで書けるかわかりませんけれど…。 さて第1回目は、 Window

    2006-02-08
  • 小形克宏の「文字の海、ビットの舟」

    小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの 速報 マイクロソフト・プレスセミナー報告 「Windows Vista」におけるJIS X 0213:2004の実装をさぐる(下) ● MS書体とメイリオで96字体を変更 Windows VistaではJIS2004を、どのように実装するのだろう。阿南氏は「MS書体とニューフェイスであるメイリオで、JIS2004字体がサポートされる」と言う。ここで言う「MS書体」とはMS明朝、MSゴシック等のシステムフォントの総称。だからこれらとメイリオでだけ、JIS2004の例示字体に基づく形になる。ということは他の日フォントではJIS2004対応は行なわれない。 となれば次に知りたいのは、これら新フォントで変わった文字数はどのくらいなのかということだ。これについて、阿南氏の示した資料によれば以下の通り。 ここで注意すべきは、