タグ

文字コードに関するkuwalabのブックマーク (17)

  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • Windows8のUnicode IVS対応で出てきそうな影響 | 電書魂

    先日、大手町のマイクロソフトテクノロジーセンターで開催されたセミナー「Windows 8 で変わる文字 – 異体字と Unicode IVS~ 情報システムにおける日語処理 ~」に参加してきました。また、その後JEPAで開催された「Plat14 Unicode IVS/IVD入門「Unicode IVS/IVD入門」刊行記念セミナー」にも参加させていただき、MicrosoftとしてのUnicode IVS普及への姿勢が少し見えてきた感はありますので、印刷/電子書籍の業界に実際に近々出てきそうな影響についてちょっと書いてみたいと思います。なお、Microsoftのセミナーに関しては「ちくちく日記」さんにレポートが上がっておりますので、そちらも合わせてご覧ください。「Unicode IVS/IVD入門」につきましては、「イジハピ!」さんのエントリが参考になります。 Unicode IVSは「

  • いいから聞け! 俺が文字コードについて教えてやるよ その1(前提知識編) - 谷本 心 in せろ部屋

    ちょっと久々のJavaネタですが、 前から書き溜めていた、文字コードやエンコードについてのノウハウを書きます。 今回は、詳細な説明に入る前に、前提になる知識や用語について説明しておきます。 文字コードとエンコードって違うの? 新人くん「では、HTMLの文字コードはUTF-8でお願いします」 先輩社員「文字コードじゃなくてエンコーディングでしょ?」 新人くん「えっ。あぁ、はい、それで」 文字コードとエンコード(エンコーディング)を混同して使ったりすると、 ちょっと原理主義的な人に怒られたりするんですけど、 大まかに言えば、「文字コード」は文字に割り当てられた「数字」のことで、 「エンコード」は文字と数字をマッピングする「方式」のことだと捉えていれば、大きくは外れません。 ただ、「文字コード」という言葉は、「数字」「方式」の両方で使われるほか、 文字一覧を示す「Charset」という意味で使わ

    いいから聞け! 俺が文字コードについて教えてやるよ その1(前提知識編) - 谷本 心 in せろ部屋
    kuwalab
    kuwalab 2011/06/15
    後で読むクラスタを何とかしないと。
  • asahi.com(朝日新聞社):日本IT界の鬼っ子「外字問題」解消を 経産省が着手 - 社会

    「外字(がいじ)」。コンピューターで使う漢字として日工業規格(JIS)が定めた約1万字に含まれない、規格外の文字たち。文字化けや正常なデータ通信ができない原因になり、IT業界にとって悩ましい、この「外字問題」を一気に解消しようというプロジェクトが始まった。パソコンで文章を書くときの使い勝手は大きく変わるのか――。  例えば「渡辺」の「辺」。JIS規格には「邊」「邉」をあわせた3文字しか含まれないが、100字近い異体字があるとされる。  約58万人分の戸籍を扱う東京都足立区。区役所のパソコン画面には49もの「辺」の異体字が現れた。戸籍などを管理するコンピューターシステムに区が登録したものだ。名前に未登録の漢字がある住民が転入するたびに増え、今では外字全体で約5千もある。  外字を作るのは区職員。パソコンで、1文字に30分ほどかけて点描する。完成後は庁内や出先機関にある千数百台のパソコンに登

    kuwalab
    kuwalab 2011/02/14
    外字は使わないに限る。
  • Amazon.co.jp: 国際化と日本語処理―CAFE BABE Javaプログラミング・ノート (UNIX MAGAZINE LIBRARY): 風間一洋: 本

  • / - 海豹日記

    {今年|今月|今週|今日}も何%過ぎました ゆく河の流れは絶えずして、しかももとの水にあらず (鴨長明:荘子) FESTINA LENTE ゆっくり急げ (ローマ帝国初代皇帝 アウグストゥス) 立派にできたのであれば、それは十分早くできたことになる (ローマ帝国初代皇帝 アウグストゥス) 海豹日記 へようこそ このサイトは、個人的な覚書を残しておくサイトです 自分は、よくこんなことをします 何かの困りごとや興味の赴くままに、いろいろ調べる 数か月後に、そのことを忘れてしまって、同じことについていろいろ調べる。しかし、そのうち、数か月前の自分が、同じことを同じように調べていたことに気づく それは不毛なので、覚書を残しておこうというわけです (主人公のアリスに掴まれて、チェス盤のはるかかなたまで持ち上げられたことのあるチェスの王さまが、当時のこと思い出し) 王さま「あの瞬間の恐怖といったら、わ

  • シフトJISを捨てられるか? - 記者のつぶやき:ITpro

    これまで,Windows Vistaの文字の扱いに関する事柄を何度か取り上げてきた。同じキャラクタ・コードで,Windows XPのときと文字の形が変わったり,Unicodeでしか扱えない文字があったりするという話題だ。今回は,エンコーディングについて考えてみたい。 これまでの記事でも書いてきたが,文字処理とエンコーディングに関する問題は,何もWindows Vistaに始まったわけではない。Windows XPやWindows 2000など,既存のWindowsでも同様だ。例えば,「鴎」の旧字である「シナカモメ」は,Unicodeでしか扱えない文字だが,Windows XP以前のMS-IMEでも入力できる。石鹸の「鹸」の旧字もそうである。これらの文字を扱うには,アプリケーション・ソフトが,文字列をUnicodeで処理しなればならない。シフトJISに変換した瞬間に,文字情報が無くなってしま

    シフトJISを捨てられるか? - 記者のつぶやき:ITpro
  • VistaをXPの字体に戻すというjp90タグの罠

    JIS C 6226が最初に制定されたのは1978年。6802字を収録した漢字コードとして制定され,規格票の例示字体は写研の石井明朝体で印刷された。ところがJIS C 6226は,1983年に改正された際,漢字300字の字体を変更した。この改正で「同じ文字コードでも違う字が表示されてしまう」という現象が頻繁に起こった。いわゆる「83JIS改正の悪夢」だ。 さらにJIS C 6226は,1987年にJIS X 0208という名前に変わっているが,このときには規格そのものの変更は一切おこなわれていない。次の1990年の改正では,規格票例示字体を平成明朝体に変えたので,1983年版とは微妙に字体が変わってしまった。これに懲りて,1997年の改正では,規格票例示字体は一切いじることなく,字数も全く変更せず,あくまで規格そのものの明確化につとめた。 一方,1990年にはJIS X 0212(補助漢字

    VistaをXPの字体に戻すというjp90タグの罠
  • IE7にオンライン・ストレージやWebメールで日本語ファイル名が化ける不具合

    画面1 オンライン・ストレージ・サービスで「対象をファイルに保存」を実行して表れるダイアログで「予算.txt」が文字化けしたところ マイクロソフトが提供するInternet Explorer 7(IE7)に,日語ファイル名が化ける不具合があることが明らかになった。オンライン・ストレージ系サービスでファイルをダウンロードするときやWebメールで添付ファイルをダウンロードするときなどに発生する。文字化けするのは,特定のルールに当てはまる複数の文字で,例えば「予算.txt」というファイル名が「誉算.txt」になる。マイクロソフトによると,Windows XP Service Pack 2版およびVista版の両方のIE7で発生する。 Windows XP SP2版IE7で,四つのオンライン・ストレージ系サービスで試したところ,「Yahoo!ブリーフケース」「デジタルトランクサービス」「Inte

    IE7にオンライン・ストレージやWebメールで日本語ファイル名が化ける不具合
  • 日本語文字セットがVista最大の問題として急浮上

    「どこでどういった問題が起こるのか分からない。まさかデータベースが壊れるということはないと思うが」――。国内大手ベンダーの幹部は不安そうに話す。この幹部が懸念するのは、Windows Vistaで採用された新文字セットの情報システムへの影響である。別の大手ベンダーのシステム構築部門も、「情報システムのクライアントとしてVistaを見た場合、最大の問題は日語の文字セットだ。現在、共通の基盤技術セクションで影響を調査している」という。 企業向けVistaの出荷開始を目前に控え、Vistaの新文字セット採用が大きな問題として浮上してきた。 Windows Vistaは、新しい文字セットに関するJIS規格「JIS X 0213:2004」に準拠した日フォントを標準で搭載する。これにより、既存の漢字のうち122文字の字形が変更になり、約900文字の漢字、約200文字の非漢字(英語の発音記号や記

    日本語文字セットがVista最大の問題として急浮上
  • Vistaで化ける字,化けない字

    11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで,“文字化け”が起こるらしい。文字化けといっても,Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく,その多くは似た文字が表示される程度である。ここでは,来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは,Windows 98日語版の発売以来,Windows 2000,Windows Me,Windows XPまでCP932(名はWindows Codepage 932,いわゆるMS漢字コード)とJIS X 0212をサポートしてきたが,最新のWindows VistaではJIS X 0213に乗り換えた。いや,乗り換えたというのは,ちょっと語弊がある。CP932とJIS X 0212に加えて,JIS X 0213もサ

    Vistaで化ける字,化けない字
  • ミケネコ研究所

    ミケネコはあなたのい頭脳を求めています いらっしゃいませ。あなたは 人目の訪問者です 当研究所は、いわゆるホームページ作成支援系のサイトです。インターネットの面白さを追求する研究などを行っており、得られた成果の一部を公開しています。みなさんのホームページ作成などのお役にたてることが出来れば幸いです。 [2004/11/27] mikeneko.ne.jp ドメイン管理人の小塚 敦さんが死去されたため、 mikeneko.ne.jp ドメインは閉鎖されました。 サーブルくんはもうコンテンツを更新することができませんが、 友人一同としても彼の活躍の片鱗を少しでも残したく、 また多くの読者の方からいただいたご要望にお応えして、 ご遺族のご了解を頂いた上で、 ミケネコ研究所の一部コンテンツに限って復活掲載することになりました。 サーブルくんのご冥福をお祈りいたします。 新しいURLはこちら ⇒

  • 日本語情報処理

  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • ■日本語の表現■

    1バイト系と2バイト系 コンピュータは英語圏で生まれた機械なので、文字列が処理できるようになっても当初は英語の文字しか扱えなかった。しかし日ではやはり日語が処理できないとまずいため、日語のコードが定められることになる。 さて英語では文字はアルファベットが大小26文字×2+数字10個とあとは特殊文字だけなので、ASCIIは7bit(128個)もあれば十分足りていた。ただし7bitというのはコンピュータの処理単位としては中途半端なので8bitで処理するようになっていた。しかし8bitでは256文字しか使えない。これでは日語の文字は全然足りない。 そこで日語は1文字を表すのに2バイト(16bit)使うことになった。 そこで一般にASCIIで定められた8bit系の文字を1バイト系、JIS (Japan Industrial Standard,最初の規格は1978年) で定められた16bi

  • 機種依存文字劇場

    特定機種にのみ存在する文字のこと。 有名なものとしては98文字(PC-9801外字)などが該当する。これは丸付き数字、ローマ数字、98罫線などがそれである。 また98拡張漢字のもととなったIBM拡張漢字などもある。 これらはすべてWindowsでも表示可能なため、外字であることに気付かずに使用してしまう事例が増えてしまい、問題を起こすことが多い。また、Macintoshにも機種依存文字は存在する。 機種依存文字は特定の機種や環境(OS)に依存する文字であり、同一環境以外で表示させた場合、機器の誤動作(突如フロッピーディスクをアクセスする等)や、全く異なった文字に化けたりするため、使った場所には往々にして論争が起こる。また汎用的な文書の流通を目的とする場合には、当然ながら使用する事はできない。

  • Windows-31J の文字セット

    このページは IANA の登録名は Windows-31J とされ、Windows Codepage 932 や Windows標準文字セットと呼ばれる文字セット、文字エンコーディングについて、私の知りうる範囲で説明をいたします。 IANA の登録では次のようになっています。 Name: Windows-31J MIBenum: 2024 Source: Windows Japanese. A further extension of Shift_JIS to include NEC special characters (Row 13), NEC selection of IBM extensions (Rows 89 to 92), and IBM extensions (Rows 115 to 119). The CCS's are JIS X0201:1997, JIS X0208

  • 1