タグ

encodingに関するas365n2のブックマーク (27)

  • UTF-8 の文字化け対策! 「美乳」ではなく「†(ダガー)」を使う

    文字化けと対策 (これからも── Mojibake と戦い続ける) 「文字化け」しているウェブサイトは、最近では見なくなりました(と思いたい)。 大昔──、まだ人類が石のヤリでマンモスと戦っていたころは、何度も何度もウェブ・ブラウザの「文字コード」を手動で変更していましたよね。何もかもが懐かしい──。 石のヤリ: Internet Explosion ──もとい Internet Explore 6 マンモス: Yahoo!ジオシティーズ ──いや、両方とも世間では健在ですけれど。 ウェブ上の文章が異常な状態で表示される原因は、おもに「文字コード」の問題です。ソフトウエアと人間の両方が成長することで、じょじょに改善されているけれど──。 文字化け – Wikipedia Unicode 版「美乳テーブル」 ところが、まだまだ文字は化ける! そこで、UTF-8 時代の「おまじない」として、次

    as365n2
    as365n2 2016/01/23
    「いろんな意味で「あのさぁ……」とツッコまれそうな記事」に苦笑 / 郵便太郎(誰)じゃアカンのちゃうんという話
  • Unicode 版美乳テーブルを探せ

    ページ内リンク 美乳テーブルとは 各文字エンコーディングの事情 それでは題 探索 その文字は ちなみに 付録 EUC-JP 固有の文字 0208 0212 0213-1 0213-2 Shift_JIS 固有の文字 UTF-8 固有の文字 美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日語の文字を書いておくのは、他の

    as365n2
    as365n2 2011/03/08
    文字化け回避のおまじない「美乳」のUTF-8版。「〠」(U+3020)こと「顔郵便マーク」
  • 機種依存文字とUnicode - WebStudio

    導入 機種依存文字と呼ばれる文字があります。 例えばWindowsでは、 大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、 小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、 丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、 丸囲み文字(㊤㊥㊦㊧㊨)、 カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、 単位記号(㎝㎏㎡)、 複数のアルファベットを合成した文字(㏍℡№)、 元号(㍻㍼㍽㍾)、 会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。 機種依存文字は一般的に、異機種間でデータの交換を行った場合、 例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、 これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。 しかし、これらは機種依存文字と呼ばれているものの、 その意味はあ

  • エンコードマニアックス - 各種エンコードやハッシュを一発作成

    SHA-256 e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855 SHA-384 38b060a751ac96384cd9327eb1b1e36a21fdb71114be07434c0cc7bf63f6e1da274edebfe76f65fbd51ad2f14898b95b SHA-512 cf83e1357eefb8bdf1542850d66d8007d620e4050b5715dc83f4a921d36ce9ce47d0d13c5d85f2b0ff8318d2877eec2f63b931bd47417a81a538327af927da3e

    as365n2
    as365n2 2010/04/27
    _[converter][generator][unicode]URL encodeとか数値文字参照とかMD5とかQRコードとか
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
    as365n2
    as365n2 2009/12/02
    2chム板より
  • eucJP-ms と CP51932 の違い コードページ932/ウェブリブログ

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

  • 従来の文字コードとUnicodeの対応に関する諸問題

    最終更新: 1998.12.20 目次 はじめに 似た文字 旧JISと新JIS ベンダー固有文字 「全角」「半角」 ASCIIとJIS X 0201ローマ文字 おわりに 余談 1. はじめに ISO/IEC 10646とUnicode(以下Unicode)は、いろいろと論議をかもしてきましたが、 すでにいろいろなところで陰に陽に使われるようになってきました。 Windows NTの内部コードがUnicodeであるのはよく知られています。 BeOSでは、内部だけでなく全面的にUnicodeが使われています。 また、Javaのchar型もUnicodeです。 しかし、とくに入出力においては、当分は従来の文字コードと共存することになります。 すなわち、意識するしないに関わらず、Unicodeと従来コードの変換が頻繁に行われます。 変換といっても、Unicodeコンソーシアムが提供しているテーブル

  • ISO/IEC 8859-1 - Wikipedia

    ISO 8859-1(より正式にはISO/IEC 8859-1)はISO/IEC 8859の第一部であり、ラテンアルファベットの文字コード標準である。よりくだけた言い方ではLatin-1と呼ばれる。最初はISOによって開発されたが、後にISOとIECによって合同で保守されている。この標準に追加の文字を(16進符号0x00-0x1Fの「C0領域」と、0x80-0x9F「C1領域」の範囲に)割り当てたものは、2つの広く使われているキャラクタセットの基となる。ISO-8859-1(余分なハイフンに注意)とWindows-1252と呼ばれるものである。 2004年6月、8ビット符号化文字集合の整備を担当するISO/IECの作業部会は、国際符号化文字集合 (UCS) とUnicodeの開発に専念するために解散し、ISO 8859-1を含むすべてのISO 8859の整備を中止した。コンピュータアプリケ

    as365n2
    as365n2 2009/06/13
    Latin-1
  • 全学ゼミ講義ノート・文字コード

    ¨ ISO 646 に従う各種の文字集合の異同。 シフト JIS では表現できない文字は ISO 8879 の実体参照を用いたが うまく見えない場合には文字集合名称のところからリンクしておいた 京大の安岡さんの文字表を参照されたい。 しかし同じ符号位置を国ごとに別の文字に割り当てていると 情報交換が国内で閉じているうちは問題ないが、 何も考えないで国際的に情報交換すると 米国で「#」のはずが英国では「£」に、 「\」のはずが日では「¥」に化けてしまう といった問題が発生する。 7ビットの空間を使いながらこの問題を解決するためには 文書のなかで文字集合を切り替える必要がある (これは後述する ISO 2022 の符号化によって可能) が、 必要な文字数が 256 以下ならば、 切り替えが不要になるので 8ビットの空間をそのまま用いることができる。 ISO 6429 ASCII の制御文字に

    as365n2
    as365n2 2009/06/05
    シフトJISの問題点とか。スペース≠空白 (和字間隔は)“「全角1つぶん」と決まっているわけではない”
  • Real UTF-8 On MySQL 6.0

    現在のバージョンのMySQLでは、UTF-8を完全にはサポートしていない。 というと、そのことを知らなかった人は驚くかも知れない。UTF-8は1文字あたり1〜4バイトのサイズを消費する可変長文字コードなのだが、MySQLUTF-8では4バイトを消費するようにマッピングされている文字を格納したり、取り扱ったりすることが出来ないのだ。(厳密にいうとUTF-8では6バイトまで定義できることになっているが、文字の割り当ては4バイト目までである。)MySQL 5.xまでで対応しているのは、3バイトにマッピングされた文字までである。 UTF-8はUnicodeの符号化方式の一種なので、基的に世界各国の言語をUnicodeだけで扱うことができる。日語に関していえば、4バイト目に割り当てられた文字は第3、第4水準漢字だけなので、3バイト目までしか使えなくても実用上は問題がないように見える。しかし地名

    Real UTF-8 On MySQL 6.0
    as365n2
    as365n2 2009/04/26
    “現在のバージョンのMySQLでは、UTF-8を完全にはサポートしていない”
  • ISO-2022-JP - Wikipedia

    出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。記事の信頼性向上にご協力をお願いいたします。(2013年1月) ISO-2022-JPは、インターネット上(特に電子メール)などで使われる日の文字用の文字符号化方式。ISO/IEC 2022のエスケープシーケンスを利用して文字集合を切り替える7ビットのコードであることを特徴とする (アナウンス機能のエスケープシーケンスは省略される)。俗に「JISコード」と呼ばれることもある。 概要[編集] 日語表記への利用が想定されている文字コードであり、日語の利用されるネットワークにおいて、日の規格を応用したものである。また文字集合としては、日語で用いられる漢字、ひらがな、カタカナはもちろん、ラテン文字、ギリシア文字、キリル文字なども含んでおり、学術や産業の分野での利用も考慮したものとなっている。規格名に、I

    as365n2
    as365n2 2008/10/15
    “Windows上で実際に使われているものは、ISO-2022-JPの非標準な拡張で、CP932 と同等の機種依存文字を追加している場合が多い”
  • 2ちゃんねる error 4002

    掲示板に戻る■ 2ちゃんねる error 4002 error 4002 番のメッセージはなににすればいい? read.cgi ver 05.02.02 2014/06/23 Mango Mangüé ★ FOX ★ DSO(Dynamic Shared Object)

  • ユニコードとは コンピュータの人気・最新記事を集めました - はてな

    元々2バイトですべての言語の文字を現そうとした規格で、ゼロックスが提唱し、アメリカ企業が積極的に参加していた。アプリケーションを1度書けばすべての言語に対応できるからである。一方日などCJK*1圏ではわずか2バイト(65536文字)ですべての文字が現せる訳がないので否定的であった。結局CJK圏の拡張コードなどを入れていくと2byteで収まり切らなくなり、拡張される事になった。 ユニコードの構造上文字を現すことが出来るが言語を区別できない為、多言語文字混在環境は実現出来ても多言語環境を実現するのはユニコードのみだけでは無理と言われている。

    ユニコードとは コンピュータの人気・最新記事を集めました - はてな
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • MacJapanese - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "MacJapanese" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2021年5月) MacJapaneseまたはMac OS Japaneseは、AppleがShift_JISを独自に拡張した文字コードである。 主にClassic Mac OSのバージョン 7.1からバージョン 9.xまでの間で利用された。 対応する文字コード[編集] MacJapaneseはIANAによって登録されていない。そのためRFC 2045の§ 6.3に従って、XML、MIMEなどでは "x-Mac-Japanese" という文字列がこの文字コードの名前と

    as365n2
    as365n2 2007/07/24
    cp932と比較せよ。
  • シフトJISを残すべきか? : 404 Blog Not Found

    2007年03月10日23:30 カテゴリCode シフトJISを残すべきか? Matzさん経由で知ったのだが、これはひどい。 シフトJISを捨てられるか?:ITpro では,今までのデファクトだったシフトJISはどうだろうか。シフトJISを使うと,(英文混じりの)日語を表現する場合,そのデータ長はUTF-8/16/32に比べて短くなる。コンピュータを取り巻く通信環境は高速になり,ストレージは大容量化してきたとはいえ,データ長は短いに越したことはない。確かに、シフトJISで表現できるテキストをUTF-8で表現すると、最高で1.5倍になる(ただしここで言うシフトJISは、Shift_JISX0213は含まない)。しかし、テキストデータというのは圧縮率が高い。 未圧縮gzipbzip2 シフトJIS4,6822,2542,225 UTF-86,7672,5262,325 UTF-8/SJIS

    シフトJISを残すべきか? : 404 Blog Not Found
    as365n2
    as365n2 2007/05/06
    「Unicodeは理論的にも政治的にもベストではない。しかし実装しているものの中ではベストである」
  • Yahoo! Mail は容量無制限 - saitonのブログ

    Yahoo! Mail goes to infinity and beyond によると今年 5 月から Yahoo! Mail は容量無制限になるという。(日Yahoo Mail とは別です) 1997 年に RocketMail を買収して当初 4 MB の容量制限で始まった Yahoo! Mail ですが、2004 年には 100MB、2005 年には 1GB と容量を増やしてゆき、ついに制限を無くす決定を下したようです。 次に予想されるのは Flickr の無制限化だと ars technica は伝えています。 Yahoo! Mail はタイトル、文中に日語があっても iso-8859-1 でエンコードして送信してくるので、ソースを見ないと日語は文字化けして読めません。 化けてきたメールに OperaMail で返信してみた。UTF-8 の日語は読めるようです。IS

    as365n2
    as365n2 2007/03/29
    文字化けに注意。
  • Legacy Encoding Project

    Legacy Encoding Project † オープンソースソフトウェアでのレガシーエンコーディング(シフトJIS、日語EUC、7ビットJISコード)の文字コード変換で生じる問題の解決を目指すプロジェクトです。 プロジェクトIPA (情報処理推進機構) の 2005年度下期 オープンソースソフトウェア活用基盤整備事業 で「オープンソースソフトウェアにおける統一したレガシーエンコーディングの変換機能の開発」として採択され支援を受けています。 概要 IPA オープンソースソフトウェア活用基盤整備事業 キャラクタセットの詳細 cp932 cp51932 eucJP-ms ISO-2022-JP-MS 各キャラクタセットの対応関係 ↑

    as365n2
    as365n2 2007/03/24
    文字コード変換で生じる問題の解決を目指す
  • スラッシュドット ジャパン | 文字エンコーディングはUTF8で本当に十分なのか?

    RedHatの技術者であり、Debian開発者でもあるtagoh氏のblogに「 UTF-8は十分かどうか」という書き込みがある。 これは、「 シフトJISを捨てられるか?」というITproの記事に対して、Ruby開発者のMatz氏が 「『短いに越したことはない』というごく弱い理由で、さらに別のエンコーディングの必要性をほのめかさないでいただきたい」 と、自身の日記で述べていることに対して、 tagoh氏が意見を述べているものだ。 tagoh氏によれば、エンコーディングを増やさないことは賛同できるが、「UTF8でいいのか」というところには特に他言語を考慮した場合において疑問を呈し、 「エンコーディングに言語タグでも入れた方がいいんではないだろうか」と意見を述べている。 locale併用というのは今の方式だが、これでは複数言語を使えないわけで、tagoh氏の言語タグということには賛同できる。

    as365n2
    as365n2 2007/03/11
    _[cp932]Microsoftコードページ932
  • いわゆる機種依存文字とUTF-8

    ※ 「①」から「⑮」までの丸付き数字など一部の文字は正しく表示されます。 この一覧表を見ても分かりますように、文字化けするのはMacOS 9.2.2におけるNetscape4.7の場合及びMacOSXにおけるmozilla系ブラウザ(Firefox、Netscape、Mozilla)けでした※。なぜ、他のブラウザで文字化けしなかったかというと、このページはShift_JISではなく、UTF-8で書かれているからです。Shift_JISでは、漢字一文字を現すのに2バイトを使いますが、UTF-8では3バイト使用します。Shift_JISの「あ」は「0x82 A0」(「0x」とはその後に続く文字列が16進数であることを示しています)ですが、「0xE3 81 82」です。Shift_JISで扱える文字量とは比べ物にならない量の文字を同時に使うことが可能です。ですから、このNEC特殊文字 13区の文

    as365n2
    as365n2 2007/01/21
    NEC独自拡張文字はOsakaを明示的に指定すれば文字化けしない。「ブラウザ依存文字」。