タグ

文字コードに関するtorimetalのブックマーク (18)

  • \と¥の問題 - 立命館大学情報理工学部セキュリティ・ネットワークコース プログラミング言語サポートページ

    バックスラッシュ\を入力する時に円記号¥に文字化けが起きる理由 プログラムのソースプログラムは(LaTeXのソースファイルやWebページのHTMLファイル等と同様に)テキストファイル(教科書ではテキスト形式と呼ばれています。プレーンテキスト(plain text)とも呼ばれることがあります)というファイル形式で書かれます。このテキストファイルはどのようなOSでも必ずサポートされている最も基的なファイル形式であり、実体は1バイトを単位として文字コードで表現されたデータが先頭から順に並んでいるだけのファイルです。 その文字コードは歴史的にはさまざまなものがありましたが、次第にアメリカで定められたASCIIコードが主流になり、世界中で使われるようになりました。これが国際的な規格になったものがISO/IEC 646です。これらは7ビットの文字コードなので2の7乗つまり128種類の文字が表現でき、

    \と¥の問題 - 立命館大学情報理工学部セキュリティ・ネットワークコース プログラミング言語サポートページ
  • 文字列を反転させたい|nona

    こんにちは。徒然なるままにTweetを眺めていたら、Tanakaさんがこのようなことを呟いていました。 そういやRustのStringにreverseメソッドないなと思ったけど、まあよく考えたらUTF-8で文字逆転させるとか地獄のような話になるしそもそも長さが変わるケースとかあったりしそうで怖いわな・・・(´・_・`) — Hideyuki Tanaka (@tanakh) May 1, 2021 背景等はよくわからないですが、文字列の反転というのは確かに難しい問題ですし、どう難しいのかというのを、ちょっと真面目に考えて解説してみました。というノートです。 文での表記についてこれから文字とそのバイト表現の話をしていきます。文字のエンコードの方式で同じ数値でも色々意味が分かれてしまいますので、文では以下のように表記することにします。 Unicodeコードポイント(以下、単にコードポイント

    文字列を反転させたい|nona
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • 中国語の文字コード - mizuno_takaakiの日記

    百度で仕事をしていると、中国側のスタッフとも頻繁にメールのやりとりが発生します。すると、中国語のメールを受け取ることも多いです(日語・中国語両方わかるスタッフが、僕にCCして中国語でメールを出す場合など)。ThunderBirdは別に中国語だって表示できるし問題ないのですが、中国語(簡体字)の文字コード(GB2312)の場合は、ちょっと見慣れないフォントになります。Windowsだと「MingLiU」というフォントです。そこまではいいのですが、中国にも日語ができるスタッフが何人もいて、彼らとメールでやりとりをしていると、そのフォントで、なおかつ日語で書かれたメールが来るときがあります。時には、中国語と日語が両方書かれていることもある。UTF-8なのか?と思ったけど、その場合はフォントが変わるし、文字コードを調べてもGB2312になっているのに、日語が表示されていて、なんでだろう、

    中国語の文字コード - mizuno_takaakiの日記
  • Character Sets

    Last Updated 2024-06-06 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or

    torimetal
    torimetal 2021/04/19
    “These are the official names for character sets that may be used in the Internet”
  • 7bit と 8bit の狭間で - tmtms のメモ

    これは Postfix Advent Calendar 2014 の6日目の記事です。 その昔、電子メールは 7bit データでした。 日語は ASCII の範囲におさまらないのですが、ISO-2022-JP*1にエンコードすることで 7bit になるので、日語でメールする人たちはそのようにしてました。今でも日語を扱うメールアプリのデフォルトのエンコーディングは ISO-2022-JP になってることが多いと思います。 ただしヘッダの From や To フィールドには規格上 ISO-2022-JP は書けないので、メールアドレスの表示名には日語は使えませんでした。 余談ですが、メール文の冒頭で自分の名前を名乗る日の風習は From に日語で名前が書けなかったためじゃないかと、個人的に妄想してます。 バイナリデータは uuencode 等でテキストに変換して、メール文に貼り

  • GBコードについて【メモ】

    中国政府は、1980年から文字をデジタル化する為に、国家標準符号化文字集合を40回程配布してきました。 この中で主な文字集合は、1バイトと2バイト以上の文字集合です。 1バイト文字集合とは、GB11383-89及びGB1988-89です。 2バイト以上の文字集合は、GB-2312-80(簡体字)、GB/T12345-90(繁体字)、GBK(UCS対応)、GB13000.1やGB18030-2000(UCS及び少数民族文字対応)など色々な種類があります。 以下で中国でよく使っている文字集合をそれぞれご紹介します。 ※ GBという略称は国家標準という意味 GB2312-80 GB2312-80という文字集合は、1980年に政府から中国初の国家標準符号化文字集合として配布されました。GB2312-80は「情報交換用漢字符号化文字集合」と言われ、その中には6763簡体文字と682の記号の合わせて7

  • コ�フ袮ヨヨミケ晥Z (GB2312) - GBK - ホトラヨ・ウゥ`・ノア�

    。クコ�フ袮ヨヨミケ晥Z (GB2312) - GBK - ホトラヨ・ウゥ`・ノア悅ケ、ホホトラヨ・ウゥ`・ノア惕ヌ、ケ

    コ�フ袮ヨヨミケ晥Z (GB2312) - GBK - ホトラヨ・ウゥ`・ノア�
  • 中華人民共和国の文字コード―文字コード入門―

    GB 2312-80 1980年に国家標準局が制定した7,445字の文字表です。俗に「GB(=国guó2家jiā標biāo準zhǔn。日のJISに相当)漢字」と呼ばれます。 中国の文字コードの基礎です。ちょっと前の中国の文字コードと言えばGB2312を指しました。 1986年に改訂(間違いの訂正など)されていますが、将来的には、後述のGB18030が「オペレーティングシステムへの実装が強制(利用出来ないと市販出来ないという原則)」されているため、そちらが主流になっていくでしょう。 日のJIS漢字コードも参考にしているため、実装方法が非常によく似ています。 まず文字表があり、全ての文字に「区位編号」(区点番号と同じ)が振られる のは全く同じですが、以下に見るように、第一級・第二級に分けている所もよく似ています。 Unicode2.1のCJK統合漢字領域に収録されていますので、日語オペレ

  • MIMEエンコードされたメールのデコード方法 - Qiita

    メール文のデコード まずgmailの"メッセージのソースを表示する"をクリックする。そしてメール文をコピーする。 encodingがbase64でcharsetがUTF-8の場合

    MIMEエンコードされたメールのデコード方法 - Qiita
  • バイナリを見て文字コードを判別する方法 - Qiita

    最近文字コードの勉強をしたところ、人力でもある程度は文字コードを判別できそうな気がしてきたのでやってみました。 サーバ上のコンフィグやらスクリプトやらのコメントが文字化けしたときに、さくっと文字コードを当てられたりしたらかっこいいですよね。 今回は日語の文章が次のうちのどの文字コードか判別したいと思います。 UTF-8 EUC-JP Shift_JIS ISO-2022-JP なお、この記事で言う「日語」とは以下の文字を指すことにします。 全角ひらがな 全角カタカナ 漢字(JIS第1水準くらいまでをイメージ) 。 ただ実際の文章では日語だけでなく半角英数字が混ざっていることも多いかと思うので、例文は以下にしました。 この文章をiconvでいろいろな文字コードに変換し、hexdumpでバイナリを読み解いていきます。 ※この記事は正確には正しくない表現があるかもしれません。hexdump

    バイナリを見て文字コードを判別する方法 - Qiita
  • GB 2312 - Wikipedia

    GB 2312-80(あるいはGB 2312-1980)は、中華人民共和国の国家規格として定められた簡体字中国語の符号化文字集合(いわゆる文字コード)で、主に中国大陸などで使われる。規格名は《信息交换用汉字编码字符集・基集》という。GB0とも呼ばれ、GBコードといったときには、多くの場合この規格を指す。漢字を含む文字集合規格の基となっていることや構造など、日のJIS X 0208と共通点が多い。 概要[編集] 中華人民共和国国家標準総局(当時)により1981年5月1日に実施された。GBは“国家标准”(拼音: Guójiā Biāozhǔn=国家標準)の略で、日のJISに当たる中華人民共和国国家規格の略称である。なお、中国の標準化機関は、数回に亘る改称・改組などを経て、2001年に国家標準化管理委員会となった。 JIS X 0208とよく似た構造を持つ94×94の文字集合で、漢字の他

  • GBK - Wikipedia

    GBK は、中華人民共和国で使われている簡体字用の文字コード GB 2312 の拡張である。正式には《汉字内码扩展规范》という。1995年12月に国家技術監督局標準化司と電子工業部科技与質量監督司が発布・実施した「技術規範指導性文件(文件=文書)」であり、正式な規格ではない。 GBは国家規格 (Guójiā Biāozhǔn, 国家标准) を、Kが拡張 (Kuòzhǎn, 扩展) を表す。GBKは古い規格GB 2312に繁体字のみならず1981年にGB 2312が制定された後で簡化された漢字も拡張している。GBKの登場によって、首相職である国務院総理を務めた朱鎔基(中国語: 朱镕基)の名前に含まれる「镕」の文字など、かつては表現不可能だった一部の人名が表現可能になった。 1993年、中国大陸、台湾、日および韓国で使われる2万0902字を含んだUnicode 1.1規格が公開された。これに

  • Unicode 版美乳テーブルを探せ

    美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。 逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

  • 製品レビュー:今昔文字鏡単漢字16万字版

  • Ctrl-[ が Esc になる理由 - Humanity

    理由 SHIFT キーはキーコードを -0x20、CTRL キーはキーコードを -0x40 する機能 全文 vim-jp.slack.com の #random から。 heavenshell [10:08 AM] TouchBar MBP にしたら強制的に C-[ になるので、オススメです!ようやく矯正できた。 mattn [10:09 AM] 人間の方が最適化されている yoshitia [10:12 AM] Escが物理的にない状況用にデフォルトでCtrl-[ 用意してるのすごい mattn [10:14 AM] いや、用意した訳ではないです。 SHIFT キーはキーコードを -0x20、CTRL キーはキーコードを -0x40 する機能なのです。 なので `[` つまり 0x5b は 0x1b になる。 0x1b = ESC 同様に CTRL-H は H が 0x48 なので 0x

    Ctrl-[ が Esc になる理由 - Humanity
  • 長くて覚えやすくて複雑なパスワードとemojiの話

    すみだセキュリティ勉強会2018その1での発表資料です。 http://ozuma.sakura.ne.jp/sumida/2018/03/22/38/

    長くて覚えやすくて複雑なパスワードとemojiの話
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
  • 1