[B! 文字コード] torimetalのブックマーク

\と¥の問題 - 立命館大学情報理工学部セキュリティ・ネットワークコース　プログラミング言語サポートページ

バックスラッシュ\を入力する時に円記号¥に文字化けが起きる理由プログラムのソースプログラムは(LaTeXのソースファイルやWebページのHTMLファイル等と同様に)テキストファイル(教科書ではテキスト形式と呼ばれています。プレーンテキスト(plain text)とも呼ばれることがあります)というファイル形式で書かれます。このテキストファイルはどのようなOSでも必ずサポートされている最も基本的なファイル形式であり、実体は1バイトを単位として文字コードで表現されたデータが先頭から順に並んでいるだけのファイルです。その文字コードは歴史的にはさまざまなものがありましたが、次第にアメリカで定められたASCIIコードが主流になり、世界中で使われるようになりました。これが国際的な規格になったものがISO/IEC 646です。これらは7ビットの文字コードなので2の7乗つまり128種類の文字が表現でき、

$\と¥の問題 - 立命館大学情報理工学部セキュリティ・ネットワークコース　プログラミング言語サポートページ$

torimetal 2021/10/04

リンク

文字列を反転させたい｜nona

こんにちは。徒然なるままにTweetを眺めていたら、Tanakaさんがこのようなことを呟いていました。そういやRustのStringにreverseメソッドないなと思ったけど、まあよく考えたらUTF-8で文字逆転させるとか地獄のような話になるしそもそも長さが変わるケースとかあったりしそうで怖いわな･･･(´･_･`) — Hideyuki Tanaka (@tanakh) May 1, 2021 背景等はよくわからないですが、文字列の反転というのは確かに難しい問題ですし、どう難しいのかというのを、ちょっと真面目に考えて解説してみました。というノートです。本文での表記についてこれから文字とそのバイト表現の話をしていきます。文字のエンコードの方式で同じ数値でも色々意味が分かれてしまいますので、本文では以下のように表記することにします。 Unicodeコードポイント（以下、単にコードポイント

torimetal 2021/05/02

文字コード

リンク

UnicodeとUTF-8の違いは？ - Humanity

という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/

torimetal 2021/05/01

文字コード

リンク

中国語の文字コード - mizuno_takaakiの日記

百度で仕事をしていると、中国側のスタッフとも頻繁にメールのやりとりが発生します。すると、中国語のメールを受け取ることも多いです（日本語・中国語両方わかるスタッフが、僕にCCして中国語でメールを出す場合など）。ThunderBirdは別に中国語だって表示できるし問題ないのですが、中国語（簡体字）の文字コード（GB2312）の場合は、ちょっと見慣れないフォントになります。Windowsだと「MingLiU」というフォントです。そこまではいいのですが、中国にも日本語ができるスタッフが何人もいて、彼らとメールでやりとりをしていると、そのフォントで、なおかつ日本語で書かれたメールが来るときがあります。時には、中国語と日本語が両方書かれていることもある。UTF-8なのか？と思ったけど、その場合はフォントが変わるし、文字コードを調べてもGB2312になっているのに、日本語が表示されていて、なんでだろう、

torimetal 2021/04/19

文字コード

リンク

Character Sets

Last Updated 2024-06-06 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or

torimetal 2021/04/19

“These are the official names for character sets that may be used in the Internet”

文字コード

リンク

7bit と 8bit の狭間で - tmtms のメモ

これは Postfix Advent Calendar 2014 の6日目の記事です。その昔、電子メールは 7bit データでした。日本語は ASCII の範囲におさまらないのですが、ISO-2022-JP*1にエンコードすることで 7bit になるので、日本語でメールする人たちはそのようにしてました。今でも日本語を扱うメールアプリのデフォルトのエンコーディングは ISO-2022-JP になってることが多いと思います。ただしヘッダの From や To フィールドには規格上 ISO-2022-JP は書けないので、メールアドレスの表示名には日本語は使えませんでした。余談ですが、メール本文の冒頭で自分の名前を名乗る日本の風習は From に日本語で名前が書けなかったためじゃないかと、個人的に妄想してます。バイナリデータは uuencode 等でテキストに変換して、メール本文に貼り

torimetal 2021/04/19

リンク

GBコードについて【メモ】

中国政府は、1980年から文字をデジタル化する為に、国家標準符号化文字集合を40回程配布してきました。この中で主な文字集合は、１バイトと２バイト以上の文字集合です。 1バイト文字集合とは、GB11383-89及びGB1988-89です。 2バイト以上の文字集合は、GB-2312-80(簡体字)、GB/T12345-90(繁体字)、GBK(UCS対応)、GB13000.１やGB18030-2000(UCS及び少数民族文字対応)など色々な種類があります。以下で中国でよく使っている文字集合をそれぞれご紹介します。 ※　GBという略称は国家標準という意味 GB2312-80 GB2312-80という文字集合は、1980年に政府から中国初の国家標準符号化文字集合として配布されました。GB2312-80は「情報交換用漢字符号化文字集合」と言われ、その中には6763簡体文字と682の記号の合わせて7

torimetal 2021/04/16

文字コード

リンク

ｺ�ﾌ袮ﾖﾖﾐｹ晥Z (GB2312) - GBK - ﾎﾄﾗﾖ･ｳｩ`･ﾉｱ�

｡ｸｺ�ﾌ袮ﾖﾖﾐｹ晥Z (GB2312) - GBK - ﾎﾄﾗﾖ･ｳｩ`･ﾉｱ悅ｹ､ﾎﾎﾄﾗﾖ･ｳｩ`･ﾉｱ惕ﾇ､ｹ

torimetal 2021/04/16

文字コード

リンク

中華人民共和国の文字コード―文字コード入門―

GB 2312-80 1980年に国家標準局が制定した7,445字の文字表です。俗に「GB（＝国guó2家jiā標biāo準zhǔn。日本のJISに相当）漢字」と呼ばれます。中国の文字コードの基礎です。ちょっと前の中国の文字コードと言えばGB2312を指しました。 1986年に改訂（間違いの訂正など）されていますが、将来的には、後述のGB18030が「オペレーティングシステムへの実装が強制（利用出来ないと市販出来ないという原則）」されているため、そちらが主流になっていくでしょう。日本のJIS漢字コードも参考にしているため、実装方法が非常によく似ています。まず文字表があり、全ての文字に「区位編号」（区点番号と同じ）が振られるのは全く同じですが、以下に見るように、第一級・第二級に分けている所もよく似ています。 Unicode2.1のCJK統合漢字領域に収録されていますので、日本語オペレ

torimetal 2021/04/16

文字コード

リンク

MIMEエンコードされたメールのデコード方法 - Qiita

メール本文のデコードまずgmailの"メッセージのソースを表示する"をクリックする。そしてメール本文をコピーする。 encodingがbase64でcharsetがUTF-8の場合

torimetal 2021/04/16

文字コード

リンク

バイナリを見て文字コードを判別する方法 - Qiita

最近文字コードの勉強をしたところ、人力でもある程度は文字コードを判別できそうな気がしてきたのでやってみました。サーバ上のコンフィグやらスクリプトやらのコメントが文字化けしたときに、さくっと文字コードを当てられたりしたらかっこいいですよね。今回は日本語の文章が次のうちのどの文字コードか判別したいと思います。 UTF-8 EUC-JP Shift_JIS ISO-2022-JP なお、この記事で言う「日本語」とは以下の文字を指すことにします。全角ひらがな全角カタカナ漢字(JIS第1水準くらいまでをイメージ) 。ただ実際の文章では日本語だけでなく半角英数字が混ざっていることも多いかと思うので、例文は以下にしました。この文章をiconvでいろいろな文字コードに変換し、hexdumpでバイナリを読み解いていきます。 ※この記事は正確には正しくない表現があるかもしれません。hexdump

torimetal 2021/04/15

文字コード

リンク

GB 2312 - Wikipedia

GB 2312-80（あるいはGB 2312-1980）は、中華人民共和国の国家規格として定められた簡体字中国語の符号化文字集合（いわゆる文字コード）で、主に中国大陸などで使われる。規格名は《信息交换用汉字编码字符集・基本集》という。GB0とも呼ばれ、GBコードといったときには、多くの場合この規格を指す。漢字を含む文字集合規格の基本となっていることや構造など、日本のJIS X 0208と共通点が多い。概要[編集] 中華人民共和国国家標準総局（当時）により1981年5月1日に実施された。GBは“国家标准”（拼音: Guójiā Biāozhǔn＝国家標準）の略で、日本のJISに当たる中華人民共和国国家規格の略称である。なお、中国の標準化機関は、数回に亘る改称・改組などを経て、2001年に国家標準化管理委員会となった。 JIS X 0208とよく似た構造を持つ94×94の文字集合で、漢字の他

torimetal 2021/04/14

文字コード

リンク

GBK - Wikipedia

GBK は、中華人民共和国で使われている簡体字用の文字コード GB 2312 の拡張である。正式には《汉字内码扩展规范》という。1995年12月に国家技術監督局標準化司と電子工業部科技与質量監督司が発布・実施した「技術規範指導性文件（文件＝文書）」であり、正式な規格ではない。 GBは国家規格 (Guójiā Biāozhǔn, 国家标准) を、Kが拡張 (Kuòzhǎn, 扩展) を表す。GBKは古い規格GB 2312に繁体字のみならず1981年にGB 2312が制定された後で簡化された漢字も拡張している。GBKの登場によって、首相職である国務院総理を務めた朱鎔基（中国語: 朱镕基）の名前に含まれる「镕」の文字など、かつては表現不可能だった一部の人名が表現可能になった。 1993年、中国大陸、台湾、日本および韓国で使われる2万0902字を含んだUnicode 1.1規格が公開された。これに

torimetal 2021/04/14

文字コード

リンク

Unicode 版美乳テーブルを探せ

美乳テーブルとは「美乳テーブル」という物がある。「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。各文字エンコーディングの事情但し、これは EUC-JP での話。一応、文章の先頭付近に日本語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

torimetal 2021/04/04

文字コード

リンク

製品レビュー：今昔文字鏡単漢字16万字版

torimetal 2019/04/26

文字コード

リンク

Ctrl-[ が Esc になる理由 - Humanity

理由 SHIFT キーはキーコードを -0x20、CTRL キーはキーコードを -0x40 する機能全文 vim-jp.slack.com の #random から。 heavenshell [10:08 AM] TouchBar MBP にしたら強制的に C-[ になるので、オススメです！ようやく矯正できた。 mattn [10:09 AM] 人間の方が最適化されている yoshitia [10:12 AM] Escが物理的にない状況用にデフォルトでCtrl-[ 用意してるのすごい mattn [10:14 AM] いや、用意した訳ではないです。 SHIFT キーはキーコードを -0x20、CTRL キーはキーコードを -0x40 する機能なのです。なので `[` つまり 0x5b は 0x1b になる。 0x1b = ESC 同様に CTRL-H は H が 0x48 なので 0x

torimetal 2018/10/04

文字コード

リンク

長くて覚えやすくて複雑なパスワードとemojiの話

すみだセキュリティ勉強会2018その1での発表資料です。 http://ozuma.sakura.ne.jp/sumida/2018/03/22/38/

torimetal 2018/05/01

リンク

絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama

UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

torimetal 2017/11/13

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

文字コードに関するtorimetalのブックマーク (18)

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス