[B! Unicode] hamastaのブックマーク

サロゲートペア - 闘うITエンジニアの覚え書き

2025-01-05 Svelteの基本 Svelte 2024-07-29 Spring Boot 開発(2024年) 2024-02-04 Goでリフレクション他のdocker-compose へのネットワーク接続 2024-01-09 Grafanaパネルプラグイン開発(create-plugin版) Grafanaプラグイン開発(grafana/toolkit版) 2023-09-23 Jupyter Lab に他言語カーネルインストール 2023-09-19 Rustの基礎 Rustのインストール Rust 2022-11-01 MacBook(M1チップ) でOracleのdockerイメージ作成 2022-02-04 Grafanaバックエンドデータソースプラグイン開発 2021-02-11 dockerのnginxのSSL証明書の自動更新 2021-01-17 GoでEx

hamasta 2011/02/06

Unicode

リンク

文字コードの基本：ITpro

コンピュータで文字を取り扱う際，文字コードについて知っておく必要があります。特に日本では複数の文字コードが混在して使われる上，プラットフォームによって取り扱う文字の種類も異なることから，状況が複雑になっています。本記事では文字を正しく取り扱うための基礎知識について簡単に紹介します。コンピュータはすべてのデータを数値として取り扱います。文字を取り扱うときも，数値に対応づけて処理します。例えば，「ようこそITpro」というテキスト・データをWindows XPのメモ帳で作成し，ファイルに保存します。そのファイルをバイナリ・エディタで開くと写真1のような数値が並んでいることが分かります。各文字と数値は表1のように対応づけられています。

hamasta 2007/04/12

Unicode

リンク

ワイド文字

2バイトのchar ANSI C は標準でワイド文字をサポートしているワイド文字とは、1文字表現するのに2バイト用いる文字のことを言います同時に1バイト以上の文字のことをマルチバイト文字と言いますこれまで、文字コードはASCIIコードを用いてきましたこれは1文字を１バイト( char 型 )で表現できるコードで、世界的に標準のコードですしかし、１バイトだけでは中国語や日本語のような漢字や記号を多く持つ言語を表せませんそこでワイド文字が使われるというわけですワイド文字は国際的なアプリケーションの開発には必要な知識ですことUnicodeなどは非常に有名ですねワイド文字の型はwchar_tですこれは標準型として WCHAR.H ヘッダファイルに定義されています //または STDDEF.H、 STDLIB.H ヘッダファイルなど typedef unsigned short

hamasta 2007/04/10

wchar_t リテラルにLをつける

リンク

ユニコード

UNICODE 戻る更新履歴上の方が新しい 2007/04/15 「UTF8符号化法」の表を見やすいように修正。リンク文字符号について新しいUnicode符号化方式 UTFCP UTFCP2 UTFCP-TABLE 文字符号化方式比較文字コード用語 UNICODEとは UNICODEの目的文字符号系が各国でバラバラだと、プログラムを各国に合わせて局地化(ローカリゼーション)することが必要で、保守・管理が大変。 ISO 2022の様に、コード系を切り替えることによって世界中の文字に対応できる文字符号化方式が既に存在するが、このような「状態を持つ(モーダルな)」文字符号化方式は、ファイルやテキスト中の場所によって、同一符号に異なる文字が対応してしまうため、プログラムが複雑になる傾向がある。全世界で、同じ番号に必ず同じ文字を対応させる文字符号系を用いることが

hamasta 2007/03/11

ユニコード解説

Unicode

リンク

WeekBuildのHACK日記 UnicodeとUTF-8の違い

を、最近やっと知りました。 UTF-8はUnicodeを\xxxxっていう1文字が1～3バイトになる変な形式に形式に変換したもので、unicodeをファイルとかに入出力するときに使われるなんですよ。ずっとその違いがわからなくて、SQLiteCCでTracのデータ覗いたときに、なんでunicodeなのに文字化けするんだろう？？？って思ってました。 (SQLiteCCはunicodeではなくutf-8をサポートしており、unicodeでSQLiteに保存した文字はSQLiteCCでは表示できなかった) 文字コードって難しい(~ヘ~；）ちなみに、 Pythonでutf-8をunicodeに変換するには、 text = unicode(text,'utf-8') Shift-jisをunicodeに変換するには、 text = unicode(text,'Shift_JIS') unicode

hamasta 2007/03/10

Unicode

リンク

UTF-8 エンコーディングの危険性 - WebOS Goodies

基本的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです（昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ

hamasta 2007/02/23

Unicode

リンク

http://openblog.meblog.biz/article/57292.html

hamasta 2007/02/04

Unicode

リンク

Vistaで化ける字，化けない字

11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで，“文字化け”が起こるらしい。文字化けといっても，Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく，その多くは似た文字が表示される程度である。ここでは，本来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは，Windows 98日本語版の発売以来，Windows 2000，Windows Me，Windows XPまでCP932（本名はWindows Codepage 932，いわゆるMS漢字コード）とJIS X 0212をサポートしてきたが，最新のWindows VistaではJIS X 0213に乗り換えた。いや，乗り換えたというのは，ちょっと語弊がある。CP932とJIS X 0212に加えて，JIS X 0213もサ

hamasta 2007/01/02

Unicode

リンク

Unicodeで拡張子を偽装された実行ファイルの防御方法 - 葉っぱ日記

「それ Unicode で」などで紹介されている、Unicode の U+202E (RIGHT-TO-LEFT OVERRIDE; RLO)を使って拡張子を偽装された exe ファイルの実行を抑止する方法を思いついた。メモ帳を開いて、"**"と入力する(前後の引用符は不要)。 "*"と"*"の間にキャレット(カーソル)を移動させる右クリックで「Unicode 制御文字の挿入」から「RLO Start to right-to-left override」「RLO Start of right-to-left override」を選択 Ctrl-A で全て選択、Ctrl-C でクリップボードにコピー。ローカルセキュリティポリシーを開く画面左側の「追加の規則」を右クリック「新しいパスの規則」を選択「パス」欄で Ctrl-V をして、メモ帳の内容を貼り付ける。セキュリティレベルが「

hamasta 2006/12/26

リンク

それ Unicode で

UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

hamasta 2006/12/14

Unicode

リンク

エンコーディング表記法メモ(Hishidama's Encoding Memo)

備忘 ASCII：American Standard Code for Information Interchange [2006-07-24] UTF：UCS/Unicode Transf ormation Format [2007-05-03] Windows-31J（MS932）は機種依存文字（「①」等）を含むが、Shift_JISは含まない。[2006-07-24] →Javaでの出力例 [2007-02-13] UnicodeとUTFの関係 Unicodeは、21ビットで1文字を表す文字コード体系。[2007-05-03] （Unicodeは、地球上の全世界の文字を1つの体系で表そうと試みているらしい。当初は16ビットとしていたが、足りなくなったので21ビットになったそうだ。16ビットを超える分は補助文字と呼ぶ）プログラミング言語の中では、文字列はUnicodeの配列で表せばよい

hamasta 2006/12/02

リンク

文字コード規格の基礎：ITpro

この記事は，日経ソフトウエア 1999年10月号に掲載したものです。それ以降の情報が盛り込まれていませんので，現在とは異なる場合があります。文字コード規格の基礎を手早く理解したい場合などにお役立てください。文字コードは間違いなく情報を交換するための「決まりごと」なので，正確を期すため厳密な仕様が規定されている。だが，その仕様そのものを実装するプログラムを作る場合を除けば，プログラマが仕様の詳細を隅々まで理解している必要はない。六法全書を読んでいなくても問題なく普段の生活ができるようなものだ。ここでは，通常のプログラミングをするうえで必要と思われる範囲のことを，なるべく簡潔に説明したい。「半角カナ」のような呼び名は正確さを欠くものだが，多くの人に伝わりやすいので説明の中でも使っていく。説明を簡略化するため「正確な仕様を知りたいときは規格書そのものを必ず参照してほしい」と書きたいところだ

hamasta 2006/11/25

Unicode

リンク

文字コードの発展経緯から役割と仕組みを学ぶ

コンピュータを使っていると，画面上でさまざまな文字を目にすると思うが，これはすべて文字コードという考え方に基づいて表示している。ただ，コンピュータの内部と通信用で違う種類の文字コードを使い分けるケースも多く，なにかと複雑。これが原因で文字化けもしょっちゅう起こる。そこで，文字コードの世界を探ってみることにしよう。なお，この記事は日経NETWORK 2002年2月号に掲載したものです。それ以降の情報が盛り込まれていませんので，現在とは異なる場合があります。文字コード規格の基礎を手早く理解したい場合などにお役立てください。インターネット上でやりとりされるデータは，すべて0か1のビットの列で表す。画像だろうと音楽だろうと，ビット列であることに変わりはない。文字だって同じである。このため，ある文字をどのようなビット列に置き換えるのかということを，あらかじめ決めておく必要がある（図1）。具体的に

hamasta 2006/11/25

Unicode

リンク

シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories

2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。おかしな変換表は、これまでは、特にLinuxなどの上で動作するオープンソースソフトウェアで多く見られた。おそらく規格原理主義者が多かったためだろう。そもそも、規格どおりに変換表を作ると、実用的な変換表にはならない。しかし、最近ではまともな変換表を実装しているものも増えてきて、うまく選ぶだけでいいようになってきている。変換表の違いをまとめたページはよく見かけるが、実際にどのような条件を満たして変換するものを選べばいいか不明なので、まとめてみた。変換表に求めら

hamasta 2006/06/28

Unicode

リンク

機種依存文字とUnicode - WebStudio

導入機種依存文字と呼ばれる文字があります。例えばWindowsでは、大文字のローマ数字(ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ)、小文字のローマ数字(ⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ)、丸囲み数字(①②③④⑤⑥⑦⑧⑨⑩⑪⑫⑬⑭⑮⑯⑰⑱⑲⑳)、丸囲み文字(㊤㊥㊦㊧㊨)、カタカナ表記の単位(㍉㍍㌔㌘㌧㌦㍑㌫㌢)、単位記号(㎝㎏㎡)、複数のアルファベットを合成した文字(㏍℡№)、元号(㍻㍼㍽㍾)、会社名等で用いられる括弧囲み文字(㈱㈲㈹)等が機種依存文字と呼ばれています。機種依存文字は一般的に、異機種間でデータの交換を行った場合、例えばWindowsで作成したテキストファイルをMacintoshで表示した場合に文字化けしてしまうので、これら異機種でデータ交換することを前提としたインターネットでは利用するべきではないと言われています。しかし、これらは機種依存文字と呼ばれているものの、その意味はあ

hamasta 2006/06/20

Unicode

リンク

文字コードについて

文字コード、標準化について文字コードについての実用的な説明です。文字コード表 JIS X 0201、JIS X 0208、JIS X 0213のJIS、EUC-JP、Shift_JIS、Unicodeの文字コード表と、JIS X 0221のUnicodeの文字コード表です。 JIS X 0211 の制御コード表（JIS制御コード） JIS X 0201 の文字コード表（JISローマ字：ASCII、JISカナ） JIS X 0201 の文字コード一覧（Unicode対応） JIS X 0208 の文字コード表（JIS漢字：第1・第2水準） JIS X 0208 の文字コード一覧（Unicode対応） JIS X 0213 の文字コード表（JIS漢字：第1・第2・第3・第4水準）［UTF-8テキスト版］ Unicode、常用漢字、人名漢字対応 JIS X 0213 の文字コード一覧［U

hamasta 2006/05/10

Unicode

リンク

JIS, EUC, SJIS の漢字コードについて

back 3つの漢字コード現在、コンピュータ上で日本語テキストを表現するのに用いられている漢字コードはおもに 3種類ある (昔は区点コードというコード体系もあったが、今ではすたれてしまった)。その 3種類は次のようなものである。なお、最初に「0x」がつく文字列は、それが 16進数 (Hexadecimal) 表記であることを表す。 JIS漢字コード ASCII コード 0x21 〜 0x7E の文字 2つを組み合わせて 1つの漢字を表現する。制御文字 (文字コード 0x1F 以下の文字) と共有できる、7bit 転送でも表現できるなどの利点があるものの、漢字と通常の ASCII コード文字 (single-byte のアルファベット) が共存できない。このために「漢字 IN」と「漢字 OUT」という 2つの制御シーケンス (制御文字列) が導入されている。漢字 IN …

hamasta 2006/05/06

リンク

小形克宏の「文字の海、ビットの舟」――文字コードが私たちに問いかけるもの

小形克宏の「文字の海、ビットの舟」 ―― 文字コードが私たちに問いかけるもの [Reported by 小形克宏] 第1部　2000JISがやってきた第1回　2000JISとはなんだ？　（2000年1月19日）第2回　2000JISの原案はなぜ修整されたか？　（2000年1月26日）加筆修正 2000年2月22日第3回　前回までの訂正と補遺　（2000年2月2日）加筆修正 2000年2月22日第4回　JCS委員長、芝野耕司の反論（前編）　（2000年2月9日）加筆修正 2000年2月12日第5回　JCS委員長、芝野耕司の反論（後編）　（2000年2月16日）加筆修正 2000年2月22日特別編　MacOS Xの新フォントと2000JISの関係　（2000年2月23日）特別編2　ISO/IEC 10646で却下された(?)JIS X 0213の新漢字一覧表　（2000年3月8日

hamasta 2006/05/04

Unicode

リンク

日本語文字コード

フォームメール(mb_send_mail)php ジェネレーターオープンフォトライブラリー自由に画像を登録・紹介できます文字コード（日本語漢字コード表）日本語漢字コード表が、Shift-JIS、EUC-JP、JIS、UTF-8と複数存在する事から、ホームページ作成・維持管理、データ収集をする上で、文字コードについての多くの諸問題が発生します。その解決に少しでもお役に立てれば幸いです文字コード表（実体）シフトＪＩＳコード表 Shift-JIS による一覧表ＥＵＣコード表 EUC-JP による一覧表ＪＩＳコード表 JIS による一覧表 JIS X 0201 (1976) to Unicode 文字コード表 Shift-JIS による一覧表 JIS X 0208 (1990) to Unicode 漢字コード表 Shift-JIS による一覧表(UTF-8のコードはこちらにあり

hamasta 2006/04/21

文字コード表　SJIS　EUC　おすすめ

リンク

文字コードの話

本稿は、1996年に筆者が大学の所属サークルの機関誌に寄稿した記事をもとに加筆訂正したものです。(最終更新 1999.7.31) 目次はじめに第1章日本語のコード体系第2章 ASCIIと1バイト文字コード第3章 JIS漢字コードとエンコーディング法第4章 ISO 2022 第5章 ISO 2022の実例第6章中国語・韓国語の文字コード第7章 ISO 10646とUnicode おわりに参考文献はじめに ASCIIだけで用が足りるアメリカと違って、私たちは日本語を扱わなくてはならないため、より深く文字コードの問題と関わらざるをえません。それでも、MS-DOS/WindowsやMacを使う限りでは、 ASCIIとシフトJIS(たまにJIS)を知っていれば済みますが、 UNIXやインターネットを使い始めると、 JIS・EUC・シフトJISとさまざまな日本語コードに頭を

hamasta 2006/04/19

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

Unicodeに関するhamastaのブックマーク (36)

お知らせ

今週のはてなブックマーク数ランキング（2025年6月第4週）

はてなブックマーク透明性レポート（2024年11月～2025年2月）

今週のはてなブックマーク数ランキング（2025年6月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス