[B! 文字コード] rx7のブックマーク

rx7 id:rx7

文字コードに関するrx7のブックマーク (15)

ZIP中のファイル名の文字化け - @tmtms のメモ
こんな記事がありました。 gihyo.jp これはMacユーザー用の書籍の宣伝記事らしいのですが、「Windowsを使ってる人のためにMac側がひと手間かけてあげよう」なんて殊勝なことをマカーが言うとは時代も変わったもんです。（[追記] はてブのコメントを見たらさすがマカーという意見が並んでて安心しました）まあ私はWindowsユーザーでもMacユーザーでもないのでどうでもいいのですが、文字化けなネタなので食いついてみます。記事中に、「付物出稿.zip」というファイルを開いた時の画像が載ってます。文字の並びからして、UTF-8文字列をシフトJIS(CP932)とみなして表示してしまった文字列でしょう（「繧ｫ繝上ｙ繝ｼ繝輔か繝ｫ繧ｿ繧･」の元の文字は「カバーフォルダ」で、「蟶ｯ繝輔か繝ｫ繧ｿ繧･」は「帯フォルダ」）。つまり、Macはファイル名をUTF-8でZIPに書き込み、Wi
rx7 2020/02/20
めちゃ参考になった。

Mac

Windows

文字コード

Linux
リンク
絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama
UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語
rx7 2017/11/13
文字コード
リンク
PythonのUnicodeEncodeErrorを知る - HDEラボ
Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ
rx7 2011/02/13
Python

文字コード
リンク
文字コードに起因する脆弱性とその対策
4. 徳丸浩の自己紹介 • 経歴 – 1985年京セラ株式会社入社 – 1995年京セラコミュニケーションシステム株式会社(KCCS)に出向・転籍 – 2008年 KCCS退職、HASHコンサルティング株式会社設立 • 経験したこと – 京セラ入社当時はCAD、計算幾何学、数値シミュレーションなどを担当 – その後、企業向けパッケージソフトの企画・開発・事業化を担当 – 1999年から、携帯電話向けインフラ、プラットフォームの企画・開発を担当 Webアプリケーションのセキュリティ問題に直面、研究、社内展開、寄稿などを開始 – 2004年にKCCS社内ベンチャーとしてWebアプリケーションセキュリティ事業を立ち上げ • その他 – 1990年にPascalコンパイラをCabezonを開発、オープンソースで公開「大学時代のPascal演習がCabezonでした」という方にお目にかかること
rx7 2010/09/27
文字コード

セキュリティ

資料
リンク
Manpage of CONSOLE_CODES
Section: Linux Programmer's Manual (4) Updated: 2008-01-01 Index JM Home Page roff page 名前 console_codes - Linux コンソールのエスケープシーケンスとコントロールシーケンス説明 Linux コンソールは VT102 と ECMA-48/ISO6429/ANSI X3.64 端末コンソールのサブセットに、カラーパレットや文字集合のマッピングなどを変更するプライベートモードシーケンスを加えて実装されている。以下の表では、機能の ECMA-48 または DEC のニーモニクス(DECで始まれば後者)を 2 番目の桁に記す。ニーモニクスのないものは ECMA-48 でも VT102 でもないものである。すべての出力作業が終って、実際に印字するために文字のストリームがコンソー
rx7 2010/07/02
"Linux コンソールのエスケープシーケンスとコントロールシーケンス"

Linux

リファレンス

文字コード
リンク
改行コード Memo
解説改行コードが二文字から構成されている理由改行が CR LF (CRLF) や LF CR (LFCR) のような二文字から構成されている形式の理解にはシリアルプリンタの制御を考えるとよい。シリアルプリンタとは、一文字印字できるヘッドを主に行の左から右に動かして印字していく方式であり、一行を印字するごとに用紙を次の行に進める(行送り)することでページ全体を印字していく。個人向けに発売されているインクジェットプリンタや熱転写方式 / ドットインパクト方式のプリンタなどがこれに該当することが多い。このヘッドを行の左端 (行頭) に戻すためのコードとして利用されるのが CR であり、また行を送るために使用されるのが LF である。つまり、CR LF と連続して送信することで、一行を印字して右端に行ってしまったヘッドを左端に戻して、さらに次の行を印字するための用紙送りをするのである。しか
rx7 2009/11/16
文字コード
リンク
講習会「文字集合と文字エンコーディング」を開催しました — ディノオープンラボラトリ
「文字集合と文字エンコーディング」というタイトルで、経験2〜3年目の人をターゲットに社内勉強会を開催しました。文字集合という単語を知っている必要はないですけど、少なくともUTF-8とShift_JISとでは扱える文字の種類数が違うことだけは伝えたかったので、その意味では目標が達成できたと思っています。まとめ文字集合とは、扱える文字の集合 JIS X 0208なら6000文字くらいの日本語の文字 UCS-2なら60000文字くらいの世界中の主要な文字文字エンコーディングとは、文字の集合をバイト列に直す方式 Shift_JISはJIS X 0208（など）を1〜2バイトにする UTF-8はUCS-2を1〜3バイトにする文字エンコーディング関連のツールを使いこなそう nkfやlvを使いこなそう日本語を探すならlgrep 最終兵器：hexjaで16進ダンプムービー
rx7 2009/04/21
文字コード

資料
リンク
Linuxおぼえがき＋α: IndexOptions Charset=UTF-8
rx7 2009/01/26
Apache

文字コード
リンク
コマンドプロンプトでUTF-8の文字を表示する - Perl入門ゼミ
Perl › Windows この方法では文字が正しく描画できないようです。(maeyanさんの記事)。わたしの環境でも駄目でした。手順コマンドプロンプトのフォントの変更コマンドプロンプトの文字コードの変更ショートカットから文字コードの自動設定を行う。 Windowsのバージョン Windows XP Home Edition Version 2002 Service Pack 2 で行いました。 1. コマンドプロンプトのフォントの変更コマンドプロンプトを立ち上げる→タイトルバー右クリック →プロパティ→フォントから"MS ゴシック"を選択する。フォントを"MS ゴシック"に変更します。MS ゴシックは、Unicodeに対応するすべての文字を正しく表示できるわけではないですが、一応ユニコードに対応しています。日本語や飾り文字を含む文字を表示することができます。 2. コマン
rx7 2008/12/29
Windows

文字コード

Dos
リンク
brass.to - a really cool domain parked on Park.io
The domain name brass.to is being parked on Park.io. Contact the domain owner to make an offer right now...
rx7 2008/07/20
MySQL

移行

文字コード
リンク
それ Unicode で
UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。
rx7 2006/12/14
HACKS

文字コード
リンク
文字コード規格の基礎：ITpro
この記事は，日経ソフトウエア 1999年10月号に掲載したものです。それ以降の情報が盛り込まれていませんので，現在とは異なる場合があります。文字コード規格の基礎を手早く理解したい場合などにお役立てください。文字コードは間違いなく情報を交換するための「決まりごと」なので，正確を期すため厳密な仕様が規定されている。だが，その仕様そのものを実装するプログラムを作る場合を除けば，プログラマが仕様の詳細を隅々まで理解している必要はない。六法全書を読んでいなくても問題なく普段の生活ができるようなものだ。ここでは，通常のプログラミングをするうえで必要と思われる範囲のことを，なるべく簡潔に説明したい。「半角カナ」のような呼び名は正確さを欠くものだが，多くの人に伝わりやすいので説明の中でも使っていく。説明を簡略化するため「正確な仕様を知りたいときは規格書そのものを必ず参照してほしい」と書きたいところだ
rx7 2006/11/24
文字コード
リンク
http://rails.office.drecom.jp/hibi/archive/15
rx7 2006/08/02
DB

MySQL

文字コード
リンク
take another step : Illegal mix of collations
なんだか予想通りというか、やっぱり放置しちゃったわけですが。とりあえず、思い出したことをダラダラと。 12/8の日記に書いてたMySQLのエラー（下）ですが、 java.sql.SQLException: General error message from server: "Illegal mix of collations (latin1_swedish_ci,IMPLICIT) and (sjis_japanese_ci,COERCIBLE) for operation '='" これはデータベースの属性を変更してあげることで解決できました。エラー自体は、swedishとjapaneseを=で結べないよって感じで、前者がサーバ側のコード、後者がクライアント側のコードみたいです。なので、 "create database databasename default characte
rx7 2006/08/02
DB

MySQL

文字コード
リンク
1