[B! 文字コード] tegetegetegeのブックマーク

tegetegetege id:tegetegetege

文字コードに関するtegetegetegeのブックマーク (43)

日本語の添付ファイル名のエンコーディング - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
メールの添付ファイル名をめぐる問題について、Mac OS Xユーザの視点でまとめてみる。添付ファイルを送信する際、その名前はどこに書かれるのか。RFC 2183では、添付ファイル名はContent-Dispositionフィールドのfilenameパラメータに記述することになっている。ただし今回調べたメーラーまたはメールサービスはすべて、filenameパラメータだけでなく、Content-Typeフィールドのnameパラメータにも添付ファイル名を記述する。後述するが、nameパラメータは互換用として機能している。添付ファイルを送信する際、その名前はどのような方法でエンコードされるか。非ASCII文字列を添付ファイル名として扱う方法は、RFC 2231で定義されている。しかし、OutlookやWindows MailなどはRFC 2231をサポートしておらず、代わりにMIME Bエンコ
tegetegetege 2013/01/24
RFC2231とMIMEの区別だけでなく、メールクライアント別のエンコード・デコード方式の違いも整理されている

文字コード
リンク
「文字コード」　～マンガでプログラミング用語解説
CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。
tegetegetege 2012/08/02
文字コード

国際化
リンク
Unicode正規化
正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ
tegetegetege 2011/10/19
Unicode正規化とは

Unicode

文字コード
リンク
Google Sites: Sign-in
tegetegetege 2011/10/19
文字コードとは？というところから、CJK統合漢字、CJK互換漢字、結合文字、「合成済みの文字」と「合成によって表現される文字」の正規化、異体字セレクタなど発展的な話題まで分かりやすく説明してある

Unicode

文字コード
リンク
Mac OS Xの濁点ファイルがやってきた - miauのブログ
一ヶ月ほど前の話。Mac OS X を使っている人から Skype で送られてきた Excel ファイルが WinMerge でうまく開けなくて。「xdoc2txt が .xlsx に対応してない？いやそんなはずは・・・」とかいろいろ調べてて、ふと思い立って dir するとこんな感じと。今まで仕事で Mac OS X を使っている人には出会ったことがなかったので、「これが噂の濁点問題かー」とちょっと嬉しくなって、このファイルをいじりまわして遊んだのでそのお話。簡単に現象＆用語を説明詳しいことは Unicode正規化紹介マニアどらふと版: Mac OS X におけるファイル名に関するメモ(NFC, NFD等) あたりを読んでいただくのが確実なんですが、今回問題になった濁点まわりに限定してかいつまんで説明すると・・・。 Unicode で「が」という文字を表したい場合、以下の二種類の表
tegetegetege 2011/10/18
文字コード
リンク
Unicode正規化 – ものかの
コンテンツへスキップ以前書いたものです。旧サイトへのリンクを貼っておきます。 Unicode正規化　その１ Unicode正規化　その２ Unicode正規化　その３ Unicode正規化　その４ Unicode正規化　その５
tegetegetege 2011/10/18
Unicode正規化。濁音や半濁音がなぜバラバラになってしまうのか。

文字コード

Unicode
リンク
メールの符号化 - yanok.net
tegetegetege 2011/05/23
文字コード
リンク
文字コードに対する3つの見方 - yanok.net
ひとくちに文字コードといっても、ときとして、人によってとらえ方が大きく異なることに戸惑うことがあります。例えば、興味の向かう先が、活字や印刷といった方向である人と、プログラミングである人とは、同じ文字コードといっても想起されるイメージや前提条件などに大きな隔たりがあるのではないかと思えます。以前、このことを「文字コードに対する3つのスタンス」として考察したことがあるのですが、その後あらためて考えたところ、この3つのスタンスは、文字の符号化・処理・復号という3つのフェーズに対応するように思われました。下図のようなイメージです。文字コードによって計算機上で文字を処理する場合、こうした、符号化・処理・復号というフェーズを経ることになります。このうちどこに重きを置くかによって、同じ文字コードでも見え方が違ってくるのだと思います。注意したいのは、どれかひとつのスタンスに偏ると全体が見えなくな
tegetegetege 2011/05/23
文字の符号化・処理・復号という3つのフェーズ

文字コード
リンク
UniView
How to Convert Text to Unicode Code Points How to Convert Text to Unicode Code Points The process for working with character encodings in Python, or converting text to Unicode code points at any point in time, can be incredibly confusing, complex, and convoluted – especially if you aren’t particularly familiar with the Unicode language to begin with. Thankfully though, there are a lot of tools (an
tegetegetege 2010/10/01
国際化

Unicode

文字コード
リンク
Character encodings: Essential concepts
This article introduces a number of basic concepts needed to understand other articles that deal with characters and character encodings. Unicode Unicode is a universal character set, ie. a standard that defines, in one place, all the characters needed for writing the majority of living languages in use on computers. It aims to be, and to a large extent already is, a superset of all other characte
tegetegetege 2010/10/01
国際化

Unicode

文字コード
リンク
The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
I’m Joel Spolsky, a software developer in New York City. More about me. Read the archives in dead-tree format! Many of these articles have been collected into four books, available at your favorite bookstore. It’s an excellent way to read the site in the bath, or throw it at your boss. Ready to level up? Stack Overflow Jobs is the job site that puts the needs of developers first. Whether you want
tegetegetege 2010/03/23
Joel on Softwareの文字コードに関する記事

国際化

文字コード

Unicode
リンク
Text Escaping and Unescaping in JavaScript(Unicode の文字列をエスケープする JavaScript)
Notes No data is sent to the server (i.e. everything is done in JavaScript). Conversion from Unicode to other encodings such as Shift_JIS can be slow first time as it needs to initialize internal conversion tables. Surrogate pairs in UTF-16 are supported. Try inserting \uD840\uDC0B in the second form. Three-byte characters in EUC-JP are not supported. Links JavaScript Unicode Charts Try GNU Libidn
tegetegetege 2009/12/04
文字コード
リンク
Eclipseで文字符号化の理解を深める
日本語の文字符号化文字符号化の基本についての確認が終わったところで、Shift_JIS、EUC-JPといった日本語の文字符号化およびUnicodeについて理解を深めましょう。 Shift_JIS、Windows-31 Shift_JISは、JIS X 0208:1997付属書1で規定されている文字符号化方式です。符号化文字集合としてはJIS X 0201とJIS X 0208を対象としています。 Shift_JISと同じ方式で文字符号化をするWindows-31Jという文字符号化方式もあります。これは、Shift_JISが対象とする符合化文字集合へMicrosoft Windowsで使われている符合化文字集合を加えたものを対象としています。Shift_JISと区別して使用しないと正しく文字を扱うことができません。どんな場合に問題が発生するのか、プログラムで確認をしてみましょう。Shif
tegetegetege 2009/06/17
Windows-31J、①関連の話も少しあり

文字コード

Java
リンク
Javaの参照型を文字列操作で理解して文法を総復習
【総復習】Javaの変数は大きく2つに分かれるこれまでの連載で、Javaには基本型（プリミティブ型）のほかに配列やクラスといった型があることを解説しました。実は、Javaの変数の型は「基本型」「参照型」の2つに大きく分けることができ、配列やクラスは参照型に含まれる型になります。今回は、この参照型について解説します。また、参照型の中でもよく使うStringクラスについても解説します。さらに、これまで解説してきた基本型、クラスとインスタンス、メソッドについても総復習する良い機会にもなるはずです。EclipseでJavaプログラミングを始める準備がまだの方は、連載第1回の「Eclipse 3.4で超簡単Javaプログラミング基礎入門」で準備しておいてください。イメージで何とか理解したい「参照型」とはこれまでの連載でも説明しましたが、基本型の変数では、変数宣言をすれば、そのまま値を代入でき
tegetegetege 2009/06/17
下の方に文字化け関連リンクがいろいろある

Java

文字化け

文字コード
リンク
Han Unification in Unicode
Han Unification in Unicode Otfried Cheong October 12, 1999 There seems to be a lot of confusion, even among Unicode enthousiasts, about Han unification. Perhaps future versions of the standard should add more explanations of this controversial issue. Let me explain my view of the affair. I am not an expert at all, so please correct me where I am wrong! First of all, there has NOT been a single uni
tegetegetege 2009/06/08
Han Unificationの問題例のでっかい画像がある

エンコード

文字コード
リンク
第8回■主要言語の文字エンコーディングの対応状況を押さえる
文字コードの問題に正しく対応する前提として，アプリケーションが稼働する基盤ソフトウエアがマルチバイト文字列処理に対応している必要がある。特に問題となるのが，言語処理系とデータベース管理システム（DBMS）である。利用者の使い方が正しくない場合も，ぜい弱性が混入することがある。このため，今回は主要言語とデータベース（MySQLとMS SQL Server）のマルチバイト文字対応状況について説明する。文字列の処理単位は文字単位かバイト単位か Webアプリケーション開発で人気のあるスクリプト言語の多くは，かつては文字列をバイト単位で扱っているものが多かった。以下のPerlスクリプトは“漢字”という文字列の長さを表示するものだが，ソースの文字エンコーディングによって結果が変わる。具体的には，Shift_JISやEUC-JPの場合は4，UTF-8の場合は6と表示される。原因は，このスクリプトが文字
tegetegetege 2009/03/09
5C問題。PHPを含む、各種言語でのマルチバイトの扱い。DB接続時の扱いの説明もあり。

文字コード

文字化け

エンコーディング

エンコード

PHP
リンク
文字化けに関するトラブルに強くなる【実践編】
連載バックナンバー Oracleトラブル対策の基礎知識主な内容 JavaベースのWebアプリケーションにおける「～」の文字化け JavaベースのWebアプリケーションのシステム構成と変換表「～」文字化けのメカニズム JA16SJISTILDE・JA16EUCTILDEによる対処 Vistaが新たに対応したJIS X 0213とは？ Oracle DatabaseでJIS X 0213に対応するには JIS X 0213とクライアント環境補助文字（追加文字）とサロゲートペア（関連キーワード：文字化け、SJIS16TILDE、チルダ文字、サロゲートペア、補助文字（追加文字） WindowsやJavaなどのように、OSやプログラミング言語の内部処理では、文字データをUnicodeで扱うことが一般的になってきています。Unicodeの目的の1つは、同一のプログラムで複数言語に対応することで
tegetegetege 2009/03/05
~の文字化け情報。「～」文字化けのメカニズムの説明。

文字コード

文字化け

Java

国際化
リンク
第7回■文字エンコーディングが生み出すぜい弱性を知る
文字コードに関する問題は大別すると文字集合の問題と文字エンコーディングの問題に分類できる。前回は文字集合の取り扱いに起因するぜい弱性について説明したので、今回は文字エンコーディングに起因するぜい弱性について説明しよう。文字エンコーディングに依存する問題をさらに分類すると2種類ある。（1）文字エンコーディングとして不正なデータを用いると攻撃が成立してしまう点と，（2）文字エンコーディングの処理が不十分なためにぜい弱性が生じることがある点だ。不正な文字エンコーディング（1）――冗長なUTF-8符号化問題まず，（1）の不正な文字エンコーディングの代表として，冗長なUTF-8符号化問題から説明しよう。前々回に解説したUTF-8のビット・パターン（表1に再掲）を見ると，コード・ポイントの範囲ごとにビット・パターンが割り当てられているが，ビット・パターン上は，より多くのバイト数を使っても同じコー
tegetegetege 2009/03/04
エンコード

文字コード

セキュリティ
リンク
Part2　Webアプリ開発のトラブル・シューティング（その1）
木村真幸　DTS　ネットワーク事業本部プロジェクトマネージャ , 窪田康大　豆蔵　BS事業部　開発技術チーム　コンサルタント Webプログラミングのトラブル事象は星の数ほどありますが，実は初級者/入門者がはまってしまうトラブルにはいくつか決まったパターンがあります。そこでPart2では，よくあるトラブルを取り上げて，その問題点と解決方法を説明します。「日本語の文字化け」「クロスサイト・スクリプティング」「最新データが表示されない」「二重クリックによる二重処理」「例外ハンドリング漏れ」の五つを取り上げます。トラブル1　日本語が文字化けする！ブラウザに表示した文字列が，“？”や意味不明の記号に変換されることがあります。これを一般的に「文字化け」と言います。Webプログラミングでは，文字化けが発生することがよくあります。ここでは「画面に表示した日本語」「ブラウザから送信された日本語」の
tegetegetege 2009/02/20
文字コード

文字化け

Java

JSP

Servlet
リンク
2007/04/27 日記: Java: Outlook 風の JISコード (ISO-2022-JP) を利用するための x-windows-iso2022jp というエンコーディング
2007/04/27 日記: Java: Outlook 風の JISコード (ISO-2022-JP) を利用するための x-windows-iso2022jp というエンコーディング [x-windows-iso2022jp,拡張,ISO-2022-JP,MS932,JavaMail,文字化け,Outlook,Windows,文字バケ,エンコーディング] x-windows-iso2022jp を使うと、極めて Outlook風の JISコードを利用することができるようになります。広告: BlancoEclipseDistribution 最新安定版 (3.4-20080626) リリース 07/04 最新版の Eclipse である Eclipse Classic (SDK) 3.4 一式 (日本語化済み) が Windowsインストーラを用いてインストールできます。 B
tegetegetege 2009/01/28
ISO-2022-JPの機種依存文字

文字化け

文字コード

JavaMail
リンク
1 2 3 次のページ