タグ

文字コードに関するtegetegetegeのブックマーク (43)

  • 日本語の添付ファイル名のエンコーディング - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    メールの添付ファイル名をめぐる問題について、Mac OS Xユーザの視点でまとめてみる。 添付ファイルを送信する際、その名前はどこに書かれるのか。RFC 2183では、添付ファイル名はContent-Dispositionフィールドのfilenameパラメータに記述することになっている。ただし今回調べたメーラーまたはメールサービスはすべて、filenameパラメータだけでなく、Content-Typeフィールドのnameパラメータにも添付ファイル名を記述する。後述するが、nameパラメータは互換用として機能している。 添付ファイルを送信する際、その名前はどのような方法でエンコードされるか。非ASCII文字列を添付ファイル名として扱う方法は、RFC 2231で定義されている。しかし、OutlookWindows MailなどはRFC 2231をサポートしておらず、代わりにMIME Bエンコ

    日本語の添付ファイル名のエンコーディング - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    tegetegetege
    tegetegetege 2013/01/24
    RFC2231とMIMEの区別だけでなく、メールクライアント別のエンコード・デコード方式の違いも整理されている
  • 「文字コード」 ~マンガでプログラミング用語解説

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    「文字コード」 ~マンガでプログラミング用語解説
  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

    tegetegetege
    tegetegetege 2011/10/19
    Unicode正規化とは
  • Google Sites: Sign-in

    tegetegetege
    tegetegetege 2011/10/19
    文字コードとは?というところから、CJK統合漢字、CJK互換漢字、結合文字、「合成済みの文字」と「合成によって表現される文字」の正規化、異体字セレクタなど発展的な話題まで分かりやすく説明してある
  • Mac OS Xの濁点ファイルがやってきた - miauのブログ

    一ヶ月ほど前の話。Mac OS X を使っている人から Skype で送られてきた Excel ファイルが WinMerge でうまく開けなくて。「xdoc2txt が .xlsx に対応してない?いやそんなはずは・・・」とかいろいろ調べてて、ふと思い立って dir すると こんな感じと。今まで仕事Mac OS X を使っている人には出会ったことがなかったので、「これが噂の濁点問題かー」とちょっと嬉しくなって、このファイルをいじりまわして遊んだのでそのお話。 簡単に現象&用語を説明 詳しいことは Unicode正規化 紹介マニアどらふと版: Mac OS X におけるファイル名に関するメモ(NFC, NFD等) あたりを読んでいただくのが確実なんですが、今回問題になった濁点まわりに限定してかいつまんで説明すると・・・。 Unicode で「が」という文字を表したい場合、以下の二種類の表

  • Unicode正規化 – ものかの

    コンテンツへスキップ 以前書いたものです。旧サイトへのリンクを貼っておきます。 Unicode正規化 その1 Unicode正規化 その2 Unicode正規化 その3 Unicode正規化 その4 Unicode正規化 その5

    Unicode正規化 – ものかの
    tegetegetege
    tegetegetege 2011/10/18
    Unicode正規化。濁音や半濁音がなぜバラバラになってしまうのか。
  • メールの符号化 - yanok.net

  • 文字コードに対する3つの見方 - yanok.net

    ひとくちに文字コードといっても、ときとして、人によってとらえ方が大きく異なることに戸惑うことがあります。例えば、興味の向かう先が、活字や印刷といった方向である人と、プログラミングである人とは、同じ文字コードといっても想起されるイメージや前提条件などに大きな隔たりがあるのではないかと思えます。 以前、このことを「文字コードに対する3つのスタンス」として考察したことがあるのですが、その後あらためて考えたところ、この3つのスタンスは、文字の符号化・処理・復号という3つのフェーズに対応するように思われました。 下図のようなイメージです。 文字コードによって計算機上で文字を処理する場合、こうした、符号化・処理・復号というフェーズを経ることになります。このうちどこに重きを置くかによって、同じ文字コードでも見え方が違ってくるのだと思います。 注意したいのは、どれかひとつのスタンスに偏ると全体が見えなくな

    tegetegetege
    tegetegetege 2011/05/23
    文字の符号化・処理・復号という3つのフェーズ
  • UniView

    How to Convert Text to Unicode Code Points How to Convert Text to Unicode Code Points The process for working with character encodings in Python, or converting text to Unicode code points at any point in time, can be incredibly confusing, complex, and convoluted – especially if you aren’t particularly familiar with the Unicode language to begin with. Thankfully though, there are a lot of tools (an

  • Character encodings: Essential concepts

    This article introduces a number of basic concepts needed to understand other articles that deal with characters and character encodings. Unicode Unicode is a universal character set, ie. a standard that defines, in one place, all the characters needed for writing the majority of living languages in use on computers. It aims to be, and to a large extent already is, a superset of all other characte

  • The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)

    I’m Joel Spolsky, a software developer in New York City. More about me. Read the archives in dead-tree format! Many of these articles have been collected into four books, available at your favorite bookstore. It’s an excellent way to read the site in the bath, or throw it at your boss. Ready to level up? Stack Overflow Jobs is the job site that puts the needs of developers first. Whether you want

    The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
    tegetegetege
    tegetegetege 2010/03/23
    Joel on Softwareの文字コードに関する記事
  • Text Escaping and Unescaping in JavaScript(Unicode の文字列をエスケープする JavaScript)

    Notes No data is sent to the server (i.e. everything is done in JavaScript). Conversion from Unicode to other encodings such as Shift_JIS can be slow first time as it needs to initialize internal conversion tables. Surrogate pairs in UTF-16 are supported. Try inserting \uD840\uDC0B in the second form. Three-byte characters in EUC-JP are not supported. Links JavaScript Unicode Charts Try GNU Libidn

  • Eclipseで文字符号化の理解を深める

    語の文字符号化 文字符号化の基についての確認が終わったところで、Shift_JIS、EUC-JPといった日語の文字符号化およびUnicodeについて理解を深めましょう。 Shift_JIS、Windows-31 Shift_JISは、JIS X 0208:1997付属書1で規定されている文字符号化方式です。符号化文字集合としてはJIS X 0201とJIS X 0208を対象としています。 Shift_JISと同じ方式で文字符号化をするWindows-31Jという文字符号化方式もあります。これは、Shift_JISが対象とする符合化文字集合へMicrosoft Windowsで使われている符合化文字集合を加えたものを対象としています。Shift_JISと区別して使用しないと正しく文字を扱うことができません。 どんな場合に問題が発生するのか、プログラムで確認をしてみましょう。Shif

    Eclipseで文字符号化の理解を深める
    tegetegetege
    tegetegetege 2009/06/17
    Windows-31J、①関連の話も少しあり
  • Javaの参照型を文字列操作で理解して文法を総復習

    【総復習】Javaの変数は大きく2つに分かれる これまでの連載で、Javaには基型(プリミティブ型)のほかに配列やクラスといった型があることを解説しました。実は、Javaの変数の型は「基型」「参照型」の2つに大きく分けることができ、配列やクラスは参照型に含まれる型になります。 今回は、この参照型について解説します。また、参照型の中でもよく使うStringクラスについても解説します。さらに、これまで解説してきた基型、クラスとインスタンス、メソッドについても総復習する良い機会にもなるはずです。EclipseでJavaプログラミングを始める準備がまだの方は、連載第1回の「Eclipse 3.4で超簡単Javaプログラミング基礎入門」で準備しておいてください。 イメージで何とか理解したい「参照型」とは これまでの連載でも説明しましたが、基型の変数では、変数宣言をすれば、そのまま値を代入でき

    Javaの参照型を文字列操作で理解して文法を総復習
    tegetegetege
    tegetegetege 2009/06/17
    下の方に文字化け関連リンクがいろいろある
  • Han Unification in Unicode

    Han Unification in Unicode Otfried Cheong October 12, 1999 There seems to be a lot of confusion, even among Unicode enthousiasts, about Han unification. Perhaps future versions of the standard should add more explanations of this controversial issue. Let me explain my view of the affair. I am not an expert at all, so please correct me where I am wrong! First of all, there has NOT been a single uni

    tegetegetege
    tegetegetege 2009/06/08
    Han Unificationの問題例のでっかい画像がある
  • 第8回■主要言語の文字エンコーディングの対応状況を押さえる

    文字コードの問題に正しく対応する前提として,アプリケーションが稼働する基盤ソフトウエアがマルチバイト文字列処理に対応している必要がある。特に問題となるのが,言語処理系とデータベース管理システム(DBMS)である。利用者の使い方が正しくない場合も,ぜい弱性が混入することがある。このため,今回は主要言語とデータベース(MySQLとMS SQL Server)のマルチバイト文字対応状況について説明する。 文字列の処理単位は文字単位かバイト単位か Webアプリケーション開発で人気のあるスクリプト言語の多くは,かつては文字列をバイト単位で扱っているものが多かった。以下のPerlスクリプトは“漢字”という文字列の長さを表示するものだが,ソースの文字エンコーディングによって結果が変わる。具体的には,Shift_JISやEUC-JPの場合は4,UTF-8の場合は6と表示される。原因は,このスクリプトが文字

    第8回■主要言語の文字エンコーディングの対応状況を押さえる
    tegetegetege
    tegetegetege 2009/03/09
    5C問題。PHPを含む、各種言語でのマルチバイトの扱い。DB接続時の扱いの説明もあり。
  • 文字化けに関するトラブルに強くなる【実践編】

    連載バックナンバー Oracleトラブル対策の基礎知識 主な内容 JavaベースのWebアプリケーションにおける「~」の文字化け JavaベースのWebアプリケーションのシステム構成と変換表 「~」文字化けのメカニズム JA16SJISTILDE・JA16EUCTILDEによる対処 Vistaが新たに対応したJIS X 0213とは? Oracle DatabaseでJIS X 0213に対応するには JIS X 0213とクライアント環境 補助文字(追加文字)とサロゲートペア (関連キーワード:文字化け、SJIS16TILDE、チルダ文字、サロゲートペア、補助文字(追加文字) WindowsJavaなどのように、OSやプログラミング言語の内部処理では、文字データをUnicodeで扱うことが一般的になってきています。Unicodeの目的の1つは、同一のプログラムで複数言語に対応することで

    文字化けに関するトラブルに強くなる【実践編】
    tegetegetege
    tegetegetege 2009/03/05
    ~の文字化け情報。「~」文字化けのメカニズムの説明。
  • 第7回■文字エンコーディングが生み出すぜい弱性を知る

    文字コードに関する問題は大別すると文字集合の問題と文字エンコーディングの問題に分類できる。前回は文字集合の取り扱いに起因するぜい弱性について説明したので、今回は文字エンコーディングに起因するぜい弱性について説明しよう。 文字エンコーディングに依存する問題をさらに分類すると2種類ある。(1)文字エンコーディングとして不正なデータを用いると攻撃が成立してしまう点と,(2)文字エンコーディングの処理が不十分なためにぜい弱性が生じることがある点だ。 不正な文字エンコーディング(1)――冗長なUTF-8符号化問題 まず,(1)の不正な文字エンコーディングの代表として,冗長なUTF-8符号化問題から説明しよう。前々回に解説したUTF-8のビット・パターン(表1に再掲)を見ると,コード・ポイントの範囲ごとにビット・パターンが割り当てられているが,ビット・パターン上は,より多くのバイト数を使っても同じコー

    第7回■文字エンコーディングが生み出すぜい弱性を知る
  • Part2 Webアプリ開発のトラブル・シューティング(その1)

    木村 真幸 DTS ネットワーク事業プロジェクトマネージャ , 窪田 康大 豆蔵 BS事業部 開発技術チーム コンサルタント Webプログラミングのトラブル事象は星の数ほどありますが,実は初級者/入門者がはまってしまうトラブルにはいくつか決まったパターンがあります。そこでPart2では,よくあるトラブルを取り上げて,その問題点と解決方法を説明します。「日語の文字化け」「クロスサイト・スクリプティング」「最新データが表示されない」「二重クリックによる二重処理」「例外ハンドリング漏れ」の五つを取り上げます。 トラブル1 日語が文字化けする! ブラウザに表示した文字列が,“?”や意味不明の記号に変換されることがあります。これを一般的に「文字化け」と言います。Webプログラミングでは,文字化けが発生することがよくあります。ここでは「画面に表示した日語」「ブラウザから送信された日語」の

    Part2 Webアプリ開発のトラブル・シューティング(その1)
  • 2007/04/27 日記: Java: Outlook 風の JISコード (ISO-2022-JP) を利用するための x-windows-iso2022jp というエンコーディング

    2007/04/27 日記: Java: Outlook 風の JISコード (ISO-2022-JP) を利用するための x-windows-iso2022jp というエンコーディング [x-windows-iso2022jp,拡張,ISO-2022-JP,MS932,JavaMail,文字化け,Outlook,Windows,文字バケ,エンコーディング] x-windows-iso2022jp を使うと、極めて Outlook風の JISコードを利用することができるようになります。 広告: BlancoEclipseDistribution 最新安定版 (3.4-20080626) リリース 07/04 最新版の Eclipse である Eclipse Classic (SDK) 3.4 一式 (日語化済み) が Windowsインストーラを用いてインストールできます。 B

    tegetegetege
    tegetegetege 2009/01/28
    ISO-2022-JPの機種依存文字