タグ

文字コードに関するtomoemonのブックマーク (16)

  • Unicode文字列処理

    https://edge.connpass.com/event/161663/ にて登壇。 今現在、Unicodeという文字規格には13万個以上の文字が収録されています。それぞれの文字には文字のカテゴリー、文字と文字の連結方法、左右どちらから読むかなど、様々な付帯情報も定められています。英語でドキュメントがあり、例えばアラビア語を読めなくてもアラビア文字のレンダリング処理を書ける程度には詳細な仕様が書かれています。 セッションでは、このUnicodeの仕様の概要と、それをプログラム(主にUnity上でのC#を想定)的に処理する際の注意点などについて説明します。Read less

    Unicode文字列処理
    tomoemon
    tomoemon 2020/02/19
    良いまとめ。OSやエディタ・プログラミング言語によって書記素クラスタの扱いが違いすぎてツライ
  • Go 言語と Unicode 正規化

    今回は少し目先を変えて「Unicode 正規化(normalization)」のお話。 2羽の「ペンギン」 まず「ペンギン」という文字列を思い浮かべてみる。 この文字列を Unicode のコードポイントで表すと以下のようになる。 ペ:U+30DA ン:U+30F3 ギ:U+30AE ン:U+30F3 ところでペンギンの「ペ」と「ギ」は半濁点および濁点を含む。 Unicode は「ペ」と「ギ」をそれぞれ2つの要素に分解できる。 ペ:U+30D8 + U+309A ン:U+30F3 ギ:U+30AD + U+3099 ン:U+30F3 U+309A および U+3099 はそれぞれ半濁点と濁点を表す「結合文字(combining character)」である。 「ヘ」や「キ」のような「基底文字(base character)」に結合文字を1つ以上1 付加した文字を「合成列(composite

    Go 言語と Unicode 正規化
  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
  • ASCIIコードの秘密 - ザリガニが見ていた...。

    当はエスケープシーケンスのことを調べていたのだが、その前にASCIIコードについて調べることになってしまった...。文字コードの基として知っているつもりだったASCIIコードについて、あらためて見直してみると、実は当の意味をよく分かっていなかったことに気づいた。 ASCIIコード表 ASCIIコードは、7ビット(2進数7桁)の文字コードであり、全部で128のコードが定義されている。 最も基的な文字コードであり、その他多くの文字コードはこのASCIIコードと互換性を維持している。 00 10 20 30 40 50 60 70 00 NUL DLE SP 0 @ P ` p 01 SOH DC1 ! 1 A Q a q 02 STX DC2 " 2 B R b r 03 ETX DC3 # 3 C S c s 04 EOT DC4 $ 4 D T d t 05 ENQ NAK % 5

  • 文字コード変換ミスによる文字化けパターンと想定される原因 - drk7jp

    とあるシステムでデータベースから引いてきたデータの表示が文字化けするという不具合がありました。 データベース内のデータとしては文字化けしていない状態で格納されていることはわかっていたので、どこかしらの文字変換で化けていることはわかっています。まずはどの誤変換により文字化けするのか原因切り分けのために、decode/encode の組み合わせによる文字化けパターン一覧を作りました。おかげさまでどのパターンに類するものか判別することができ、無事に改修することができました。 その話はまた別にするとして、今も昔も変わらず文字化けに悩む人は意外と多いと思います。誤変換結果一覧は原因解析の参考になると思い、記事としてまとめることにしました。 文字コード変換ミスによる文字化けパターンを可視化するプログラムと一覧表 まずは誤変換を生成する perl スクリプトです。プログラムはとっても簡単で、「文字化けで

  • Python のインクリメンタル・デコーダ

    公開: 2011-12-16 概要 Python の codecs モジュールの IncrementalDecoder を使えば、送られてくるバイト列を、文字境界を気にすることなく逐次デコードしていくことができます。 ソケット、シリアル通信、パイプなどを使ってテキストのデータを送受信することはよくある。このとき、テキストは当然のことながら、なんらかのエンコーディング(符号化方式)でバイト列として表現されてストリームを流れてゆく。 たとえば、u'モンティ・パイソン' という文字列を送信したいとする。エンコーディングは Shift_JIS にしよう。Python インタプリタを立ち上げて確認してみると、送信するバイト列は次のようになる。 C:\...>python Python 2.7.2 (default, Jun 12 2011, 15:08:59) [MSC v.1500 32 bit

  • スライド 1 | メールアドレスの国際化 (JANOG25 からの変更点 )

    Copyright © 2013 Japan Registry Services Co., Ltd. 1 メールアドレスの国際化 (JANOG25からの変更点) 藤原 和典 <fujiwara@jprs.co.jp> 株式会社日レジストリサービス (JPRS) JANOG 31, 2013/1/24 Copyright © 2013 Japan Registry Services Co., Ltd. 2 メールアドレスの国際化 • IETF Email Address Internationalization WGの活動 • メールアドレスにUnicodeを使用できるように する拡張 – 例: 藤原@日レジストリサービス.jp • JANOG 25にて報告 – 2010/1/21 (3年前) 昼休み後半(13:15-13:35) ショートトーク「メールアドレスの国際化 〜ASCII で

    tomoemon
    tomoemon 2013/03/21
    地獄が見える
  • はてなブログ | 無料ブログを作成しよう

    わたし的棚ぼた一万円選書 急に千葉さんに手渡された封筒、開けてみたら1万円札が1枚。何ごとかと思えば、同期の出張を代わったお礼をもらったらしい。 「葵はワンオペで育児してくれたから」と半分わけてくれました。 泡銭の1万円 これはもう、わたし的1万円選書をしろという思し召しなのでは……

    はてなブログ | 無料ブログを作成しよう
  • codecs — Codec registry and base classes

    codecs — Codec registry and base classes¶ Source code: Lib/codecs.py This module defines base classes for standard Python codecs (encoders and decoders) and provides access to the internal Python codec registry, which manages the codec and error handling lookup process. Most standard codecs are text encodings, which encode text to bytes (and decode bytes to text), but there are also codecs provide

    codecs — Codec registry and base classes
    tomoemon
    tomoemon 2011/05/18
    encode/decodeで指定できるコーデック。rot13とかzlibとかも指定できる
  • Unicode(ユニコード)一覧表「うにこ~ど」

    うにこ~ど(Unicode)とはコンピュータ上で多言語の文字を単一の 文字コードで取り扱うために1980年代に提唱された文字コードです。 当は「ユニコード」と読みます。(^_^) 記号などの文字を探すのに便利なように作った Unicode一覧表 です。 Javascript が有効になっていないと動きません。あしからず・・・。 バージョン2になって、Unicode逆引き検索 も可能になりました。 HTMLに Unicode で文字を書く時は 16進 で、&#xFFFF; と書きます。 例えば、上の表で、0x1234 だったら、 &#x1234; ですね。(セミコロンをお忘れなく) どこの国の文字かも分からないですけど、おもしろい文字がたくさんありますね (^_^) たとえば、0x0BXX あたりとか、0x0CXX あたりとか。

  • 第7回■文字エンコーディングが生み出すぜい弱性を知る

    文字コードに関する問題は大別すると文字集合の問題と文字エンコーディングの問題に分類できる。前回は文字集合の取り扱いに起因するぜい弱性について説明したので、今回は文字エンコーディングに起因するぜい弱性について説明しよう。 文字エンコーディングに依存する問題をさらに分類すると2種類ある。(1)文字エンコーディングとして不正なデータを用いると攻撃が成立してしまう点と,(2)文字エンコーディングの処理が不十分なためにぜい弱性が生じることがある点だ。 不正な文字エンコーディング(1)――冗長なUTF-8符号化問題 まず,(1)の不正な文字エンコーディングの代表として,冗長なUTF-8符号化問題から説明しよう。前々回に解説したUTF-8のビット・パターン(表1に再掲)を見ると,コード・ポイントの範囲ごとにビット・パターンが割り当てられているが,ビット・パターン上は,より多くのバイト数を使っても同じコー

    第7回■文字エンコーディングが生み出すぜい弱性を知る
  • 絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

    Unicodeが携帯電話の絵文字を収録へ 絵文字ってなに?そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな! 8割の女性は「恋人以外にも使う」』(RBB NAVI)なんていうニュースもありました。携帯電話の個人普及率が9割を上回る(平成20年内閣府消費動向調査)この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。 まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

    絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道
    tomoemon
    tomoemon 2009/02/28
    ここで安岡先生が出てくるとは
  • 「痴」「稚」が一杯。英語サイトを作ったら文字化け

    URLエンコードを求めるには、今まで何度か紹介しています自作Flashフォームを利用します。こちらにあります。 左の文字化け一覧から明らかなことは、文字化けするのは「‘(シングルクォテーション)」や「’(アポストロフィー)」、「“(ダブルクォテーション)」であることが分かります。ただ、よく見ると、このアポストロフィーやダブルクォテーション、何だか変です。妙に空白が目立ちます。 実は、これは日語のOSで普通に入力して表示される「'(アポストロフィー)」や「"(ダブルクォーテーション」とは別物です。 iso-8859-1(Latin-1)一覧表を参照していただき、「9」の列に注目してください。グレーになっている部分です。91番(9の列。1の行。LEFT SINGLE QUOTATION MARK)と92番(9の列。2の行。RIGHT SINGLE QUOTATION MARK)、93番(9の

  • コマンドプロンプトでUTF-8の文字を表示する - Perl入門ゼミ

    PerlWindows この方法では文字が正しく描画できないようです。(maeyanさんの記事)。 わたしの環境でも駄目でした。 手順 コマンドプロンプトのフォントの変更 コマンドプロンプトの文字コードの変更 ショートカットから文字コードの自動設定を行う。 Windowsのバージョン Windows XP Home Edition Version 2002 Service Pack 2 で行いました。 1. コマンドプロンプトのフォントの変更 コマンドプロンプトを立ち上げる→タイトルバー右クリック →プロパティ→フォントから"MS ゴシック"を選択する。 フォントを"MS ゴシック"に変更します。MS ゴシックは、Unicodeに対応するすべての文字を正しく表示できるわけではないですが、一応ユニコードに対応しています。日語や飾り文字を含む文字を表示することができます。 2. コマン

    コマンドプロンプトでUTF-8の文字を表示する - Perl入門ゼミ
    tomoemon
    tomoemon 2008/07/07
     コマンドプロンプト 変更
  • Unicode 15.1 Character Code Charts

    European Scripts Armenian Armenian Ligatures Carian Caucasian Albanian Cypriot Syllabary Cypro-Minoan Cyrillic Cyrillic Supplement Cyrillic Extended-A Cyrillic Extended-B Cyrillic Extended-C Cyrillic Extended-D Elbasan Georgian Georgian Extended Georgian Supplement Glagolitic Glagolitic Supplement Gothic Greek Greek Extended Ancient Greek Numbers Latin Basic Latin (ASCII) Latin-1 Supplement Latin

    tomoemon
    tomoemon 2008/06/04
    unicode
  • ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに

    UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。また、UnicodeはASCIIだけでなく、Western Europeanもほぼ同時に追い越している。 Unicodeは多くの言語に対応した標準文字コード体系で、発音区別符号などを利用したローマ字なども扱っている。何十年も前に定められたASCIIコードは128文字あるいは256文字(ASCIIで128 文字、拡張ASCIIで256文字)しか表現できず、タイプライターの影響を受けた同文字コードの拡張は苦戦している。 UnicodeがASCIIとWestern Europeanを追い越したのは12月で、双方が追い越された日は10日も違わなかった。 Unicodeの動きについ

    ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに
  • 1