[B! 文字コード] tomoemonのブックマーク

Unicode文字列処理

https://edge.connpass.com/event/161663/ にて登壇。今現在、Unicodeという文字規格には13万個以上の文字が収録されています。それぞれの文字には文字のカテゴリー、文字と文字の連結方法、左右どちらから読むかなど、様々な付帯情報も定められています。英語でドキュメントがあり、例えばアラビア語を読めなくてもアラビア文字のレンダリング処理を書ける程度には詳細な仕様が書かれています。本セッションでは、このUnicodeの仕様の概要と、それをプログラム(主にUnity上でのC#を想定)的に処理する際の注意点などについて説明します。Read less

tomoemon 2020/02/19

良いまとめ。OSやエディタ・プログラミング言語によって書記素クラスタの扱いが違いすぎてツライ

文字コード

リンク

Go 言語と Unicode 正規化

今回は少し目先を変えて「Unicode 正規化（normalization）」のお話。 2羽の「ペンギン」まず「ペンギン」という文字列を思い浮かべてみる。この文字列を Unicode のコードポイントで表すと以下のようになる。ペ：U+30DA ン：U+30F3 ギ：U+30AE ン：U+30F3 ところでペンギンの「ペ」と「ギ」は半濁点および濁点を含む。 Unicode は「ペ」と「ギ」をそれぞれ2つの要素に分解できる。ペ：U+30D8 + U+309A ン：U+30F3 ギ：U+30AD + U+3099 ン：U+30F3 U+309A および U+3099 はそれぞれ半濁点と濁点を表す「結合文字（combining character）」である。「ヘ」や「キ」のような「基底文字（base character）」に結合文字を1つ以上1 付加した文字を「合成列（composite

tomoemon 2018/12/01

文字コード

リンク

文字コード（UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP）についての俺的まとめ - 今日もスミマセン。

「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。間違いなどあればコメントなど頂けるとありがたいです。それぞれの文字コードはどう違うのか？日本語の文字コードは大きく以下の２つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。上で挙げた「文字コード」とは正確には「エンコーディング（文字符号化方式）」の事を指す。文字符号化方式文字集合って？読んでそのまんま”文字の種類の集まり”。「キャラ

tomoemon 2016/07/07

文字コード

リンク

ASCIIコードの秘密 - ザリガニが見ていた...。

本当はエスケープシーケンスのことを調べていたのだが、その前にASCIIコードについて調べることになってしまった...。文字コードの基本として知っているつもりだったASCIIコードについて、あらためて見直してみると、実は本当の意味をよく分かっていなかったことに気づいた。 ASCIIコード表 ASCIIコードは、7ビット（2進数7桁）の文字コードであり、全部で128のコードが定義されている。最も基本的な文字コードであり、その他多くの文字コードはこのASCIIコードと互換性を維持している。 00 10 20 30 40 50 60 70 00 NUL DLE SP 0 @ P ` p 01 SOH DC1 ! 1 A Q a q 02 STX DC2 " 2 B R b r 03 ETX DC3 # 3 C S c s 04 EOT DC4 $ 4 D T d t 05 ENQ NAK % 5

tomoemon 2015/03/03

リンク

文字コード変換ミスによる文字化けパターンと想定される原因 - drk7jp

とあるシステムでデータベースから引いてきたデータの表示が文字化けするという不具合がありました。データベース内のデータとしては文字化けしていない状態で格納されていることはわかっていたので、どこかしらの文字変換で化けていることはわかっています。まずはどの誤変換により文字化けするのか原因切り分けのために、decode/encode の組み合わせによる文字化けパターン一覧を作りました。おかげさまでどのパターンに類するものか判別することができ、無事に改修することができました。その話はまた別にするとして、今も昔も変わらず文字化けに悩む人は意外と多いと思います。誤変換結果一覧は原因解析の参考になると思い、記事としてまとめることにしました。文字コード変換ミスによる文字化けパターンを可視化するプログラムと一覧表まずは誤変換を生成する perl スクリプトです。プログラムはとっても簡単で、「文字化けで

tomoemon 2013/08/27

リンク

Python のインクリメンタル・デコーダ

公開: 2011-12-16 概要　Python の codecs モジュールの IncrementalDecoder を使えば、送られてくるバイト列を、文字境界を気にすることなく逐次デコードしていくことができます。ソケット、シリアル通信、パイプなどを使ってテキストのデータを送受信することはよくある。このとき、テキストは当然のことながら、なんらかのエンコーディング（符号化方式）でバイト列として表現されてストリームを流れてゆく。たとえば、u'モンティ・パイソン' という文字列を送信したいとする。エンコーディングは Shift_JIS にしよう。Python インタプリタを立ち上げて確認してみると、送信するバイト列は次のようになる。 C:\...>python Python 2.7.2 (default, Jun 12 2011, 15:08:59) [MSC v.1500 32 bit

tomoemon 2013/06/01

リンク

スライド 1 | メールアドレスの国際化 (JANOG25 からの変更点 )

Copyright © 2013 Japan Registry Services Co., Ltd. 1 メールアドレスの国際化 (JANOG25からの変更点) 藤原和典 <fujiwara@jprs.co.jp> 株式会社日本レジストリサービス (JPRS) JANOG 31, 2013/1/24 Copyright © 2013 Japan Registry Services Co., Ltd. 2 メールアドレスの国際化 • IETF Em ail Address Internationalization WGの活動 • メールアドレスにUnicodeを使用できるようにする拡張 – 例: 藤原@日本レジストリサービス.jp • JANOG 25にて報告 – 2010/1/21 (3年前) 昼休み後半(13:15-13:35) ショートトーク「メールアドレスの国際化〜ASCII で

tomoemon 2013/03/21

地獄が見える

文字コード

リンク

はてなブログ | 無料ブログを作成しよう

わたし的棚ぼた一万円選書急に千葉さんに手渡された封筒、開けてみたら1万円札が1枚。何ごとかと思えば、同期の出張を代わったお礼をもらったらしい。「葵はワンオペで育児してくれたから」と半分わけてくれました。泡銭の1万円これはもう、わたし的1万円選書をしろという思し召しなのでは……

tomoemon 2013/02/19

リンク

codecs — Codec registry and base classes

codecs — Codec registry and base classes¶ Source code: Lib/codecs.py This module defines base classes for standard Python codecs (encoders and decoders) and provides access to the internal Python codec registry, which manages the codec and error handling lookup process. Most standard codecs are text encodings, which encode text to bytes (and decode bytes to text), but there are also codecs provide

tomoemon 2011/05/18

encode/decodeで指定できるコーデック。rot13とかzlibとかも指定できる

リンク

Unicode(ユニコード)一覧表「うにこ～ど」

うにこ～ど(Unicode)とはコンピュータ上で多言語の文字を単一の文字コードで取り扱うために1980年代に提唱された文字コードです。本当は「ユニコード」と読みます。(^_^) 記号などの文字を探すのに便利なように作った Unicode一覧表です。 Javascript が有効になっていないと動きません。あしからず・・・。バージョン２になって、Unicode逆引き検索も可能になりました。 HTMLに Unicode で文字を書く時は 16進で、＆＃ｘＦＦＦＦ；と書きます。例えば、上の表で、０ｘ１２３４だったら、＆＃ｘ１２３４；ですね。(セミコロンをお忘れなく) どこの国の文字かも分からないですけど、おもしろい文字がたくさんありますね (^_^) たとえば、０ｘ０ＢＸＸあたりとか、０ｘ０ＣＸＸあたりとか。

tomoemon 2010/09/09

文字コード

リンク

第7回■文字エンコーディングが生み出すぜい弱性を知る

文字コードに関する問題は大別すると文字集合の問題と文字エンコーディングの問題に分類できる。前回は文字集合の取り扱いに起因するぜい弱性について説明したので、今回は文字エンコーディングに起因するぜい弱性について説明しよう。文字エンコーディングに依存する問題をさらに分類すると2種類ある。（1）文字エンコーディングとして不正なデータを用いると攻撃が成立してしまう点と，（2）文字エンコーディングの処理が不十分なためにぜい弱性が生じることがある点だ。不正な文字エンコーディング（1）――冗長なUTF-8符号化問題まず，（1）の不正な文字エンコーディングの代表として，冗長なUTF-8符号化問題から説明しよう。前々回に解説したUTF-8のビット・パターン（表1に再掲）を見ると，コード・ポイントの範囲ごとにビット・パターンが割り当てられているが，ビット・パターン上は，より多くのバイト数を使っても同じコー

tomoemon 2009/03/04

リンク

絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

Unicodeが携帯電話の絵文字を収録へ絵文字ってなに？そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな！　8割の女性は「恋人以外にも使う」』（RBB NAVI）なんていうニュースもありました。携帯電話の個人普及率が9割を上回る（平成20年内閣府消費動向調査）この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

tomoemon 2009/02/28

ここで安岡先生が出てくるとは

リンク

「痴」「稚」が一杯。英語サイトを作ったら文字化け

URLエンコードを求めるには、今まで何度か紹介しています自作Flashフォームを利用します。こちらにあります。左の文字化け一覧から明らかなことは、文字化けするのは「‘（シングルクォテーション）」や「’（アポストロフィー）」、「“（ダブルクォテーション）」であることが分かります。ただ、よく見ると、このアポストロフィーやダブルクォテーション、何だか変です。妙に空白が目立ちます。実は、これは日本語のOSで普通に入力して表示される「'（アポストロフィー）」や「"（ダブルクォーテーション」とは別物です。 iso-8859-1（Latin-1）一覧表を参照していただき、「9」の列に注目してください。グレーになっている部分です。91番（9の列。1の行。LEFT SINGLE QUOTATION MARK）と92番（9の列。2の行。RIGHT SINGLE QUOTATION MARK）、93番（9の

tomoemon 2008/07/24

文字コード

リンク

コマンドプロンプトでUTF-8の文字を表示する - Perl入門ゼミ

Perl › Windows この方法では文字が正しく描画できないようです。(maeyanさんの記事)。わたしの環境でも駄目でした。手順コマンドプロンプトのフォントの変更コマンドプロンプトの文字コードの変更ショートカットから文字コードの自動設定を行う。 Windowsのバージョン Windows XP Home Edition Version 2002 Service Pack 2 で行いました。 1. コマンドプロンプトのフォントの変更コマンドプロンプトを立ち上げる→タイトルバー右クリック →プロパティ→フォントから"MS ゴシック"を選択する。フォントを"MS ゴシック"に変更します。MS ゴシックは、Unicodeに対応するすべての文字を正しく表示できるわけではないですが、一応ユニコードに対応しています。日本語や飾り文字を含む文字を表示することができます。 2. コマン

tomoemon 2008/07/07

　コマンドプロンプト　変更

リンク

Unicode 15.1 Character Code Charts

European Scripts Armenian Armenian Ligatures Carian Caucasian Albanian Cypriot Syllabary Cypro-Minoan Cyrillic Cyrillic Supplement Cyrillic Extended-A Cyrillic Extended-B Cyrillic Extended-C Cyrillic Extended-D Elbasan Georgian Georgian Extended Georgian Supplement Glagolitic Glagolitic Supplement Gothic Greek Greek Extended Ancient Greek Numbers Latin Basic Latin (ASCII) Latin-1 Supplement Latin

tomoemon 2008/06/04

unicode

文字コード

リンク

ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに

UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。また、UnicodeはASCIIだけでなく、Western Europeanもほぼ同時に追い越している。 Unicodeは多くの言語に対応した標準文字コード体系で、発音区別符号などを利用したローマ字なども扱っている。何十年も前に定められたASCIIコードは128文字あるいは256文字（ASCIIで128 文字、拡張ASCIIで256文字）しか表現できず、タイプライターの影響を受けた同文字コードの拡張は苦戦している。 UnicodeがASCIIとWestern Europeanを追い越したのは12月で、双方が追い越された日は10日も違わなかった。 Unicodeの動きについ

tomoemon 2008/05/07

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

文字コードに関するtomoemonのブックマーク (16)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス