[B! unicode] nhayatoのブックマーク

UAX #15: Unicode Normalization Forms

Summary This annex describes normalization forms for Unicode text. When implementations keep strings in a normalized form, they can be assured that equivalent strings have a unique binary representation. This annex also provides examples, additional specifications regarding normalization of Unicode text, and information about conformance testing for Unicode normalization forms. Status This documen

nhayato 2013/10/13

unicode

リンク

Unicode―文字コード入門―

Unicodeとは多くの国でコンピュータが利用されるようになってきて、文字を扱うための仕組みである文字コードも、その国の数だけ増えていく状態であり、情報交換のために様々な不都合が生ずるようになってきました。また、企業の側でも各国個別の言語に合わせたソフトウェアを開発するためには膨大なコストが必要なため、これを解消する手段が求められるようになってきたのです。そこでこの問題を解消すべく、IBM、Microsoft、Apple等が加盟（他のメンバーについてはこちらを参照）するNGOであるUnicodeコンソーシアムが中心となって、全ての文字を16ビット（65536文字）に収録してしまおうという、野心的な多重言語文字セット規格の制定を企図していました。またそれとは別に、国際標準化機構（ISO）が、世界中の主要な文字を一括して扱う多重言語文字セット規格を開発していました。国際規格が複数制定される

nhayato 2012/12/05

unicode

リンク

Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

もうすぐお正月だし、こんな図を作ってみたんだけどね。十二支ですか？　いろんな国の十二支？そうそう。実はこれ全部、「どこの国の十二支の何番目の動物」という情報まで含めて、Unicodeのコードチャートに載ってるものなんだよね。いちばん左の列が標準的な十二支ってことですね。うん。日本だと、12番目のイノシシだけが独自仕様だな。それが標準仕様だとブタ。カザフスタンでは、来年の干支はカタツムリですか。よくわからないけど、そうなのかな。このペルシアのネズミは、どうして小さいんですか？　標準仕様のネズミの絵を縮小したみたいに見えますけど。それはネズミの種類が違うんだよ。ドブネズミとハツカネズミ。え？　でもこれ、文字なんだから、たとえばゾウでもアリでも同じ大きさに描かれるものですよね。原則は、そうだね。じゃあ、どうしてドブネズミを縮小したのがハツカネズミなんですか？まあ、ちょっと

nhayato 2011/12/28

リンク

text.ssig33.com - UTF-8-Mac と git によって発生する問題に打ち勝った。

UTF-8-Mac と git によって発生する問題に打ち勝った。これまで僕は仕事では主に Linux マシンを用いていたのだけど、先日 MacBook Air の 11 インチのやつを買ったのでせっかくだしこれを仕事に使いたくなった。ところで Mac OSX ではファイル名は UTF-8-Mac という素敵な文字コードで記録されており、一般的には NFC で符号化されているのに、こいつは NFD で符号化されている。極簡単に説明すると、濁点と半濁点が分かち書きされている、つまりがという文字をか + ゛として記録されている。これでどのような問題が発生するかというと Linux 上で mkdir test cd test touch がぎぐげご git init git add -A git commit -m test というふうにして作ったリポジトリを Mac に clo

nhayato 2011/08/08

リンク

Perl/Unicode - BugbearR's Wiki

2017-04-16 FreeBSD/mpd 2016-12-23 RecentDeleted Blogアプリ日記 2016-11-17 本当にあった怖いコード/1 2016-05-16 .NET 2015-07-06 書きたいこと 2015-07-05 postgres Java/変数の初期化に安易に空オブジェクトを代入しない 2015-06-30 PukiWiki/1.4/マニュアル/プラグイン/u 本当にあった怖いコード/15 2014-10-01 日記/2014-10-01 2014-09-09 日記/2014-09-09 2014-08-13 日記/2014-08-10 2014-05-28 バグパターン/日時バグパターン 2014-04-13 IPv6 2014-03-20 パスワード問題 2014-01-27 DNS/ルートサーバーは13台という神話 2014-01-25

nhayato 2011/06/29

リンク

bayashi.net

{{tag: go, test, testing, actually }} actually は Go の testing ライブラリです。明示的なインターフェースと一貫性の高いメソッド群、そしてメンテナンスやリファクタリングの際に力を発揮するフェイルレポートを備えています。 [[https://github.com/bayashi/actually ac... つづきを読む

nhayato 2011/06/29

リンク

文字コードを自動判別するモジュール Unicode::Japanese - Perl勉強メモ　アルパカDiary出張版

Unicode::Japanese 文字コードを自動判別するのに Encode::Guess＋Jcodeで行っていたのですが、このモジュール使うとよさげなロジックで判別してくれそう。こんな感じかな。 use Unicode::Japanese; my $s = Unicode::Japanese->new(); my $code = $s->getcode("ほげほげ"); print $code,"\n"; 日本語ドキュメントもあるのでご参照ください。 http://search.cpan.org/~hio/Unicode-Japanese-0.47/lib/Unicode/Japanese/JA.pod

nhayato 2011/06/28

perl
unicode

リンク

Twitter時代の文字の数え方 | 配電盤

入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」（任意の文字からなる0から3文字）のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記：javascript – でBMP以外のUnicode文字をきちんと扱う（404 Blog Not Found） JavaScriptでは、文字列strの長さをst

nhayato 2011/06/21

リンク

perlunifaq - Perl Unicode FAQ - perldoc.jp

This is a list of questions and answers about Unicode in Perl, intended to be read after perlunitut. これは、perlunitut の後で読むことを想定した、Perl での Unicode に関する質問と答えの一覧です。 perlunitut は実際には Unicode チュートリアルじゃないんじゃないの?¶

nhayato 2011/06/17

リンク

デバッグより重要なもの : 404 Blog Not Found

2009年04月02日16:00 カテゴリCodeArt デバッグより重要なものこの話題、すっかり乗り遅れてしまった。 2009-03-22 - 未来のいつか/hyoshiokの日記プログラミング入門書では、デバッグについて、ほとんど議論されていないし、仮にふれられていても、おざなりな方法というか、かなり邪険にあつかわれていたりする。プログラマの多くの時間がデバッグについやされていたとしてもだ。あえていわせていただく。コードはデバッグできるだけはるかにましなのだ、と。printfを使うかどうかなんぞ、その問題と比べれば屁ですらないのだと。デバッグよりもはるかに重要なもの、それはデータ構造の選定。ここで一歩間違えると、バグが仕様化し、デバッグどころかバグにあわせてプログラムを書かねばならぬ羽目になる。その最も顕著な例が、Unicodeだろう。最初の設計を間違えたおかげで、最新のソ

nhayato 2011/06/16

リンク

UnicodeとUTF-8の違いは？ - 自分的まとめ - Humanity

UnicodeとUTF-8の違いは？ - Humanityはあんなに反響があるとは思わなかった。ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact

nhayato 2011/06/16

リンク

utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

nhayato 2011/06/16

リンク

Unicodeは文字集合か符号化方式か : 404 Blog Not Found

2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。文字コード規格の基礎：ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合，文字の集合エンコード方法という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが，ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。まずUnic

nhayato 2011/06/16

リンク

Perl 5.8.x Unicode関連

-> 趣旨と注意書き -> UTF8フラグ？ -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル趣旨と注意書き Perl 5.8.x のUnicode 関連です。正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。使ってみると、よくわかんなくなったので、ちょっとまとめてみました。今でもあんまりわかってないかもしれないので、内容は無保証です。突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

nhayato 2011/06/14

リンク

UTF8 フラグあれこれ - daily dayflower

UTF8 フラグについてわかってるつもりだったんですが，utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので，自分なりにまとめてみました。間違いがありましたらご指摘よろしく。まとめスカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがあるスカラー変数は（リファレンス等は別として）下記のものを格納できる (A) 文字列（内部表象: UTF-8） (B) 文字列（内部表象: ISO-8859-1） (C) バイナリ列純粋なバイナリストリーム（画像ファイル等）かもしれないし， UTF-8 octet stream かもしれないし， CP932 octet stream かもしれないし，etc, etc ... Perl は（後方互換性確保などの理由から）ISO-8859-1

nhayato 2011/06/14

リンク

UnicodeとUTF-8の違いは？ - Humanity

という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/

nhayato 2011/06/14

リンク

Unicode正規化とtmuxと私 - 岸辺のAlbum

結論 Mac OS Xでtmuxを使っているのだが，濁点と半濁点が表示されなくて若干困ってる．環境 Mac OS X 10.6.7 tmux @1.4_2*1 zsh-devel @4.3.11_0+mp_completion+pcre $LANG = ja_JP.UTF-8 経緯元はといえば標準出力で，濁点のついた日本語文字列を表示させてたところ，何故か濁点が表示されなかった．大した問題ではなかったため，素通りしていたもののなぜこのようなことになるか，疑問に思ったため調べてみたが，同じような事例がさっぱり見当たらないため記事にする．ついでにWebを調べてわかった範囲を記載しておく．問題の同定まず，tmuxを使っているため，この症状がでていると考えたため， tmux上でファイル名に濁点の入るファイルを作り，lsで表示させた．次にtmuxを抜け，標準状態のiTerm2でもl

nhayato 2011/05/12

リンク

Unicode正規化日本語訳の混乱

日本のユーザがUnicode正規化で混乱する原因のひとつに「日本訳語が定まっていない」という現状があります。その最たるものが、この２つです。 Combining 複数文字の組み合せで１文字を表現していること ...Unicode正規化日本語訳の混乱日本のユーザがUnicode正規化で混乱する原因のひとつに「日本訳語が定まっていない」という現状があります。その最たるものが、この２つです。 Combining 複数文字の組み合せで１文字を表現していること Composition 複数文字で表現された１文字を単一コードの１文字にすることこの２つ、意味がまったく異なるのですが、日本語訳では辞書的に「結合」「合成」のどちらも使えてしまいます。しかしUnicode用語として意味が違うのですから、日本語でもちゃんと訳語を分けておきたいところです。この２つの訳語を選定するには、他の語もあわせ

nhayato 2011/05/12

unicode

リンク

perlunitut - Perl における Unicode のチュートリアル - perldoc.jp

The days of just flinging strings around are over. It's well established that modern programs need to be capable of communicating funny accented letters, and things like euro symbols. This means that programmers need new habits. It's easy to program Unicode capable software, but it does require discipline to do it right. 文字列を単に放り出す日々は終わりました。最近のプログラムでは変わったアクセントのついた文字や、ユーロのマークのようなものを通信出来る必要があることが確

nhayato 2011/05/12

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

unicodeに関するnhayatoのブックマーク (19)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス