[B! unicode] IMAKADOのブックマーク

IMAKADO id:IMAKADO

unicodeに関するIMAKADOのブックマーク (37)

『Q. UTF-8 の冗長性問題は、設計上の問題なのか? - kazuhoのメモ置き場』へのコメント
ブックマークしましたここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください Twitterで共有
IMAKADO 2009/07/24
可能。2バイトパターンの場合は0x80引いた値をセットし，U+0080～U+087Fを割り当てる。3バイトパターンの場合はU+0880～U+1087Fを割り当て，0x880引いた値をセットする。以下同様

unicode

kazuhooku
リンク
Emoji Symbols: Background Data
Background data for Proposal for Encoding Emoji Symbols L2/09-027R Date: 2009-Feb-06 Authors: Markus Scherer, Mark Davis, Kat Momoi, Darick Tong (Google Inc.) Yasuo Kida, Peter Edberg (Apple Inc.) The carrier symbol images in this file point to images on other sites. The images are only for comparison and may change. See the chart legend for an explanation of the data presentation in this chart
IMAKADO 2009/07/01
mobile

emoji

via

irc

unicode

google
リンク
Using Unicode - Catalyst::Wiki
IMAKADO 2009/03/13
catalyst

unicode
リンク
Unicode Character Search
Unicode Character Search Query: include Han codepoints? Cancel A-Z index | Search options
IMAKADO 2009/03/11
webService

unicode
リンク
ウノウラボ Unoh Labs: 文字コードと携帯絵文字
ウノウでは特に最近、積極的にエンジニアを採用しています。ご興味のある方はFind Job !から、ぜひご応募ください！！今年は早くも花粉が舞っているようですね。花粉症にはなりたくないなぁと毎年おびえるyukiです。さて今回は、社内の勉強回で発表した「文字コードと携帯絵文字」のスライドを公開したいと思います。文字コードとは何か、とか、文字集合とは何か、というところから、各キャリアの対応状況や、最近Googleの提唱している「emoji4unicode」について、基礎の部分をさらっと触れている感じです。もしよろしければご覧下さい。文字コードと携帯絵文字
IMAKADO 2009/02/23
mobile

emoji

unicode

presentation

unoh

4
リンク
Perl 5.8.x Unicode関連
-> 趣旨と注意書き -> UTF8フラグ？ -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル趣旨と注意書き Perl 5.8.x のUnicode 関連です。正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。使ってみると、よくわかんなくなったので、ちょっとまとめてみました。今でもあんまりわかってないかもしれないので、内容は無保証です。突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、
IMAKADO 2009/02/15
open/Encode use utf8; と use encodingの違い/JcodeEncode/情報源

unicode

perl

utf-8
リンク
UTF8 フラグあれこれ - daily dayflower
UTF8 フラグについてわかってるつもりだったんですが，utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので，自分なりにまとめてみました。間違いがありましたらご指摘よろしく。まとめスカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがあるスカラー変数は（リファレンス等は別として）下記のものを格納できる (A) 文字列（内部表象: UTF-8） (B) 文字列（内部表象: ISO-8859-1） (C) バイナリ列純粋なバイナリストリーム（画像ファイル等）かもしれないし， UTF-8 octet stream かもしれないし， CP932 octet stream かもしれないし，etc, etc ... Perl は（後方互換性確保などの理由から）ISO-8859-1
IMAKADO 2009/02/15
既存モジュールの戻り値例 Web アプリケーションの開発者として入出力時にエンコーディングを変換する

perl

utf-8

unicode

dayflower
リンク
Using Unicode - Catalyst::Wiki
Prior to version 5.90040 it was required that you load the Catalyst::Plugin::Unicode::Encoding plugin to ensure proper decoding/encoding of incoming request parameters and the outgoing body response respectively. This is done in your MyApp.pm: use Catalyst qw/ -Debug ConfigLoader Unicode::Encoding /; Since that version the Unicode support was added to core by shipping the plugin with Catalyst and
IMAKADO 2009/02/14
catalystでunicode

catalyst

unicode

5

matome
リンク
続:Catalystでマルチバイトを取り扱うときのまとめ - hide-k.net#blog
以前、Catalystでマルチバイトを取り扱うときのまとめという記事を書いたのですが、情報が少し古いので、最近僕がやっている方法を紹介します。この記事では Catalyst 5.7015 Catalyst::View::TT 0.27 Catalyst::Plugin::ConfigLoader 0.22 Catalyst::Plugin::FillInForm 0.10 Catalyst::Plugin::Static::Simple 0.20 Catalyst::Plugin::Unicode 0.8 の環境で紹介しています。また、基本的にDBICに関しては以前の記事の通りDBIx::Class::UTF8Columnsを使うという感じです。まず、こんな感じのアプリケーションを用意します。 MyApp package MyApp; use strict; use warnings
IMAKADO 2009/02/14
catalystでマルチバイト 2009

catalyst

unicode

hide-k

matome

5
リンク
404 お探しのページは移動、削除もしくはURLの入力間違いの可能性があります - まぐまぐ！
お探しのページは移動、削除もしくはURLの入力間違いの可能性があります。まぐまぐ！トップページの検索機能でもう一度お探しください。
IMAKADO 2008/12/29
mule ucs 変換テーブル

emacs

unicode
リンク
Emacs22 + UTF-8 における文脈依存な文字幅の問題について
UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。文字によって幅を変えるプロポーショナルフォントを前提としたテキストであればあまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは表示がガタガタになってしまい問題になります。これらの文字を wide character として判別させるには以下の設定を
IMAKADO 2008/12/29
unicode

emacs
リンク
Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改メ tokuhirom’s blog
Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at
IMAKADO 2008/05/05
encode

unicode

tokuhirom

4

perl

tips
リンク
Unicode正規化
正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。正規分解・互換分解ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ
IMAKADO 2008/05/03
正規化

unicode

yomimono
リンク
Unicode - 似た文字同士にご用心 : 404 Blog Not Found
2008年05月02日04:00 カテゴリLightweight Languages Unicode - 似た文字同士にご用心後者はハイフンでなくてマイナス記号でんがな。 [を] UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだで、元のテキストファイルの全角ハイフンを「od -t x1」で見てみると「ef bc 8d」と「e2 88 92」の２種類が混じっていました。前者は「\p{Hyphen}」にマッチするのですが後者はダメ。まあ原因は分かったので、前処理でバイナリ置換して解決しました。で、紛らわしそうなのを名前のHYPHENとMINUS SIGNでgrepするとこんな感じになる。 egrep '(HYPHEN|MINUS SIGN)' /usr/local/lib/perl5/5.10.0/unicore/Name.pl -002DHYPHEN-MI
IMAKADO 2008/05/02
unicode

zenkaku

dan

regexp

perl

4
リンク
文字コードと文化と言語 - 川口耕介のブログ
UTF8がデフォのほうがましですね。最近はクロスプラットフォームを考慮してソース等はすべてUTF8で扱うことが多いですから。日本語環境悪化か - しんさんの出張所はてな編実は自分の作ったMaven2プロジェクトはUTF-8を指定しているか日本語を使っていないものばかりなので、自分は当事者ではないのだけど。 http://nekop.programmers.jp/diary/?date=20080428 僕が日本にいた頃は、専らVisual C++とかJavaのソースコードといえばShift JISで書くのが普通だった。WindowsではShift JIS、Unix上はEUCという棲み分けができていたから、cvsのEOL処理と同様に文字コードをコンバートしてリポジトリに保管するためのパッチが書かれていたりした（そうしないと両方で編集できない）。Unicodeはあったはずだが、普及してい
IMAKADO 2008/05/01
encode

unicode

charset

yomimono
リンク
Unicode 4.1.0 Chart
Type or paste in either a code point (such as 0061) or a single character (such as A or Θ). Click Find to produce a chart containing that character. Clicking on the right or left arrows gets the next or previous chart. Picking the block sets the current character to the start of the block, and outlines characters in the block. The characters cells are colored by type, as shown here. The character
IMAKADO 2008/04/30
javascript

unicode

tool
リンク
WebKit の改行問題を直した - Psychs's blog
WebKit の改行位置がおかしい問題について。結論としては、パッチは無事受け入れられ、改行位置がおかしかった問題は解決した。 http://trac.webkit.org/projects/webkit/changeset/30592 深追いしてみると、 WebKit は ICU の line break iterator を使っている ICU は Unicode 5.0 の改行アルゴリズムを正確に実装しているだけつまり、Unicode 標準の問題ということがわかった。そこで、Unicode ML で議論した結果、WebKit の中の人も納得してくれて、パッチを受け入れてくれるという結果につながった。みんな自分の使ってるアプリにバグを見つけたら、文句言ってないで、どんどんレポートすればいいと思う。そうすれば、自分もバグが直ったアプリを使えるし、自分以外の誰かの役にも立てるよ
IMAKADO 2008/04/02
unicode

webkit

bug
リンク
Perl (5.8) での文字列の内部表象について返信 - daily dayflower
UTF8 フラグあれこれ - daily dayflower について nobuoka さんよりツッコミをいただきました。 nobuoka 2008/03/11 21:15 こんにちは。”[Perl] Perl の Unicode 対応について” のエントリでトラックバックさせて頂きました nobuoka です。内部表象 (内部形式: internal format) について気になる点があったのでいろいろ調べていたのですが、「内部形式は UTF-8 ではなく Unicode コードポイントをバイナリ化したものである」という結論に達しました。たとえば「é」という文字は内部形式では￥xE9 というバイナリデータとして保持されているという結論に達しました。それは utf8 フラグが付いていても付いていなくても同様です。つまり、このエントリで述べられている (A) 文字列（内部表象: UT
IMAKADO 2008/04/01
perl

unicode

yomimono

language
リンク
Linux JF (Japanese FAQ) Project. (Japanese)
JF は、Linux に関する解説文書・FAQ などを作成・収集・配布するプロジェクトです。JF は, Linux に関する解説文書・FAQ などを作成・収集・配布するプロジェクトです. オリジナル文書 (日本語) の執筆, LDP (Linux Documentation Project) の HOWTO や Linux カーネル付属文書の翻訳などを行っています. この Web Site では, JF の活動成果である 300 を超える文書が閲覧できます.
IMAKADO 2008/03/26
japanese

linux

document

reference

5

unicode
リンク
apacheは%uでエンコードされたURIを受け取ってくれない « ku
- 4 users
- ido.nu
- 暮らし
はてなブックマークの日本語URLの扱いがへんな件関連。どこかで、URLに日本語入れるならunicodeで書くといいよ、という話を読んだきがするんだけどどこかわかんない。 UTF-8だと、もともと2バイトですむものも3バイトになって、さらにそれが1バイトずつ%XXの形式にエスケープされて3倍になるのですごく長くなるけど、escapeを使えばunicodeのまま%uXXXXとエスケープされるので短くなるよ、と書いてあった。前者だとN文字の日本語が (N * 3) * 3 なのに対して、後者は N * 6 なので 2/3 の長さになる。というわけでやってみたらapacheはそもそも%uXXXX形式はうけつけてくれなくてBad Requestがでてくる。設定したら変わるかなー、と思いながらソースをのぞいてみたら %[a-fA-F0-9]{2} にマッチしないのは問答無用でHTTP_B
IMAKADO 2008/03/04
apache

encode

unicode

uri
リンク
1 2 次のページ