タグ

unicodeに関するIMAKADOのブックマーク (37)

  • 『Q. UTF-8 の冗長性問題は、設計上の問題なのか? - kazuhoのメモ置き場』へのコメント

    ブックマークしました ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください Twitterで共有

    『Q. UTF-8 の冗長性問題は、設計上の問題なのか? - kazuhoのメモ置き場』へのコメント
    IMAKADO
    IMAKADO 2009/07/24
    可能。2バイトパターンの場合は0x80引いた値をセットし,U+0080~U+087Fを割り当てる。3バイトパターンの場合はU+0880~U+1087Fを割り当て,0x880引いた値をセットする。以下同様
  • Emoji Symbols: Background Data

    Background data for Proposal for Encoding Emoji Symbols L2/09-027R Date: 2009-Feb-06 Authors: Markus Scherer, Mark Davis, Kat Momoi, Darick Tong (Google Inc.) Yasuo Kida, Peter Edberg (Apple Inc.) The carrier symbol images in this file point to images on other sites. The images are only for comparison and may change. See the chart legend for an explanation of the data presentation in this chart

  • Using Unicode - Catalyst::Wiki

  • Unicode Character Search

    Unicode Character Search Query: include Han codepoints? Cancel A-Z index | Search options

  • ウノウラボ Unoh Labs: 文字コードと携帯絵文字

    ウノウでは特に最近、積極的にエンジニアを採用しています。 ご興味のある方はFind Job !から、ぜひご応募ください!! 今年は早くも花粉が舞っているようですね。花粉症にはなりたくないなぁと毎年おびえるyukiです。 さて今回は、社内の勉強回で発表した「文字コードと携帯絵文字」のスライドを公開したいと思います。文字コードとは何か、とか、文字集合とは何か、というところから、各キャリアの対応状況や、最近Googleの提唱している「emoji4unicode」について、基礎の部分をさらっと触れている感じです。もしよろしければご覧下さい。 文字コードと携帯絵文字

  • Perl 5.8.x Unicode関連

    -> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル 趣旨と注意書き Perl 5.8.x のUnicode 関連です。 正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。 使ってみると、よくわかんなくなったので、ちょっとまとめてみました。 今でもあんまりわかってないかもしれないので、内容は無保証です。 突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

    IMAKADO
    IMAKADO 2009/02/15
    open/Encode use utf8; と use encodingの違い/JcodeEncode/情報源
  • UTF8 フラグあれこれ - daily dayflower

    UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象: UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし, UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc, etc ... Perl は(後方互換性確保などの理由から)ISO-8859-1

    UTF8 フラグあれこれ - daily dayflower
    IMAKADO
    IMAKADO 2009/02/15
    既存モジュールの戻り値例 Web アプリケーションの開発者として 入出力時にエンコーディングを変換する
  • Using Unicode - Catalyst::Wiki

    Prior to version 5.90040 it was required that you load the Catalyst::Plugin::Unicode::Encoding plugin to ensure proper decoding/encoding of incoming request parameters and the outgoing body response respectively. This is done in your MyApp.pm: use Catalyst qw/ -Debug ConfigLoader Unicode::Encoding /; Since that version the Unicode support was added to core by shipping the plugin with Catalyst and

    IMAKADO
    IMAKADO 2009/02/14
    catalystでunicode
  • 続:Catalystでマルチバイトを取り扱うときのまとめ - hide-k.net#blog

    以前、Catalystでマルチバイトを取り扱うときのまとめという記事を書いたのですが、情報が少し古いので、最近僕がやっている方法を紹介します。 この記事では Catalyst 5.7015 Catalyst::View::TT 0.27 Catalyst::Plugin::ConfigLoader 0.22 Catalyst::Plugin::FillInForm 0.10 Catalyst::Plugin::Static::Simple 0.20 Catalyst::Plugin::Unicode 0.8 の環境で紹介しています。 また、基的にDBICに関しては以前の記事の通りDBIx::Class::UTF8Columnsを使うという感じです。 まず、こんな感じのアプリケーションを用意します。 MyApp package MyApp; use strict; use warnings

    IMAKADO
    IMAKADO 2009/02/14
    catalystでマルチバイト 2009
  • 404 お探しのページは移動、削除もしくはURLの入力間違いの可能性があります - まぐまぐ!

    お探しのページは移動、削除もしくはURLの入力間違いの可能性があります。 まぐまぐ!トップページの検索機能でもう一度お探しください。

    IMAKADO
    IMAKADO 2008/12/29
    mule ucs 変換テーブル
  • Emacs22 + UTF-8 における文脈依存な文字幅の問題について

    UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、 矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。 下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。 文字によって幅を変えるプロポーショナルフォントを前提としたテキストであれば あまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは 表示がガタガタになってしまい問題になります。 これらの文字を wide character として判別させるには以下の設定を

  • Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改メ tokuhirom’s blog

    Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

    IMAKADO
    IMAKADO 2008/05/03
    正規化
  • Unicode - 似た文字同士にご用心 : 404 Blog Not Found

    2008年05月02日04:00 カテゴリLightweight Languages Unicode - 似た文字同士にご用心 後者はハイフンでなくてマイナス記号でんがな。 [を] UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ で、元のテキストファイルの全角ハイフンを「od -t x1」 で見てみると「ef bc 8d」と「e2 88 92」の2種類が混じっていました。 前者は「\p{Hyphen}」にマッチするのですが後者はダメ。 まあ原因は分かったので、前処理でバイナリ置換して解決しました。 で、紛らわしそうなのを名前のHYPHENとMINUS SIGNでgrepするとこんな感じになる。 egrep '(HYPHEN|MINUS SIGN)' /usr/local/lib/perl5/5.10.0/unicore/Name.pl -002DHYPHEN-MI

    Unicode - 似た文字同士にご用心 : 404 Blog Not Found
  • 文字コードと文化と言語 - 川口耕介のブログ

    UTF8がデフォのほうがましですね。最近はクロスプラットフォームを考慮してソース等はすべてUTF8で扱うことが多いですから。 日語環境悪化か - しんさんの出張所 はてな編 実は自分の作ったMaven2プロジェクトUTF-8を指定しているか日語を使っていないものばかりなので、自分は当事者ではないのだけど。 http://nekop.programmers.jp/diary/?date=20080428 僕が日にいた頃は、専らVisual C++とかJavaのソースコードといえばShift JISで書くのが普通だった。WindowsではShift JIS、Unix上はEUCという棲み分けができていたから、cvsのEOL処理と同様に文字コードをコンバートしてリポジトリに保管するためのパッチが書かれていたりした(そうしないと両方で編集できない)。Unicodeはあったはずだが、普及してい

    文字コードと文化と言語 - 川口耕介のブログ
  • Unicode 4.1.0 Chart

    Type or paste in either a code point (such as 0061) or a single character (such as A or Θ). Click Find to produce a chart containing that character. Clicking on the right or left arrows gets the next or previous chart. Picking the block sets the current character to the start of the block, and outlines characters in the block. The characters cells are colored by type, as shown here. The character

  • WebKit の改行問題を直した - Psychs's blog

    WebKit の改行位置がおかしい問題 について。 結論としては、パッチは無事受け入れられ、改行位置がおかしかった問題は解決した。 http://trac.webkit.org/projects/webkit/changeset/30592 深追いしてみると、 WebKit は ICU の line break iterator を使っている ICU は Unicode 5.0 の改行アルゴリズム を正確に実装しているだけ つまり、Unicode 標準の問題 ということがわかった。 そこで、Unicode ML で議論した結果、WebKit の中の人も納得してくれて、パッチを受け入れてくれるという結果につながった。 みんな自分の使ってるアプリにバグを見つけたら、文句言ってないで、どんどんレポートすればいいと思う。そうすれば、自分もバグが直ったアプリを使えるし、自分以外の誰かの役にも立てるよ

    WebKit の改行問題を直した - Psychs's blog
  • Perl (5.8) での文字列の内部表象について返信 - daily dayflower

    UTF8 フラグあれこれ - daily dayflower について nobuoka さんよりツッコミをいただきました。 nobuoka 2008/03/11 21:15 こんにちは。”[Perl] Perl の Unicode 対応について” のエントリでトラックバックさせて頂きました nobuoka です。 内部表象 (内部形式: internal format) について気になる点があったのでいろいろ調べていたのですが、「内部形式は UTF-8 ではなく Unicode コードポイントをバイナリ化したものである」という結論に達しました。たとえば「é」という文字は内部形式では ¥xE9 というバイナリデータとして保持されているという結論に達しました。それは utf8 フラグが付いていても付いていなくても同様です。 つまり、このエントリで述べられている (A) 文字列(内部表象: UT

    Perl (5.8) での文字列の内部表象について返信 - daily dayflower
  • Linux JF (Japanese FAQ) Project. (Japanese)

    JF は、Linux に関する解説文書・FAQ などを作成・収集・配布するプロジェクトです。JF は, Linux に関する解説文書・FAQ などを作成・収集・配布するプロジェクトです. オリジナル文書 (日語) の執筆, LDP (Linux Documentation Project) の HOWTO や Linux カーネル付属文書の翻訳などを行っています. この Web Site では, JF の活動成果である 300 を超える文書が閲覧できます.

  • apacheは%uでエンコードされたURIを受け取ってくれない « ku

    はてなブックマークの日語URLの扱いがへんな件 関連。 どこかで、URLに日語入れるならunicodeで書くといいよ、という話を読んだきがするんだけどどこかわかんない。 UTF-8だと、もともと2バイトですむものも3バイトになって、さらにそれが1バイトずつ%XXの形式にエスケープされて3倍になるのですごく長くなるけど、escapeを使えばunicodeのまま%uXXXXとエスケープされるので短くなるよ、と書いてあった。 前者だとN文字の日語が (N * 3) * 3 なのに対して、後者は N * 6 なので 2/3 の長さになる。というわけでやってみたらapacheはそもそも%uXXXX形式はうけつけてくれなくてBad Requestがでてくる。 設定したら変わるかなー、と思いながらソースをのぞいてみたら %[a-fA-F0-9]{2} にマッチしないのは問答無用でHTTP_B