タグ

unicodeに関するj0hnのブックマーク (32)

  • Unicode の雪だるま - bkブログ

    Unicode の雪だるま Unicode Snowman for You というサイトを知りました。Unicode の雪だるま (U+2603 SNOWMAN ☃) が表示されるだけのサイトです。が、ソースを見ると font-face で EOT 形式のウェブフォントが使われていることに気づきました。 この EOT (Embedded Open Type) 形式のウェブフォントは IE しか対応していないようです。IE で表示するとこのような雪だるまが表示されました。これはおそらく Arial Unicode MS の雪だるまです。ちょっとこわいような。。 一方、他のブラウザで表示すると、このような雪だるまが表示されました。これは私がデフォルトのフォントに設定しているメイリオの雪だるまです。これはかわいい。意外なところにも力が入っています。

    j0hn
    j0hn 2009/12/24
  • 6/10 東京メトロの北朝鮮的体質 - きょうも歩く

    東京メトロの新人事案を見る。 会長と社長の字が今どき倍角(死語)に。どんな独裁会社なんだろう、と思ってしまう。 前から東京メトロの社告のようなHPで、社長の名前だけ二倍角になっていて、どうもそれが文字ではなくて、外字かグラフィックとして作られていて、それだけが目立って、不自然に思う。 北朝鮮も、国内新聞では金正日や金日成の字だけゴシック体にしているという。こういうことをして恥ずかしくないのかと思う。 そもそも、東京メトロの株主はJRと東京都。東京都ということは東京都民の会社であるということではないか。会長と社長は自分の名前を倍角で誇示して何様かと思う。人減らしと配当金の増加ばっかりやって、結果として遅延や不正確な運行が日常化している経営者が偉そうだと思う。

    6/10 東京メトロの北朝鮮的体質 - きょうも歩く
    j0hn
    j0hn 2009/06/17
    ブラウザの字を拡大して、会長・社長の画像より大きくすれば問題解決 / 「梅﨑壽」社長はいまどきのパソコンだったらでそうだけど。(検索するといっぱいヒットするし) / ↓確かに同じになりますね!
  • 草なぎ剛くんについて重大なお知らせ - rna fragments

    大好きな草なぎ剛くんについてデマが流れているので…! fut573 メモ:『彅』弓+剪はJISにないので、windows以外の環境では正常に表示されない場合が多く、ネット上では使わない事を推奨されている文字の一つである。 へー 2009/04/23 はてなブックマーク - 草なぎ剛、公然わいせつ容疑で逮捕(サンケイスポーツ) - Yahoo!ニュース 「なぎ」の文字コードに関しては JIS コード(JIS X 0208)では外字になってしまいますが、Unicode では CJK 統合漢字に含まれるちゃんとした文字です。HTML や XML で使う場合は文字実体参照文字参照*1を使って彅(または 彅)のようにして表現できます。*2 表示に関しては今時の OS なら大抵大丈夫です。Mac OS X の標準フォントでも Linux で広く使われている IPA フォント

    草なぎ剛くんについて重大なお知らせ - rna fragments
    j0hn
    j0hn 2009/04/23
    「Unicode では CJK 統合漢字に含まれるちゃんとした文字です」
  • 携帯電話の絵文字は文字なのか? - もじのなまえ

    11月27日のエントリ、「Googleが携帯電話の絵文字をUnicodeに提案」はびっくりするほど多くの人に読んでいただけました。ブログだけでなく、Google Blogの該当エントリ「絵文字のユニコード符号化: 符号化提案用のオープンソースデータ」にある「この投稿へのリンク」なんかをみると、当にたくさんの人たちがこの話題に言及していることが分かります。まさに旬の話題なのでしょう。 ところで、案外と語られていないみたいですが、携帯電話の絵文字って、当に文字なんでしょうか? ちょっとこれについて書き留めておこうと思います。自分でもまだよくまとまっていないので、乱雑なメモ書きですが。 そもそも「文字」ってなんでしょう? その定義を調べれば、携帯の絵文字がそこに含まれるか分かるはずです。まず参照しやすいところでウィキペディアを引いてみましょうか。ここでは冒頭で次のように定義しています。 文

    携帯電話の絵文字は文字なのか? - もじのなまえ
    j0hn
    j0hn 2008/12/08
    面白い / pictogramとか ideogramとか。
  • 絵文字の符号化は何が難しいのか? - Cafe Babe

    安岡先生から,さっそく「以前『ケータイの絵文字と文字コード』(情報管理, 2007年5月)を書いたときに、ざっと対応表を作りかけて、結局、挫折した覚えがあるんですけど…。だって、動く絵文字があるんですもの。」という素晴らしい的確な突っ込みが入った.実は,絵文字の符号化にはいくつかの難しい問題がある.それをざっと列挙してみよう. 各キャリアの絵文字はほぼ独立に開発されているので,必ずしも一対一対応していないし,冗長性があるし,round trip conversionが定義できない場合もある.同一キャリアに対してround trip conversionを定義するのは容易だが,キャリア間の変換を定義するのは難しい. 絵文字はUnicodeでは私用領域(Private Use Area)に割り当てられている. 絵文字はアニメーションするものがある(爆) 絵文字には色の区別がある.しかし,今まで

    絵文字の符号化は何が難しいのか? - Cafe Babe
    j0hn
    j0hn 2008/11/28
  • UTF-7でXSSを発生させる10の方法 - UTF-7でXSSを発生させる10の方法

    ちょっと書いてみました。毎回毎回、UTF-7に変換してURLエンコードして…とかするのがめんどくさいので、よく使うパターンを書いていこうと思います。 UTF-7 XSS Cheat Sheet 今日は眠いのでここまで。他のパターンとか解説を書き加えて、随時更新していきます。

    UTF-7でXSSを発生させる10の方法 - UTF-7でXSSを発生させる10の方法
  • Vistaで化ける字,化けない字

    11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで,“文字化け”が起こるらしい。文字化けといっても,Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく,その多くは似た文字が表示される程度である。ここでは,来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは,Windows 98日語版の発売以来,Windows 2000,Windows Me,Windows XPまでCP932(名はWindows Codepage 932,いわゆるMS漢字コード)とJIS X 0212をサポートしてきたが,最新のWindows VistaではJIS X 0213に乗り換えた。いや,乗り換えたというのは,ちょっと語弊がある。CP932とJIS X 0212に加えて,JIS X 0213もサ

    Vistaで化ける字,化けない字
  • http://openmya.hacker.jp/hasegawa/public/20071107/s6/h6.html?file=data.txt

  • びぼうろく―JIS2004日本語文字セット規格参加者は全員、頭を丸めて土下座せよ (コメント欄)

    この日の私の心無い投稿により、関係者の皆様にたいへん不愉快な思いをさせました事、深くお詫びします。 今日のネタは工学の話でも文学の話もない。 今日のネタを私がどのカテゴリに分類したのかを意識して読んで欲しい。 私は、JIS2004日語文字セットの規格(JIS X 0213:2004)は廃棄すべきであり、JIS2004で追加・変更された文字は、既存の文字コードに割り当てられた文字の字形を変えるべきではなく、Unicodeに追加するだけでお茶を濁すべきだと進言します。 サロゲートペアの問題を取り沙汰す人もいるが、これだけITの処理能力・情報量・伝達速度が伸びている中で、文字長が長くなる事に何を抵抗してるんだか。 ややこしいと思ったら全ての文字をサロゲートペアにしろよ、バカ(笑) 人の名前は人格を表します。 なので、その真名を勝手に変更するような規格の改悪は人格を否定する

    j0hn
    j0hn 2007/10/05
    コメ欄で安岡孝一さんが怒っている
  • Emacs22 UTF-8 における文脈依存な文字幅の問題について

    UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、 矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。 下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。 文字によって幅を変えるプロポーショナルフォントを前提としたテキストであれば あまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは 表示がガタガタになってしまい問題になります。 これらの文字を wide character として判別させるには以下の設定を

    j0hn
    j0hn 2007/10/03
  • Unicode Character Search

    Unicode Character Search Query: include Han codepoints? Cancel A-Z index | Search options

  • Unicode の文字列をソースコードに埋め込む方法 - bkブログ

    Unicode の文字列をソースコードに埋め込む方法 Unicode の文字列をソースコードに埋め込む場合、直接 UTF-8 などで文字列を書く方法と、\uXXXX などのようにエスケープして表記する方法があります。後者の方法についてまとめてみました。 \uXXXX 形式の場合 Java, JavaScript, Python, C++, C (C99から) などの多くの言語では \uXXXX という表記 (universal character names) でUnicode の文字を文字列の中に埋め込めます。たとえば、「あいう」は "\u3042\u3044\u3046" となります。 \uXXXX で埋め込んだ文字がどのように解釈されるかは言語や処理系によって異なります。 gcc/g++ の場合、 -fexec-charset オプションで、実際に使う文字セット・エンコーディングを指

    j0hn
    j0hn 2007/09/09
  • ウノウラボ Unoh Labs: Mac OS X上のUnicode

    Firefoxは内部的に変換処理を行うようになっているようです。 問題はSafariとOperaですね。 選択されたファイルのパスからJavaScriptで ファイル名を抜き出してタイトルに設定する部分で、 正しく扱えるような文字コードに変換することにしたいと思います。 基的な流れとしては、UTF-8-MAC特有の「U+3099」(COMBINING KATAKANA-HIRAGANA VOICED SOUND MARK)、 「U+309A」(COMBINING KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK)がファイル名に含まれている場合は、 その前の文字と結合して濁音・半濁音の文字にしてあげればいいでしょう (ひらがな・カタカナのみの暫定的な対処に過ぎませんが)。 変換用の文字テーブルを用意して、逐一変換していくかたちにしたいと思います。 というわけ

  • UTN #27: Known anomalies in Unicode Character Names

    j0hn
    j0hn 2007/08/04
  • 葉っぱ日記 - レジストリの HKCR¥MIME¥Database¥charset 以下に定義されています。

    UTF-7を利用したXSSは、charset が指定されていない場合に発生すると考えられていますが、少なくとも Internet Explorer においては、これは大きな間違いです。正しくは、Internet Explorer が認識できる charset が指定されていない場合であり、charsetが付加されていても、IEが認識できない文字エンコーディング名である場合にはXSSが発生します。 例えば、次のような HTML は(HTTPレスポンスヘッダで charset が明示されていない場合)IEが文字エンコーディング名を正しく認識できないため、その内容からUTF-7と解釈されるためにスクリプトが動作します。"utf8"という表記はUTF-8の慣用的な表現ではありますが、ハイフンが抜けており正しい表記ではありません。 <html> <head> <meta http-equiv="Co

    葉っぱ日記 - レジストリの HKCR¥MIME¥Database¥charset 以下に定義されています。
  • 日本語で確実に使える約物 via Unicode : 404 Blog Not Found

    2007年05月23日17:30 カテゴリLogos 日語で確実に使える約物 via Unicode こちらに触発されて。 日語と英語でよく使う約物の種類と名称 | コリス 以下のperl scriptに前処理をさせました。 #!/usr/local/bin/perl use strict; use warnings; use Encode; use Unicode::UCD; my $sjis = find_encoding('shiftjis'); my $eucjp = find_encoding('eucjp'); binmode STDOUT, ':utf8'; print "<table>\n"; for my $ord (0..0xD7FF,0xE000..0xFFFE){ my $sjischr; # check if it can be printed in gene

    日本語で確実に使える約物 via Unicode : 404 Blog Not Found
  • ここギコ!: アイヌ語翻訳Google云々は無理だ

    Posted by nene2001 at 14:02 / Tag(Edit): ainu language google technology / 0 Comments: Post / View / 0 TrackBack / Google Maps Googleさんの技術でアイヌ語訳ができないだろうか みたいな記事書きましたが、その後追ってみるとどう考えたって無理ですねこれ。 金成マツノート -Gymnopedies- ザッと調べたところで解ったことは、アイヌ語の翻訳作業自体が困難であるということかな。 上記リンクのブログにあるように、アイヌ語は文字として残っていないので、同一語でも地域差があった場合にそれを同定することのが非常に難しいのだそうだ。 となると、やはり現地採集による広域使用言語の推移を体系化することと特定地域の平準化作業をせねばならなくなる。 わけだが

    j0hn
    j0hn 2007/04/02
    翻訳云々はともかくとして、日本の文字コードにはアイヌ語用のカナが入ってたりするらしいという話を昔どこかで聞いたことがある。
  • Unicode に関する誤解の誤解 - odz buffer

    ref:Open ブログ: ◆ シフトJIS と unicode via:Matzにっき(2007-03-12) 初めにお断りしておくが、項は、誰かを批判することが目的ではない。素人にありがちな誤解を正すことにある。 上記のサイトで、素人が間違いを犯しているからといって、素人を批判するつもりは毛頭ない。素人が専門知識をもたないのは当然だからだ。私としては、批判するためというよりは、読者が他山の石として眺めるために、上記のサイトを見ることをお勧めする。 Encode.pm の maintainer である dankogai 氏を素人呼ばわりするのもなかなか勇気があると思うが、じゃ、そういう人の誤解を正しておこうか。 一方、 unicode には問題が山積みだ。だいたい、素人は unicode という言葉を使っているが、 unicode というものは一種類しかないわけではない。UTF-8

    Unicode に関する誤解の誤解 - odz buffer
    j0hn
    j0hn 2007/03/19
    文字コードの話ってのがまず釣りやすくて、さらにそこに微妙に言語の話を入れて、さらに見下し目線の文章でそれを書くと、完璧なつりネタになるってのは、もう、数年前から広く知られている話のような気がする
  • UTF-8 エンコーディングの危険性 - WebOS Goodies

    的に、まともな国際化ライブラリを使っていれば、上記のような不正な文字コードはきちんと処理してくれるはずです。実際、 Opera, Firefox, IE ともに適切にエスケープしてくれました。また、 UCS に変換した後にエスケープ処理を行うことでも対処できるかもしれません。しかし、複数のモジュールで構成されるような規模の大きいアプリケーションでは、そのすべてが適切な処理を行っていると保証するのも、なかなか難しいかと思います。ここはやはり、すべての外部入力に含まれる不正なシーケンスを、水際で正規化するという処理を徹底するのが一番かと思います。 例えば Ruby の場合、不正な UTF-8 コードを検出する最も簡単な方法は、 String#unpack を使って UCS へ変換してみることです(昨日の記事への kazutanaka さんからのはてぶコメントにて、 iconv でも同様なこ

  • アラビア語で拡張子を偽装出来る件 - LinuxとかperlとかFXとか

    http://www.nutsecurity.com/?date=20061209ここに載ってましたが・・・・凄すぎる、というか感動すら覚えましたよ、よくこんな事考え付くなぁ。 こうして・・・で名前の変更でUnicode制御文字の挿入でRLOを選択して「cod.emdaeR.EXE」とか入力するとですね・・・んでこうすると・・・     /\___/ヽ   ヽ    /    ::::::::::::::::\ つ   . |  ,,-‐‐   ‐‐-、 .:::| わ   |  、_(o)_,:  _(o)_, :::|ぁぁ .   |    :: 追記: もっと偽装してみましたブクマコメントに書いてあったのでやってみました、右→左書きの後に左→右書きと続けると拡張子を中央に持ってくる事が可能です・・・アイコン表示だと一目瞭然ですが一覧表示していると騙されるかもしれません。 1.Scre