ニコニコマークの出し方 2010-01-20-2 [Tips] ニコニコマーク(またはスマイルマーク)は数値文字参照で出すのがいいよ。 半角で「☺」と書けばOK! ☺ → ☺ あと、黒いスマイルは「☻」で! ☻ → ☻ むっとした顔のマークは「☹」で! ☹ → ☹ はーい、みんな並んでー! ☺☻☹ なお、Twitter では、クライアントソフトによっては #x263A の部分がハッシュタグとして認識されてしまいニコニコマークにならないこともあります。 参考: - ハートマークの出し方[2006-01-02-3]
2009年09月13日13:00 カテゴリLightweight Languages #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 駄目です。 [を] Perl の utf8 まわりのおまじない 最近良く使うおまじない、というかイディオム。 utf8::decode($text) unless utf8::is_utf8($text); こういう場合は、Encode::decode_utf8()でないと。 以下をごらんください。 #!/usr/bin/perl use strict; use warnings; use Encode; use Devel::Peek; for my $bytes ( "\x2F", "\xC0\xAF", "\xE0\x80\xAF", "\xF0\x80\x80\xAF" ) { my $u
Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at
Python の unicodedata モジュール Unicode のちょっとしたテキスト処理をしようと思い、 Python の unicodedata モジュールを使ってみました。これは非常に便利です。 unicodedata は Python に標準で付属するため、別途のインストールは不要です。次のようなことができます。 文字の名前を取得する 文字の名前を取得することができます。Unicode の文字にはすべて一意の名前がつけられています。ソースコード内で Unicode のコードポイントを使うときは U+20AC (EURO SIGN) などとコメントをつけておくと便利でしょう。 >>> unicodedata.name(u'A') 'LATIN CAPITAL LETTER A' >>> unicodedata.name(u'あ') 'HIRAGANA LETTER A' 文字の
Unicode の文字列をソースコードに埋め込む方法 Unicode の文字列をソースコードに埋め込む場合、直接 UTF-8 などで文字列を書く方法と、\uXXXX などのようにエスケープして表記する方法があります。後者の方法についてまとめてみました。 \uXXXX 形式の場合 Java, JavaScript, Python, C++, C (C99から) などの多くの言語では \uXXXX という表記 (universal character names) でUnicode の文字を文字列の中に埋め込めます。たとえば、「あいう」は "\u3042\u3044\u3046" となります。 \uXXXX で埋め込んだ文字がどのように解釈されるかは言語や処理系によって異なります。 gcc/g++ の場合、 -fexec-charset オプションで、実際に使う文字セット・エンコーディングを指
UTF-7を利用したXSSは、charset が指定されていない場合に発生すると考えられていますが、少なくとも Internet Explorer においては、これは大きな間違いです。正しくは、Internet Explorer が認識できる charset が指定されていない場合であり、charsetが付加されていても、IEが認識できない文字エンコーディング名である場合にはXSSが発生します。 例えば、次のような HTML は(HTTPレスポンスヘッダで charset が明示されていない場合)IEが文字エンコーディング名を正しく認識できないため、その内容からUTF-7と解釈されるためにスクリプトが動作します。"utf8"という表記はUTF-8の慣用的な表現ではありますが、ハイフンが抜けており正しい表記ではありません。 <html> <head> <meta http-equiv="Co
Document Moved This document has moved here; please update your bookmarks: http://opal.com/jr/freebsd/unicode/
UTF-8文字列の圧縮ライブラリを作っている。いまさら圧縮ライブラリをなぜ作るのかというと、JavaScriptによる全文検索エンジンで、インデックスの圧縮を行いたいからである。検索結果に概要文を出すには、インデックスが元テキスト全てを含む必要がある。従って、インデックスサイズの肥大化を避けるには、圧縮が必要不可欠である。ところが、次の条件を満たすライブラリを見つけられなかった。 圧縮後のデータがUTF-8文字列 JavaScriptで復元可能 前者の条件が必要なのは、JavaScriptでバイナリが扱えない為、圧縮後のデータがUTF-8文字列である必要がある為である。後者の条件は当たり前であるが、意外に該当するライブラリは少なかった。JavaScriptによるzipの解凍ライブラリは公開されているが、ライセンスが不明であった。 しょうがないので、LZSS符号をベースに、自分でライブラリを
(技術的なメモをエントリにしてみる実験です) 最近のLinuxディストリビューションはUTF-8がデフォルトになっているので、相互に利用するには問題は無いのだが、少し前のサーバーなんかだと、EUC-JPで環境構築されていることも多く、sshでログインする際など、文字コード設定がいちいちややこしい。 今まで、私も毎回ターミナルの設定を変えたり、ターミナルにサーバー毎のプロファイルを作っていたりしたのだが、IWAMURO Motonoriさんらが中心に開発されている「cocot」を使ってみて、感動した(いまさらですかね?)。 例えば、私の実例だと、LANG=ja_JP.UTF-8なMac OS XのターミナルからLANG=ja_JP.EUC-JPなサーバーにログインして、vimで日本語ファイルを編集しなければいけないような場合に、 $ cocot -t UTF-8 -p EUC-JP ssh
UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。
一昨日は駅前の喫茶店にて文字コードについてのインタビューをうけました。なんでも文字コードについて面白い読み物にしたいとのこと。X だとか02いくつだとか、訳の分からない数字やアルファベットが続くのに強い違和感を抱いている様子。うーん、いいなあ、ぼくも昔はそういうこと考えていたんだよなあ、正確さよりも面白さが大事だって。どこで間違っちゃったんだろうなあ。 で、乞われるままにASCIIからISO R 646、ISO 2022からISO/IEC 10646への流れ、そしてその中で日本が果たした役割、あるいはJIS X 0208がISO 2022に基づいた構造であること。もともとISO 2022は事前の二者間の合意を前提とした情報交換のために作られた符号化方法であり、合意のない情報交換や、コンピュータ内部の情報処理用としては向いてなかったこと、そしてこれがUCS≒Unicodeの登場を促すことにな
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く