[B! charset] vkgtaroのブックマーク

IRC(Wide,Friend系)における半角カナ対応 - hashy1126's blog

先日（もうだいぶ前になるのですが）dankogai さんより perl/Encode - 7bit-jis != iso-2022-jp http://blog.livedoor.jp/dankogai/archives/51061651.html http://perl-mongers.org/2008/06/perlencode_-_7bit-jis_iso-2022-jp.html なる指摘をうけました。その後 IRC での半角カナに関して調べなおし、ようやくまとめることができたので、ここに記しておきます。 1.私が勘違いしていた点 IRC(Wide,Friend系)のチャンネルでは ISO-2022-JP の文字コードを使用する設定にすること Windows でよく使われる IRC クライアントの LimeChat では、半角カナ入力時の指定ができること（詳細は後に記します）上

vkgtaro 2008/06/27

リンク

404 Blog Not Found:ajax - 文字化け判定表

2007年04月14日01:20 カテゴリLightweight Languages ajax - 文字化け判定表「誰か」という時にhyukiさんの視線を感じたのは気のせいかしらん。結城浩のはてな日記以下のような「文字化け判定表」があるといいなあと思って作り始めましたが、飽きちゃいました（←おい）。誰か作って…。というわけで、そっこーで作ったのが以下。をで表示漢字、カタカナ、ひらがなの入ったquery。これはUTF-8で書かれたテスト文字化けを解決することは鯖側のソースはこちら倉側はお使いのブラウザーで「ソースを見て」下さい。 Enjoy! Dan the Man with too Many Mojibake to Fix See Also: 文字化けクイズ(解答編) - 西尾泰和のはてなダイアリー「Lightweight Languages」カテゴリの最新記事

vkgtaro 2007/04/15

文字化け具合を確認。

charset

リンク

テンプレートShift_JISでそれ以外UTF-8の場合 - Unknown::Programming

っていうのがなかなかできなくて。テンプレートファイルはShift_JISなんだけどソースコードやDBはUTF-8でやりたい。でさらに最終出力は携帯用サイトなのでShift_JISでっていうレアなケースを実現したいと。テンプレートをUTF-8にさえすればCatalyst::Plugin::Charsets::Japaneseで一発OKなんだけどね。テンプレートをクライアントが触りたいとかってケースでUTF-8とかわからんからShift_JISでお願いとかって結構あるのでそーゆー場合のお話ですね。まぁクライアントが触る部分だけをうまく切り離してなんとかするってのが普通のやり方なのかもしれないけどとりあえず。ってことでまずはShift_JISで書かれたテンプレートを動的にUTF-8に変える必要があります。それはTemplate::Provider::Encodeでできるわけです。

vkgtaro 2007/04/14

リンク

シフトJISを残すべきか? : 404 Blog Not Found

2007年03月10日23:30 カテゴリCode シフトJISを残すべきか? Matzさん経由で知ったのだが、これはひどい。シフトJISを捨てられるか?：ITpro では，今までのデファクトだったシフトJISはどうだろうか。シフトJISを使うと，（英文混じりの）日本語を表現する場合，そのデータ長はUTF-8/16/32に比べて短くなる。コンピュータを取り巻く通信環境は高速になり，ストレージは大容量化してきたとはいえ，データ長は短いに越したことはない。確かに、シフトJISで表現できるテキストをUTF-8で表現すると、最高で1.5倍になる(ただしここで言うシフトJISは、Shift_JISX0213は含まない)。しかし、テキストデータというのは圧縮率が高い。未圧縮gzipbzip2 シフトJIS4,6822,2542,225 UTF-86,7672,5262,325 UTF-8/SJIS

vkgtaro 2007/03/13

「Unicodeは理論的にも政治的にもベストではない。しかし実装しているものの中ではベストである。」

リンク

Encode-DoubleEncodedUTF8-0.05 - Fix double encoded UTF-8 bytes to the correct one - metacpan.org

The Perl Toolchain Summit needs more sponsors. If your company depends on Perl, please support this very important event.

vkgtaro 2007/02/14

リンク

subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

vkgtaro 2007/02/13

二重に utf-8 エンコードしちゃった文字化け直し

リンク

ruby|perl - 文字コードのちょっと高度な判定 : 404 Blog Not Found

2007年01月11日21:00 カテゴリLightweight Languages ruby|perl - 文字コードのちょっと高度な判定これははっきり言って悩ましい。ですが、判定が曖昧な場合はその旨をきちんと通知するのがBetter Practiceではないかと思います。 Matzにっき(2007-01-03) 手元のcalkiがUTF-8の「》」相当の文字(U+8BB)を含むエントリが文字化けするので、 nkf-utf8のソースを見てみた。どうも自動判定の優先順位がEUC-JP,SJIS,JIS,UTF-8で固定されていて、 EUCの範囲内に収まる文字列はすべてEUC-JPとみなすことになっている。で、UTF-8の「》」はEUC-JPの「損」と同じバイト列なのだ。例えば、以下を行ごとにコード判定すると、以下のような結果になります。 son.utf8 » 損 »損 »Son nk

vkgtaro 2007/01/11

リンク

perl, python & ruby - ord() vs. Unicode : 404 Blog Not Found

2006年11月26日02:45 カテゴリLightweight Languages perl, python & ruby - ord() vs. Unicode というわけで、ord篇はこちら。 404 Blog Not Found:perl, python & ruby - chr() vs. Unicode とりあえずchrが長くなったのでordは別entryということで。文字から数値へ(ord) まずはPerlの例。 #!/usr/local/bin/perl use strict; use warnings; use utf8; binmode STDOUT, ':utf8'; sub say { print @_, "\n" }; say ord "\x{61}"; say ord "\x{3b1}"; say ord "\x{5F3E}"; say ord "\x{2A6

vkgtaro 2006/11/26

リンク

Unicodeは文字集合か符号化方式か : 404 Blog Not Found

2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。文字コード規格の基礎：ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合，文字の集合エンコード方法という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが，ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。まずUnic

vkgtaro 2006/11/24

リンク

hide-k.net#blog: 続 C::P::Email::Japaneseの文字化け対処

hide-k.net#blog: C::P::Em ail::Japaneseの文字化け対処でWAVE DASH問題に何とか対応しようとしてMIME::TT::Lite::Japaneseに手を加えるというトンチンカンなことをやっていましたが、subtech - Bulknews::Subtech - cp932 vs. shift_jisでEncode::Aliasを使えばいいんじゃないかというお話があったのでEncode::Unicode::Japaneseとからめて試してみました。 sub send : Private { use Encode::Alias; use Encode::Unicode::Japanese; define_alias( qr/jis$/i => '"unijp-jis"' ); $c->em ail( Template => 'em ail.tt', To

vkgtaro 2006/11/16

リンク

野イチゴとったど～ - 桝席 [ PIC ]

あなたがお求めになった記事はURLが変更されたか、もしくは消滅しています。ブログエンジンの変更にともない、過去の記事はほとんどが移動し、ごく一部は消去されました。以下のURLからカテゴリ・タグ・検索ボックスを利用して、探してみてください。ご迷惑をおかけいたします。＞ブログ桝席 http://blog.masuseki.com/ ↓こちらも参考になるかもしれません。＞masuseki.comの構成 http://www.masuseki.com

vkgtaro 2006/10/19

charset

リンク

JavaScript Unicode Charts - bkブログ

JavaScript Unicode Charts Unicode の表を JavaScript で動的に生成して、検索もできたりするツールがあると便利ではないかと思い立ちました。そこで、自分で作り始める前に試しに javascript unicode で検索してみたところ、ちょうど欲しいと思っていたようなものが見つかりました。JavaScript Unicode Charts というページです。 JavaScript Unicode Charts のページの一番上の入力欄に「あ」と入力してEnterキーを押すと、「あ」のコードポイント 0x3042 がわかります。この機能は Unicode を使ったプログラミングに役立ちそうです。たとえば、 JavaScript で document.createTextNode を使ってテキストノードを作るときは実態参照は使えないので、 » (&ra

vkgtaro 2006/10/10

unicode の表を検索できる。便利。

リンク

Catalyst::Plugin::Charsets::Japanese - Japanese specific charsets handler - metacpan.org

vkgtaro 2006/05/26

リンク

Template::Provider::Encode - Encode templates for Template Toolkit - metacpan.org

vkgtaro 2005/12/31

リンク

備忘録: Unicode, UCS, and UTF : 404 Blog Not Found

2005年12月20日11:45 カテゴリiTechLogos 備忘録: Unicode, UCS, and UTF まだ混乱が収まっていらっしゃらないようなので、備忘録を兼ねてここでまとめておきましょう。電脳社会の日本語加藤弘一 quinta essentia - del.icio.us買収, Yonahあってるかな? Character Set (文字集合) vs. Encoding (符号化) まずこの二つが別物だということを抑えましょう。UCSというのは名前からわかる通り、Character Set (文字集合)です(とはいえ、Unicode.orgのGlossaryを見ると、符号化の一手段にも見えなくはない)。この段階では、各文字は「背番号」を持っているに過ぎません。狭義の「Unicode」はこの「背番号」を指します。これをどう実際のデータにするのかがEncoding (

vkgtaro 2005/12/20

リンク

Unicodeとサニタイジング回避テクニック

vkgtaro 2005/11/17

リンク

CGI.pmを継承して漢字コードの変換をする必要性に疑問 : blog.nomadscafe.jp

CGI.pmを継承して漢字コードの変換をする必要性に疑問はてなブックマークでちらりと見かけたid:hidedenさんのこのエントリー。すでにプログラムな視点からはSawaさんが議論されていますが、斜めからの意見としてはCGI.pmを継承してまで漢字コードの変換をする必要性を考える事が必要かなと思う。一般的なブラウザならば、ページのエンコーディングとPOST/GETのリクエスト文字列のエンコーディングは同じ（ハズ）です。Perlでプログラムを作るのであれば、EUC-JPまたは最近であればUTF-8でコーディングしていると思います。プログラムからの出力も同じエンコーディングで行えばまったく問題ありません。わざわざJcodeを挟み込んだりすると漢字コードの判断ミスがおきて逆に文字化けしてしまうこともあるでしょう。しかし、一般的なブラウザではない携帯電話の場合、ページのエンコーディングはSh

vkgtaro 2005/11/15

POST/GET のリクエスト文字列のエンコードが信用できないのでついついそういう処理をはさんでしまう(；ﾟﾛﾟ)

リンク

eucJP-ms と CP51932 の違いコードページ932/ウェブリブログ

「ウェブリブログ」は 2023年1月31日をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

vkgtaro 2005/11/07

charset

リンク

Perl-5.8 MEMO

Perl-5.8 覚え書き Last Updated at $Date: 2005/12/04 04:00:59 $. このページは，Perl-5.8.2 を使う上で困ったことなどの覚え書きです．日本語を含むスクリプトを書く日本語 EUC でスクリプトを書く UTF-8 でスクリプトを書く日本語を含むファイルを開く連想配列で日本語を使う日本語を含む正規表現文字コードの自動判定古い Perl でも実行できるように書く未解決の問題日本語を含むスクリプトを書く Perl-5.8.x で日本語を扱うスクリプトを書く場合，大きく2通りの方法があります．日本語 EUC でスクリプトを書く． UTF-8 でスクリプトを書く．どちらの方法でも， (1)ファイル入出力， (2)データベースアクセス， (3)プロセス間通信の3つに気をつけて，明示的にバイト列を文字列に変換したり，また逆

vkgtaro 2005/10/26

perl
charset

リンク

emacsで文字コードを指定して開く - PC日記

emacs で、utf-8のファイルを開くときに、文字コードの判別に失敗することがある。おぼろげな記憶で、C-u C-x C-f とかで文字コードの指定ができたかな～なんて思っていたのだけれど、できない。調べてみたら、以下のページが見つかった。 >emacs によるコードの自動判定は、今のところ成功していますが、失敗する >かもしれません。emacs で、buffer-file-coding-system を明示的に与えて >find-file するには、どうすればいいでしょうか？文字コードを指定して開く C-x RET c 文字コードを入力 RET C-x C-f 開きなおす C-x RET c 文字コードを入力 RET C-x C-v RET だそうです。おまけ emacs の文字コードの自動判別を助ける方法として、auto-coding-alistやauto-coding-r

vkgtaro 2005/10/20

リンク

はてなブックマーク

タグ

関連タグで絞り込む (19)

charsetに関するvkgtaroのブックマーク (28)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス