タグ

charsetに関するvkgtaroのブックマーク (28)

  • IRC(Wide,Friend系)における半角カナ対応 - hashy1126's blog

    先日(もうだいぶ前になるのですが)dankogai さんより perl/Encode - 7bit-jis != iso-2022-jp http://blog.livedoor.jp/dankogai/archives/51061651.html http://perl-mongers.org/2008/06/perlencode_-_7bit-jis_iso-2022-jp.html なる指摘をうけました。 その後 IRC での半角カナに関して調べなおし、ようやくまとめることができたので、ここに記しておきます。 1.私が勘違いしていた点 IRC(Wide,Friend系)のチャンネルでは ISO-2022-JP の文字コードを使用する設定にすること Windows でよく使われる IRC クライアントの LimeChat では、半角カナ入力時の指定ができること(詳細は後に記します) 上

    IRC(Wide,Friend系)における半角カナ対応 - hashy1126's blog
  • 404 Blog Not Found:ajax - 文字化け判定表

    2007年04月14日01:20 カテゴリLightweight Languages ajax - 文字化け判定表 「誰か」という時にhyukiさんの視線を感じたのは気のせいかしらん。 結城浩のはてな日記 以下のような「文字化け判定表」があるといいなあと思って作り始めましたが、飽きちゃいました(←おい)。誰か作って…。というわけで、そっこーで作ったのが以下。 を で表示 漢字、カタカナ、ひらがなの入ったquery。 これはUTF-8で書かれたテスト 文字化けを解決することは 鯖側のソースはこちら倉側はお使いのブラウザーで「ソースを見て」下さい。 Enjoy! Dan the Man with too Many Mojibake to Fix See Also: 文字化けクイズ(解答編) - 西尾泰和のはてなダイアリー 「Lightweight Languages」カテゴリの最新記事

    404 Blog Not Found:ajax - 文字化け判定表
    vkgtaro
    vkgtaro 2007/04/15
    文字化け具合を確認。
  • テンプレートShift_JISでそれ以外UTF-8の場合 - Unknown::Programming

    っていうのがなかなかできなくて。 テンプレートファイルはShift_JISなんだけどソースコードやDBUTF-8でやりたい。 でさらに最終出力は携帯用サイトなのでShift_JISでっていうレアなケースを実現したいと。 テンプレートをUTF-8にさえすればCatalyst::Plugin::Charsets::Japaneseで一発OKなんだけどね。 テンプレートをクライアントが触りたいとかってケースでUTF-8とかわからんからShift_JISでお願いとかって結構あるのでそーゆー場合のお話ですね。 まぁクライアントが触る部分だけをうまく切り離してなんとかするってのが普通のやり方なのかもしれないけどとりあえず。 ってことでまずはShift_JISで書かれたテンプレートを動的にUTF-8に変える必要があります。 それはTemplate::Provider::Encodeでできるわけです。

    テンプレートShift_JISでそれ以外UTF-8の場合 - Unknown::Programming
  • シフトJISを残すべきか? : 404 Blog Not Found

    2007年03月10日23:30 カテゴリCode シフトJISを残すべきか? Matzさん経由で知ったのだが、これはひどい。 シフトJISを捨てられるか?:ITpro では,今までのデファクトだったシフトJISはどうだろうか。シフトJISを使うと,(英文混じりの)日語を表現する場合,そのデータ長はUTF-8/16/32に比べて短くなる。コンピュータを取り巻く通信環境は高速になり,ストレージは大容量化してきたとはいえ,データ長は短いに越したことはない。確かに、シフトJISで表現できるテキストをUTF-8で表現すると、最高で1.5倍になる(ただしここで言うシフトJISは、Shift_JISX0213は含まない)。しかし、テキストデータというのは圧縮率が高い。 未圧縮gzipbzip2 シフトJIS4,6822,2542,225 UTF-86,7672,5262,325 UTF-8/SJIS

    シフトJISを残すべきか? : 404 Blog Not Found
    vkgtaro
    vkgtaro 2007/03/13
    「Unicodeは理論的にも政治的にもベストではない。しかし実装しているものの中ではベストである。」
  • Encode-DoubleEncodedUTF8-0.05 - Fix double encoded UTF-8 bytes to the correct one - metacpan.org

    The Perl Toolchain Summit needs more sponsors. If your company depends on Perl, please support this very important event.

  • subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes
    vkgtaro
    vkgtaro 2007/02/13
    二重に utf-8 エンコードしちゃった文字化け直し
  • ruby|perl - 文字コードのちょっと高度な判定 : 404 Blog Not Found

    2007年01月11日21:00 カテゴリLightweight Languages ruby|perl - 文字コードのちょっと高度な判定 これははっきり言って悩ましい。ですが、判定が曖昧な場合はその旨をきちんと通知するのがBetter Practiceではないかと思います。 Matzにっき(2007-01-03) 手元のcalkiがUTF-8の「》」相当の文字(U+8BB)を含むエントリが文字化けするので、 nkf-utf8のソースを見てみた。 どうも自動判定の優先順位がEUC-JP,SJIS,JIS,UTF-8で固定されていて、 EUCの範囲内に収まる文字列はすべてEUC-JPとみなすことになっている。 で、UTF-8の「》」はEUC-JPの「損」と同じバイト列なのだ。例えば、以下を行ごとにコード判定すると、以下のような結果になります。 son.utf8 » 損 »損 »Son nk

    ruby|perl - 文字コードのちょっと高度な判定 : 404 Blog Not Found
  • perl, python & ruby - ord() vs. Unicode : 404 Blog Not Found

    2006年11月26日02:45 カテゴリLightweight Languages perl, python & ruby - ord() vs. Unicode というわけで、ord篇はこちら。 404 Blog Not Found:perl, python & ruby - chr() vs. Unicode とりあえずchrが長くなったのでordは別entryということで。 文字から数値へ(ord) まずはPerlの例。 #!/usr/local/bin/perl use strict; use warnings; use utf8; binmode STDOUT, ':utf8'; sub say { print @_, "\n" }; say ord "\x{61}"; say ord "\x{3b1}"; say ord "\x{5F3E}"; say ord "\x{2A6

    perl, python & ruby - ord() vs. Unicode : 404 Blog Not Found
  • Unicodeは文字集合か符号化方式か : 404 Blog Not Found

    2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か 以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。 文字コード規格の基礎:ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合, 文字の集合 エンコード方法 という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが,ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。 これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。 まずUnic

    Unicodeは文字集合か符号化方式か : 404 Blog Not Found
  • hide-k.net#blog: 続 C::P::Email::Japaneseの文字化け対処

    hide-k.net#blog: C::P::Email::Japaneseの文字化け対処 でWAVE DASH問題に何とか対応しようとしてMIME::TT::Lite::Japaneseに手を加えるというトンチンカンなことをやっていましたが、subtech - Bulknews::Subtech - cp932 vs. shift_jisでEncode::Aliasを使えばいいんじゃないかというお話があったのでEncode::Unicode::Japaneseとからめて試してみました。 sub send : Private { use Encode::Alias; use Encode::Unicode::Japanese; define_alias( qr/jis$/i => '"unijp-jis"' ); $c->email( Template => 'email.tt', To

  • 野イチゴとったど~ - 桝席 [ PIC ]

    あなたがお求めになった記事はURLが変更されたか、もしくは消滅しています。 ブログエンジンの変更にともない、過去の記事はほとんどが移動し、ごく一部は消去されました。 以下のURLからカテゴリ・タグ・検索ボックスを利用して、探してみてください。ご迷惑をおかけいたします。 >ブログ桝席 http://blog.masuseki.com/ ↓こちらも参考になるかもしれません。 >masuseki.comの構成 http://www.masuseki.com

  • JavaScript Unicode Charts - bkブログ

    JavaScript Unicode Charts Unicode の表を JavaScript で動的に生成して、検索もできたりするツールがあると便利ではないかと思い立ちました。そこで、自分で作り始める前に試しに javascript unicode で検索してみたところ、ちょうど欲しいと思っていたようなものが見つかりました。JavaScript Unicode Charts というページです。 JavaScript Unicode Charts のページの一番上の入力欄に「あ」と入力してEnterキーを押すと、「あ」のコードポイント 0x3042 がわかります。この機能は Unicode を使ったプログラミングに役立ちそうです。 たとえば、 JavaScript で document.createTextNode を使ってテキストノードを作るときは実態参照は使えないので、 » (&ra

    vkgtaro
    vkgtaro 2006/10/10
    unicode の表を検索できる。便利。
  • Catalyst::Plugin::Charsets::Japanese - Japanese specific charsets handler - metacpan.org

  • Template::Provider::Encode - Encode templates for Template Toolkit - metacpan.org

  • 備忘録: Unicode, UCS, and UTF : 404 Blog Not Found

    2005年12月20日11:45 カテゴリiTechLogos 備忘録: Unicode, UCS, and UTF まだ混乱が収まっていらっしゃらないようなので、備忘録を兼ねてここでまとめておきましょう。 電脳社会の日語 加藤 弘一 quinta essentia - del.icio.us買収, Yonahあってるかな? Character Set (文字集合) vs. Encoding (符号化) まずこの二つが別物だということを抑えましょう。UCSというのは名前からわかる通り、Character Set (文字集合)です(とはいえ、Unicode.orgのGlossaryを見ると、符号化の一手段にも見えなくはない)。この段階では、各文字は「背番号」を持っているに過ぎません。狭義の「Unicode」はこの「背番号」を指します。 これをどう実際のデータにするのかがEncoding (

    備忘録: Unicode, UCS, and UTF : 404 Blog Not Found
  • Unicodeとサニタイジング回避テクニック

  • CGI.pmを継承して漢字コードの変換をする必要性に疑問 : blog.nomadscafe.jp

    CGI.pmを継承して漢字コードの変換をする必要性に疑問 はてなブックマークでちらりと見かけたid:hidedenさんのこのエントリー。すでにプログラムな視点からはSawaさんが議論されていますが、斜めからの意見としてはCGI.pmを継承してまで漢字コードの変換をする必要性を考える事が必要かなと思う。 一般的なブラウザならば、ページのエンコーディングとPOST/GETのリクエスト文字列のエンコーディングは同じ(ハズ)です。Perlでプログラムを作るのであれば、EUC-JPまたは最近であればUTF-8でコーディングしていると思います。プログラムからの出力も同じエンコーディングで行えばまったく問題ありません。わざわざJcodeを挟み込んだりすると漢字コードの判断ミスがおきて逆に文字化けしてしまうこともあるでしょう。 しかし、一般的なブラウザではない携帯電話の場合、ページのエンコーディングはSh

    vkgtaro
    vkgtaro 2005/11/15
    POST/GET のリクエスト文字列のエンコードが信用できないのでついついそういう処理をはさんでしまう(;゚ロ゚)
  • eucJP-ms と CP51932 の違い コードページ932/ウェブリブログ

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

  • Perl-5.8 MEMO

    Perl-5.8 覚え書き Last Updated at $Date: 2005/12/04 04:00:59 $. このページは,Perl-5.8.2 を使う上で困ったことなどの覚え書きです. 日語を含むスクリプトを書く 日語 EUC でスクリプトを書く UTF-8 でスクリプトを書く 日語を含むファイルを開く 連想配列で日語を使う 日語を含む正規表現 文字コードの自動判定 古い Perl でも実行できるように書く 未解決の問題 日語を含むスクリプトを書く Perl-5.8.x で日語を扱うスクリプトを書く場合,大きく2通りの方法があります. 日語 EUC でスクリプトを書く. UTF-8 でスクリプトを書く. どちらの方法でも, (1)ファイル入出力, (2)データベースアクセス, (3)プロセス間通信の3つに気をつけて, 明示的にバイト列を文字列に変換したり,また逆

  • emacsで文字コードを指定して開く - PC日記

    emacs で、utf-8のファイルを開くときに、文字コードの判別に失敗することがある。 おぼろげな記憶で、C-u C-x C-f とかで文字コードの指定ができたかな~なんて思っていたのだけれど、できない。 調べてみたら、以下のページが見つかった。 >emacs によるコードの自動判定は、今のところ成功していますが、失敗する >かもしれません。emacs で、buffer-file-coding-system を明示的に与えて >find-file するには、どうすればいいでしょうか? 文字コードを指定して開く C-x RET c 文字コードを入力 RET C-x C-f 開きなおす C-x RET c 文字コードを入力 RET C-x C-v RET だそうです。 おまけ emacs の文字コードの自動判別を助ける方法として、auto-coding-alistやauto-coding-r