タグ

encodeに関するtarchanのブックマーク (12)

  • ゆーすけべー日記

    ムフフなビデオも網羅的に扱うDVDや動画の提供サービス「DMM」のWeb APIがいつの間にか公開していたらしく、なにぶんノーマークだったもので昨日の夜知ってビックリした。というかDMMは一生API出さないだろうなんて決め込んでいたのが良くなかったですね。 ってことでとあるAV女優の商品一覧を出力するようなスクリプトを書いてみました。API固有の「癖」でいくつか実装する際の注意すべきポイントがあるのでそれをまず紹介します。Perlコードですが参考になるかもです。 リクエストパラメータにはタイムスタンプがいる リクエストのパラメータにはタイムスタンプが必須です。形式は 2013-05-14 08:03:16 というもの。僕はDateTime派なので、以下のコードで現在のタイムスタンプの文字列をつくっています(*ある方から指摘を受けてコードを修正させていただきました!)。 use DateTi

    ゆーすけべー日記
    tarchan
    tarchan 2013/05/15
    >リクエストのパラメータはeuc-jpでエスケープさせることが必要なのです。
  • perl-mongers.org

    This domain may be for sale!

  • piconv -f from_encoding -t to_encoding : 404 Blog Not Found

    2004年11月30日23:39 カテゴリ一日一行野郎 piconv -f from_encoding -t to_encoding Perl 5.8 以降がある環境であれば、上記の方法で文字コード変換が可能だ。例えば、foo.sjisをShift_JIS をUTF-8にしたいなら、 piconv -f sjis -t utf8 foo.sjis とすればいい。詳しい使い方は piconv -h で参照可能だ。実は私が書いたこのPerl Script、Encodeのテスト用に書いたものだったが、好評につきPerlの標準インストール時に一緒にインストールされるようになったものだ。 使い方はiconv(1)とほぼ同じだが、元がPerl ScriptでかつEncodeの機能を使っているだけあってその分豊富だ。例えば piconv -f sjis -t ascii -p とやってみよう。 「一日一

    piconv -f from_encoding -t to_encoding : 404 Blog Not Found
  • Encodeの「急所」 : 404 Blog Not Found

    2006年05月08日23:40 カテゴリLightweight LanguagesOpen Source Encodeの「急所」 名器、じゃなくて名つっこみだ。 jankogaiの日記 はたしてchinで引っかかる事は問題ないのだろうか?しかし、私がこれを直して$Encode::VERSION++するかというと、そうも行かないのがEncodeの難しいところである。 確かに、EncodeのBenevolent Dictatorは現在私である。Nick Ing-Simmonsから引き継いだ。しかし、私はことEncodeに関しては「大統領的」にではなく、「国連事務総長的」というか「総理大臣的」というか、とにかくなるべくDictatorshipを発揮しないよう心がけている。 というのも、Encoding aliasの名前やMappingといった問題というのは、CoderではなくUserに了解され

    Encodeの「急所」 : 404 Blog Not Found
    tarchan
    tarchan 2011/07/03
    >文字コードの世界というのは、ほんと誰もが文句があるけど、誰も責任を負いたがらないものなのだ。
  • perl/Encode - 7bit-jis != iso-2022-jp : 404 Blog Not Found

    2008年06月06日12:00 カテゴリLightweight Languages perl/Encode - 7bit-jis != iso-2022-jp ちょちょまwww 半角カナ対応 - UnderDone(あんでるどん)の落書き IS2022JPの半角カナ対応 - perl-mongers.org WIDE系 IRCで使われている、IS2022JPの(いわゆる)半角カナにはいろいろ種類がありますが、これをPerlでコード変換しようとした場合、Encodeモジュールではコード変換に失敗してしまいます。(2008年6月6日0:20追記:Encodeモジュールでは半角カナの認識に失敗するだけで他のコードは自動認識します) それは、文字コードそのものが微妙ながら決定的に違うのです。 Encodeのマニュアルにもちゃんとこのことは書いてあります。 perldoc Encode::JP 7

    perl/Encode - 7bit-jis != iso-2022-jp : 404 Blog Not Found
  •   は半角スペースではないというお話 (フェンリル | デベロッパーズブログ)

    いかがでしょう? WEBブラウザにもよりますが、結構実際の見た目も違うように思います。 で、冒頭の「半角スペースと  」の件ですが、ちゃんと意識しておかないと「あれ?」と思うことがあります。 「  を半角スペース (0x20) に置き換える」プログラムがあるように、「  を半角スペースに置き換えず、nbsp (0xC2A0) に置き換える」プログラムもありますから、WEB ブラウザのように 0xC2A0 を表示できる場合はいいですけど、表示できないプログラムだと困りますよね。 冒頭の画像は、わが愛するテキステエディタ Emacs だとこんな感じになります、というサンプルでした おまけとして、  を 0xC2A0 に置き換える例を。雰囲気をお楽しみください。 use HTML::Entities; use Encode; use Data::Dumpe

      は半角スペースではないというお話 (フェンリル | デベロッパーズブログ)
    tarchan
    tarchan 2011/06/28
    対応する文字コードあったんだ
  • エンコードマニアックス - 各種エンコードやハッシュを一発作成

    SHA-256 e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855 SHA-384 38b060a751ac96384cd9327eb1b1e36a21fdb71114be07434c0cc7bf63f6e1da274edebfe76f65fbd51ad2f14898b95b SHA-512 cf83e1357eefb8bdf1542850d66d8007d620e4050b5715dc83f4a921d36ce9ce47d0d13c5d85f2b0ff8318d2877eec2f63b931bd47417a81a538327af927da3e

    tarchan
    tarchan 2010/01/27
    各種エンコードやハッシュを一括作成
  • 二重エンコードの話についての補足 - *「ふっかつのじゅもんがちがいます。」withぬこ

    AJITOで酒を飲みながらid:nTeTsと昨日書いた記事についてしゃべっていて、id:nTeTsがこの問題をPerl文字列の内部表現やUTF8フラグに関わる問題と認識している節があった。それは単に間違っていて、この問題はPerl固有ではないしPerl文字列の内部表現などは一切関係ないのだが、まあ混乱しても無理はないとも思うのでその辺について補足してみたい。なお僕はPerl5.8からPerlを使い始めたので、当の歴史的な経緯などは知らない。現状の仕様からリバースエンジニアリングして歴史的経緯を推測したにすぎないので、誤りが含まれる可能性は指摘しておく。 Encode::encodeとEncode::decodeのシグネチャを仮想的に型付きで表現するとしたら、理想的には次のようになっているべきである。 //decodeはバイナリ(:byte[])から内部表現(:String)への写像 St

    二重エンコードの話についての補足 - *「ふっかつのじゅもんがちがいます。」withぬこ
  • #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found

    2009年09月13日13:00 カテゴリLightweight Languages #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 駄目です。 [を] Perl の utf8 まわりのおまじない 最近良く使うおまじない、というかイディオム。 utf8::decode($text) unless utf8::is_utf8($text); こういう場合は、Encode::decode_utf8()でないと。 以下をごらんください。 #!/usr/bin/perl use strict; use warnings; use Encode; use Devel::Peek; for my $bytes ( "\x2F", "\xC0\xAF", "\xE0\x80\xAF", "\xF0\x80\x80\xAF" ) { my $u

    #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found
  • Variable Byte Code と UTF-8、またはUTF-24が存在しないわけ : 404 Blog Not Found

    2009年08月05日00:30 カテゴリLightweight Languages Variable Byte Code と UTF-8、またはUTF-24が存在しないわけ 実は、これに非常に良く似た符号化を、我々は日々目にしています。 γ符号、δ符号、ゴロム符号による圧縮効果 - naoyaのはてなダイアリー 通常の整数は 32 ビットは 4 バイトの固定長によるバイナリ符号ですが、小さな数字がたくさん出現し、大きな数字はほとんど出現しないという確率分布のもとでは無駄なビットが目立ちます。 UTF-8です。 UTF-8は、0x0から0x10FFFFまでの整数を、以下のようにしてバイト列に変換します。 Range/Offset0123 0x00-0x7F0xxxxxxx 0x80-0x3FF110xxxxx10xxxxxx 0x400-0xFFFF1110xxxx10xxxxxx10xx

    Variable Byte Code と UTF-8、またはUTF-24が存在しないわけ : 404 Blog Not Found
    tarchan
    tarchan 2009/08/05
    ASCIIしか知らないソフトウェアでもそれなりに処理できる冗長性
  • perl - $PerlIO::encoding::fallback の謎 : 404 Blog Not Found

    2009年07月07日07:30 カテゴリLightweight Languages perl - $PerlIO::encoding::fallback の謎 すびばせん。それ、ドキュメントバグです。 PerlIO の encoding layer の fallback ではまった - daily dayflower Encode - character encodings - search.cpan.org をみるとわかるように,FB_XMLCREF は XMLCREF | LEAVE_SRC なんだけど,いろいろ試行錯誤してるとどうやら LEAVE_SRC が悪さをするらしい。 $PerlIO::encoding::fallbackを指定するときは、FB_*を使ってはいけません。 今からその理由を説明します。 Encode::LEAVE_SRCって何さ? まずは、Encode::FB

    perl - $PerlIO::encoding::fallback の謎 : 404 Blog Not Found
  • perl - EncodeをCodeReposに : 404 Blog Not Found

    2007年11月18日20:00 カテゴリLightweight LanguagesOpen Source perl - EncodeをCodeReposに Perl 5.10もRC1が出たので、次のEncodeのReleaseに備えて、EncodeをCodeReposに上げておきましたのでお報せします。 今までも何度かせっかく送ってもらったpatchを見逃してしまったりといったこともありますし、CodeReposには日を代表するPerl Mongersが集っているので、公開開発の場所としては最適かと思われます。 今後は、 CodeRepos CPAN の順でReleaseしていく所存ですので、みなさまよろしくお願いします。 Dan the Encode Maintainer 「Lightweight Languages」カテゴリの最新記事

    perl - EncodeをCodeReposに : 404 Blog Not Found
  • 1