タグ

unicodeに関するshiban8yのブックマーク (4)

  • UTF-16LE:Malformed LO surrogate を避ける - 徒書

    [を] 指定した URL へのリンクのアンカーテキストを収集するとそのはてなブックマークエントリで言及されていた、PerlのEncodeモジュールの decode で "UTF-16LE:Malformed LO surrogate xxxx at ..." というエラーが出る問題を調べてみました。 まずは再現条件を調べたところ、http://quote.yahoo.co.jp/ のページを取得して decode した時にエラーが発生することが分かりました。エラー再現までの流れは以下の通りです。 http://quote.yahoo.co.jp/ の内容を取得し、変数$textに格納。 Encode::Guess により$textの文字コードを判定。 その結果、(文字列はEUC-JPで書かれているにも関わらず)UTF-16LEと判定される。 判定結果を元に、decode('UTF-16LE

  • 日本語の横棒記号に絶望した – taichino.com

    先日のjcconvは記号の全角半角変換も実装しているのですが、マイナス記号が上手くマッピング出来ていませんでした。調べてみるとマイナスだと思っていた記号が全角ダッシュ(EM DASH)だった訳です。イラッとしたついでに横棒記号について調べてみました。結果としては日語には思ったよりたくさんの横棒記号がありまして、イライラが収まりません。 まず半角記号の’-‘はハイフンマイナス(0x2d)と呼ばれていて、ハイフンとマイナスの意味を包含した記号になっています。ASCIIコードのビット数の制限があった事を考えても、センスの良さが光る決定だと思います。文脈でハイフンかマイナスかは容易に判断できる訳です。ハイフンとマイナスを別々にしていたら、今頃マイナスのつもりで書いたハイフンに対するコンパイルエラーで世界中のプログラマのイライラは100%水増しと言った状況なわけです。世界平和に繋がっているといって

  • tokuhirom blog

    Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

  • Perl 5.8.x Unicode関連

    -> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル 趣旨と注意書き Perl 5.8.x のUnicode 関連です。 正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。 使ってみると、よくわかんなくなったので、ちょっとまとめてみました。 今でもあんまりわかってないかもしれないので、内容は無保証です。 突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

  • 1