意外と知られてないのかもしれないので書いてみる。というか竹迫さんのパワポに書いてるまんまなんだけど、XML::Parser のソースに以下のパッチを当てるのみ。 --- XML-Parser-2.34-orig/Expat/Expat.xs Mon Jul 28 23:41:10 2003 +++ XML-Parser-2.34/Expat/Expat.xs Fri Aug 27 08:36:39 2004 @@ -17,6 +17,8 @@ #undef convert +#undef SvUTF8_on + #include "patchlevel.h" #include "encoding.h"するとあら不思議、XML::Parser で utf8 フラグが立たなくなります。ということは XML::RSS でもまた然り(XML::RSS の中では XML::Parser で pars
[を] 指定した URL へのリンクのアンカーテキストを収集するとそのはてなブックマークエントリで言及されていた、PerlのEncodeモジュールの decode で "UTF-16LE:Malformed LO surrogate xxxx at ..." というエラーが出る問題を調べてみました。 まずは再現条件を調べたところ、http://quote.yahoo.co.jp/ のページを取得して decode した時にエラーが発生することが分かりました。エラー再現までの流れは以下の通りです。 http://quote.yahoo.co.jp/ の内容を取得し、変数$textに格納。 Encode::Guess により$textの文字コードを判定。 その結果、(文字列はEUC-JPで書かれているにも関わらず)UTF-16LEと判定される。 判定結果を元に、decode('UTF-16LE
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日本語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く