当記事はVBAでURLデコード | Think Twiceへ移行しました。
当記事はVBAでURLデコード | Think Twiceへ移行しました。
2013年03月04日14:45 カテゴリTipsLightweight Languages perl - 最速のUTF-8処理法 Perl Cookbook (English, Kindle Ed.) Christiansen / Torkington [邦訳: Perlクックブック] というわけで解説。 2013/03/04:Unicode::UTF8 がガチ爆速すぎる - bayashi.net encode より decode のが差が大きい感じ。encode だけだと、文字列長くなると Encode の方が速いっぽい。 まずは改めて検証してみましょう。 https://gist.github.com/dankogai/5079930 確かにその通りになっています。Unicode::UTF8はEncodeはおろかPerl組み込みのutf8::decodeより高速なのか(文字列をコピ
Specials is a short Unicode block of characters allocated at the very end of the Basic Multilingual Plane, at U+FFF0–FFFF. Of these 16 code points, five have been assigned since Unicode 3.0: U+FFF9 INTERLINEAR ANNOTATION ANCHOR, marks start of annotated text U+FFFA INTERLINEAR ANNOTATION SEPARATOR, marks start of annotating character(s) U+FFFB INTERLINEAR ANNOTATION TERMINATOR, marks end of annota
2009年07月07日07:30 カテゴリLightweight Languages perl - $PerlIO::encoding::fallback の謎 すびばせん。それ、ドキュメントバグです。 PerlIO の encoding layer の fallback ではまった - daily dayflower Encode - character encodings - search.cpan.org をみるとわかるように,FB_XMLCREF は XMLCREF | LEAVE_SRC なんだけど,いろいろ試行錯誤してるとどうやら LEAVE_SRC が悪さをするらしい。 $PerlIO::encoding::fallbackを指定するときは、FB_*を使ってはいけません。 今からその理由を説明します。 Encode::LEAVE_SRCって何さ? まずは、Encode::FB
2009年03月03日19:00 カテゴリLightweight Languages perl - EncodeでXSSを防ぐ 良記事。 第7回■文字エンコーディングが生み出すぜい弱性を知る:ITpro だけど、問題点のみ具体例があって、対策にないのが片手落ちに感じられたので、その点を補足。 結論だけ言ってしまえば、Perlなら以下の原則を守るだけです。 404 Blog Not Found:perl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基本方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これが
Dan Kogai Alex Davies Alex Kapranoff Alex Vandiver Andreas J. Koenig Andrew Pennebaker Andy Grundman Anton Tagunov Autrijus Tang Benjamin Goldberg Bjoern Hoehrmann Bjoern Jacke bulk88 Craig A. Berry Curtis Jewell Dave Evans David Golden David Steinbrunner Deng Liu Dominic Dunlop drry Elizabeth Mattijsen Flavio Poletti Gerrit P. Haase Gisle Aas Graham Barr Graham Knop Graham Ollis Gurusamy Sarathy
2006年03月11日13:07 カテゴリLightweight Languages一日一行野郎 UTF-8 vs. ISO-10646 これだとLiberalなUTF-8ですね。 [を] UTF-8 の文字にマッチする正規表現 UTF-8の文字にマッチする正規表現の素直版。 新旧、というのか、LiberalなUTF-8とStrictなUTF-8の違いは、RFC2044とRFC2279を見ればはっきりします。要はU+11000より上を認めるかどうかということです。今のところUnicode.orgの定義では、U+0000 - U+10FFFF しか認めていないので、そちらの定義に従うと、むしろこの正規表現はさらに短く $RE_UTF8CHAR_STRICT = qr/(?:[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}
I've been hacking on some Perl code that extracts data that comes from web users around the world and been stored into MySQL (with no real encoding information, of course). My goal it to generate well-formed, valid XML that can be read by another tool. Now I'll be the first to admit that I never really took the time to like, understand, or pay much attention to all the changes in Perl's character
2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基本方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ 入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです!とにかくこの基本方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(
2007年04月17日22:30 カテゴリLightweight Languages CPAN - HTTP::Response::Encoding Released! HTTP-Response-Encoding を Release したのでお知らせします。 on CPAN (coming soon) http://www.dan.co.jp/~dankogai/cpan/HTTP-Response-Encoding-0.03.tar.gz どういうものかというと、こういうものです。 use LWP::UserAgent; use HTTP::Response::Encoding; my $ua = LWP::UserAgent->new(); my $res = $ua->get("http://www.example.com/"); warn $res->encoding; prin
2007年04月23日01:30 カテゴリLightweight LanguagesTips perl tips - Encodeを速く使う方法 はっきり言ってこれはフェアではない。 みかログ: ErlangとPerlの速度比較 Perl側は,Encodeが遅い. Encode::from_toがinplaceでコンバートしてしまうために,直前に文字列コピーがあるのも影響しているのかも なぜなら、Encode::from_to()は速度ではなく、安全性に最適化しているから。 そもそもはじめからUTF-8、それもutf8フラグがたっている文字列にfrom_toを使うのはばかげている。 for(my $i = 0; $i < 0xffff; $i++) { my $str2 = $str; Encode::from_to($str2, "UTF-8", "Shift_JIS"); } は単に
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
2021年12月23日の日記の読者から、NDL古典籍OCR用RoBERTa-small ver.2という単文字日本語モデルをお教えいただいた。以前、私(安岡孝一)が作ったroberta-small-japanese-aozora-charを再トレーニングして、TrOCRのデコーダーに使っているらしい。とりあえず、当該モデルをGoogle Colaboratoryで動かしてみよう。 !pip install transformers !test -f model-ver2.zip || curl -LO https://lab.ndl.go.jp/dataset/ndlkotensekiocr/trocr/model-ver2.zip !test -d model-ver2 || unzip model-ver2.zip from transformers import pipeline f
2006年05月10日11:00 カテゴリLightweight LanguagesLogos Encode - 規格のバグまでは直せません それが規格だからです。 b:note: Encodeのナゾ 最近会う機会が無いので、トラックバックします。 $moji = "~"; Encode::from_to($moji, "euc-jp", "utf8"); print $moji; で出てきた文字をWindowsのメモ帳とか秀丸でみると、~の波形が反対になった文字になってしまいます。 ここでいう「~」はU+FF5E、Fullwidth Tildeのことです。 その答えは、「Unicode Consortiumが用意したJISX0212とUnicodeの変換表がそうだったから」ということになります。Encodeのせいではないのです。詳しくは、 Japanese <-> Unicode Map
を作った.Win32にEncode::Detectを入れる - Charsbar::Noteを参考にして,ちょっとだけ構成変えつつこれを自動でやるようにした.Encode-Detect-0.01のtarballを展開して,以下のソースをMakefile.PLとして置いてやれば,あとはおきまりの perl Makefile.PL から nmake install で. 自分の環境ではこれでうまくいったので,Detector.xs の extern "C" は外してません. #!perl use strict; use warnings; use ExtUtils::MakeMaker; use File::Copy::Recursive qw(fmove); use File::Slurp qw(slurp write_file); my @DELETE = qw(Build.PL MANI
このエントリのフォロー記事が http://d.hatena.ne.jp/charsbar/20060622/1150903898 にあります。 先日Plaggerの推奨モジュールとなったEncode::Detect。 This module provides an interface to Mozilla's universal charset detector, which detects the charset used to encode data. とのことで、多少のクセはあるものの判定精度はなかなかよろしいらしいのですが、なにせCPAN Testersのうち無事にインストール成功したのはたったの3人。Linuxユーザ含めて11人が失敗していて、バグレポートもあがっているのに半年近く更新されていないのですから個人的にはあまり使う気にならんのだよなあと、思いつつも、やっぱり気にはな
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く