タグ

utf8に関するnipotanのブックマーク (13)

  • tokuhirom blog

    Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

    nipotan
    nipotan 2008/11/13
    あれー、そんなに遅くないけどな。
  • UTF8 フラグあれこれ - daily dayflower

    UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象: UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし, UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc, etc ... Perl は(後方互換性確保などの理由から)ISO-8859-1

    UTF8 フラグあれこれ - daily dayflower
  • utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech
  • javascript - \uXXXXを使わない理由 : 404 Blog Not Found

    2008年01月14日14:30 カテゴリLightweight Languages javascript - \uXXXXを使わない理由 そんなことは、ない。 JavaScriptには\uXXXXがあるんですよ[文系大学的IT系の悲哀] dankogaiさんはあまりJavaScriptのリテラルに詳しくないのかな? \uXXXXを使わないのは、訳がある。 理由は、こちら。 404 Blog Not Found:javascript - encodeURIUnicode()と%uXXXX問題 ただし、この「ほぼ」という奴がくせ者で、現状JavaScriptでは、BMPより上の文字はJavaと同じくSurrogate Pairで表現する。例えば「𪚲」(U+2A6B2)は、実体参照では𪚲なのだが、"𪚲".lengthは2であり、escape表現だと%uD869%uDEB2となる。 これが

    javascript - \uXXXXを使わない理由 : 404 Blog Not Found
    nipotan
    nipotan 2008/01/15
    BMP 超えられない的な言語仕様の話。
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • DBIx::Class経由で取得する文字列にUTF-8 flagを付けたい[Catalyst] - ヒルズで働く@robarioの技ログ

    以前からブログに書こうかどうか迷っていたものです。 DBIx::Class::UTF8Columnsでできるんですが、カラムを指定するのが面倒。 MySchemaはDBIx::Class::Schema::Loaderで自動生成してることもあって、あんまりMySchema/*をいじりたくない。 というわけで、inflate/deflate(DBIx::Class::InflateColumn)でやってます。 もっと簡単な方法あるんじゃないかなあ、と思って改めてCPANを探してみたのですがしっくりくるものが見当たらず。 とりあえず晒しておきます。 package MyApp::Model::MyModel; use base qw(Catalyst::Model::DBIC::Schema); my $inflate_utf8 = sub { my $value = shift; if (

    DBIx::Class経由で取得する文字列にUTF-8 flagを付けたい[Catalyst] - ヒルズで働く@robarioの技ログ
  • Perl で utf8 文字列を byte サイズで split する - shag の日記

    utf8 な文字列を特定のバイトサイズで切り分ける処理って Perl でどう書けば一番良いのかを長いこと考えてた(あまり困ってはなかった)んだけど、UTF-8文字列をバイト数でカットした時の末尾の処理 見たら簡単に書けた。 #!/usr/bin/perl use strict; use warnings; use Encode qw( is_utf8 decode _utf8_on ); require bytes; my $utf8 = decode( 'euc-jp', "この日語テキストは euc-jp で書かれていますが utf8 に変換されます" ); my @splited = byte_split( $utf8, 12 ); binmode STDOUT, ':utf8'; printf "utf8 string = %s\n", $utf8; for my $str (@

    Perl で utf8 文字列を byte サイズで split する - shag の日記
  • perl - use utf8; : 404 Blog Not Found

    2007年05月10日19:00 カテゴリLightweight Languages perl - use utf8; 添削というより、ちょうどutf8 pragmaを説明するのにいい例題なので。 はこべにっき# - Web::Scraper便利! my $left = decode_utf8('『'); my $right = decode_utf8('』'); スクリプトがUTF-8で書かれている場合は、わざわざdecode_utf8('リテラル');とするより、最初にuse utf8;としておくのが吉。 この点を明らかにするために、以下のcode snippetを示す。 #!/usr/local/bin/perl use strict; use warnings; use Encode (); use Devel::Peek; { use utf8; my $name = '小飼弾'

    perl - use utf8; : 404 Blog Not Found
  • XML::SimpleのXMLinで、UTF-8 flagがonになるときとならないときがあるのはなぜでしょう?→解決 - 結城浩のはてなブログ

    いつも教えてクンで申し訳ありません。PerlUTF-8 flagに詳しい方に質問です。 以下のCGIをWindowsで動かしたときと、Freebsdで動かしたときに振る舞いが変わる理由を知りたいと思っています。 sample.cgi #!/usr/bin/perl use strict; use warnings; use Encode; use Data::Dumper; use XML::Simple; my $ref = XMLin('input.xml'); print "Content-type: text/html; charset=UTF-8\n\n"; print '<pre>'; print Dumper($ref); if (utf8::is_utf8($ref->{name}->[0])) { print 'ON'; } else { print 'OFF'; }

    XML::SimpleのXMLinで、UTF-8 flagがonになるときとならないときがあるのはなぜでしょう?→解決 - 結城浩のはてなブログ
  • subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes
  • [を] Perl 標準入力と utf8

    Perl 標準入力と utf8 2007-02-07-1 [Programming] 自戒を込めた自分用メモ。 基レベルの話だろうけど、はずかしながらちょっとはまってたので。 test.pl : #!/usr/bin/perl use strict; use warnings; use Encode; use utf8; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; while (<>) { print if (/[ぁ-ん]/); } というコードを書いた。 しかし、 test.pl は行けるが、 test.pl utf8.txt はだめ。 で、こうした。 #!/usr/bin/perl use strict; use warnings; use Encode; use utf8; binmode STDOUT, "

  • [を] UTF-8 で半角カナを判定

    UTF-8 で半角カナを判定 2006-11-09-3 [Programming] PerlUTF-8 で半角カナを判定するには、 顔文字みたいな正規表現を使うと良いみたい。 なお、下記では全角になっていますが、「。」「゜」は半角です。 print if /[。-゜]/; 以下、確認スクリプト utf8hankana-test.pl。 begin 755 utf8hankana-test.pl.gz M'XL("+7C4D4``W5T9CAH86YK86YA+71E<W0N<&P`1<_)2L-@$,#Q^SS%9[Q8 ML>0J1H1"]>K!>'()M48-U"A)BP<1M.[5NN];L>[[OFM]F"IXZROX5P\._&!F MF!F8XB(]X7MZB^/JW;87DV+UF4Y]'<SEDR?YP51)O5D3+`](PK>5'_><:-SX MS7L

  • 1