タグ

utf8に関するlesamoureusesのブックマーク (33)

  • Yahoo!日本語形態素解析APIをコマンドラインから使うサンプルプログラム

    Yahoo!形態素解析APIをコマンドラインから使うサンプルプログラム 2008-04-05-5 [Programming][NLP] とある経緯で、Yahoo!形態素解析API[2007-06-18-1]を使った Perl のサンプルプログラムを作りました。 車輪の再発明的ですが(だれか作ってた気がする)気にしない! - Yahoo!デベロッパーネットワーク - テキスト解析 - 日形態素解析 http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html 以下コードです: #!/usr/bin/perl use strict; use warnings; use Encode; use URI::Escape; use LWP::Simple; use XML::Simple; use Getopt::Long; use

    Yahoo!日本語形態素解析APIをコマンドラインから使うサンプルプログラム
  • UTF8 フラグあれこれ - daily dayflower

    UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象: UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし, UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc, etc ... Perl は(後方互換性確保などの理由から)ISO-8859-1

    UTF8 フラグあれこれ - daily dayflower
  • utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech
    lesamoureuses
    lesamoureuses 2008/02/18
    1年以上書けてやっと少し理解できるようになった。Unicode文字列がflagged utf8でutf-8 バイト列はフラグ立てる前のことで、decode_utf8はflagged utf-8やlatin-1のみには使っちゃダメで、その時はutf8::upgrade使うのがいい
  • 404 Blog Not Found:perl - utf8::is_utf8("\x{ff}") == 0

    2008年02月18日10:00 カテゴリLightweight Languages perl - utf8::is_utf8("\x{ff}") == 0 ちょうどいい機会なので、Perl 5.8以降におけるutf8フラグの立ち方を。 unknownplace.org - 2008/02/17 - utf8::is_utf8 ということで、"\x{6751}\x{702c}\x{5927}\x{8f14}" などというData::Dumper表記でかならずしも utf-8フラグがたつわけじゃない。ということがいいたかったんだと思うのだけれど、 \x{UUUUUU}とutf8 flag まずはクイズです。以下がどう出力されるかを答えなさい。 sub pfrag{ print utf8::is_utf8($_[0]) ? 1 : 0, "\n" } pfrag "Hell\xC3, worl

    404 Blog Not Found:perl - utf8::is_utf8("\x{ff}") == 0
    lesamoureuses
    lesamoureuses 2008/02/18
    問答無用でフラグ落とす
  • utf8オンな文字列のバイト数の取得方法 - Unknown::Programming

    use utf8している時のlengthは文字数を数えてしまうけど、それ以外のときは、バイト数を数えるそうだ。ところで、以下のようにしたらutf8のバイト数が取れるんじゃないかと思うんだけど、あまりutf8文字列のバイト数に需要がないのか、ググっても例が出てこない。 何か見おとしているのかもしれないな。 use utf8; my $bytes = length unpack('a*',$utf8_str); use utf8での文字列のバイト数 これ、僕も昔取得方法わかんなくて困ったことがある。 ってことで啓蒙活動しとく。 bytes::lengthを使います。 use utf8; require bytes; my $bytes = bytes::length $utf8_str; 「require bytes」が大事ね「require bytes」が。もし「use bytes」しちゃっ

    utf8オンな文字列のバイト数の取得方法 - Unknown::Programming
  • 今日のCPANモジュール(跡地) 目次

    Redirecting… Click here if you are not redirected.

    lesamoureuses
    lesamoureuses 2008/01/07
    知らなかったー>Web::Scraper をインストールすると scraper というコマンドが入ります。これが超絶便利です。
  • ウェブリブログ:サービスは終了しました。

    「ウェブリブログ」は 2023年1月31日 をもちましてサービス提供を終了いたしました。 2004年3月のサービス開始より19年近くもの間、沢山の皆さまにご愛用いただきましたことを心よりお礼申し上げます。今後とも、BIGLOBEをご愛顧賜りますよう、よろしくお願い申し上げます。 ※引っ越し先ブログへのリダイレクトサービスは2024年1月31日で終了いたしました。 BIGLOBEのサービス一覧

    ウェブリブログ:サービスは終了しました。
  • /halt/Snapshot - EthnaでUTF8を扱うもっともシンプルな方法

    ようやくUTF8での運用に慣れたきがするので、どうやってUTF-8を使っているのか紹介。 EthnaでUTF-8なWebアプリを作る場合、templateをすべてUTF-8で書いてやればいいわけですが、ActionFormのValidateなどで表示されるEthna内部に書かれているエラーメッセージがEUC-JPの為、エラーメッセージが文字化けしてしまいます。 今までは、Ethna全体や、エラーメッセージが書かれたファイルをUTF-8化してみたりしていましたが、結構面倒です。(ちょっと力技過ぎる) そこで、エラーメッセージを表示するメソッドを継承して文字コード変換を行います。 以下のコード(Ethna_ActionError_UTF8.php)をコントローラーの設定を変更してActionErrorと置き換えるだけです。 _getActionForm(); $form_name = $af-

    /halt/Snapshot - EthnaでUTF8を扱うもっともシンプルな方法
  • Amazon Web Serviceで遊ぶ(1)

    「書名羅列スクリプトに著者名が入ってないのは何故?」 と聞かれました。 これは別に深い考えがあった訳でもなんでもなくて、元々MT-ISBNプラグイン用のBookmarkletを使いまわしてるので、Bookmarkletが書名とISBN番号しか引いて来ない、ただそれだけの理由です(^_^;) ということでBookmarkletJavaScriptを改造すればAmazonのウェブページからさらに情報を引っ張ってくることも出来るんすけども、ここはひとつ勉強のため、Amazon Web ServiceからSOAP経由でデータを引っ張る方法を試してみる事にしました。 PHPでSOAPを使うにはNuSOAPというライブラリを使うのがラクらしいので、これを(感謝を捧げてから)貰って来ます。今回頂いて来たバージョンは、1.76。 また、Amazon Web Serviceを使うためにはAmazonのwe

    Amazon Web Serviceで遊ぶ(1)
  • この先生きのこるには

    このサイトはEthnaで作られているのですが、EthnaのスクリプトエンコーディングはEUC-JP。データの保存はSQLiteでおこなっているのですが、それもEUC-JP。このあたりのエンコードをちまちま変更するのは非常に面倒なのでFilterを使ってバッファリング。最終出力をEUC-JPからUTF-8に変換しました。 コードはこんな感じ。これをControllerに追加するだけ。 php class Filter_Ob extends Ethna_Filter { /** *    実行前フィルタ * *    @access    public */ function preFilter() { mb_http_output("UTF-8"); ob_start('mb_output_handler'); } /** *    実行後フィルタ * *    @access    pub

    この先生きのこるには
    lesamoureuses
    lesamoureuses 2007/12/29
    Filterを使ってEUC-JPからUTF-8
  • Perl 5.8.x Unicode関連

    -> 趣旨と注意書き -> UTF8フラグ? -> UTF8フラグとPerlIOレイヤ -> UTF8フラグのついた文字列を記述する -> Wide character in print ... -> Encode -> utf8::* -> use utf8; -> use encoding; -> use UTF8 と use encoding -> JcodeからEncodeへ -> 情報源 <- モドル 趣旨と注意書き Perl 5.8.x のUnicode 関連です。 正直、5.8.x は、ネタでしか使ってなかったので(ぉ、ちゃんといじったことがありませんでした。 使ってみると、よくわかんなくなったので、ちょっとまとめてみました。 今でもあんまりわかってないかもしれないので、内容は無保証です。 突っ込み歓迎。 Jcode、Encodeのメンテナの弾さんから、ご指摘いただいたので、

    lesamoureuses
    lesamoureuses 2007/12/11
    とてもわかりやすい。フラグあったらencodeとか内部的な処理とか
  • Time to ditch encoding.pm: blog.bulknews.net

    Time to ditch encoding.pm Perl でソースコードにマルチバイトなリテラルを埋め込む場合には encoding プラグマを使うのが定石でしたが、 use encoding 'utf-8'; my $name = "宮川達彦"; こうすると STDIO まで utf-8 でエンコード・デコードされるという問題があり、また encoding.pm はファイルスコープで動くのでレキシカルに一部分だけバイト列として扱いたい(という需要があるかどうかは微妙ですが)というときにうまくいかず、イマイチ encoding プラグマを全面採用できず、decode() を使ったり \x{XXXX} で書いたりってことが結構ありました。 が、Juerd と RGARCIA が encoding::source と encoding::stdio (もとは encoding::split

    lesamoureuses
    lesamoureuses 2007/06/22
    この辺を全然理解してないけど後々のため。
  • perl - use utf8; : 404 Blog Not Found

    2007年05月10日19:00 カテゴリLightweight Languages perl - use utf8; 添削というより、ちょうどutf8 pragmaを説明するのにいい例題なので。 はこべにっき# - Web::Scraper便利! my $left = decode_utf8('『'); my $right = decode_utf8('』'); スクリプトがUTF-8で書かれている場合は、わざわざdecode_utf8('リテラル');とするより、最初にuse utf8;としておくのが吉。 この点を明らかにするために、以下のcode snippetを示す。 #!/usr/local/bin/perl use strict; use warnings; use Encode (); use Devel::Peek; { use utf8; my $name = '小飼弾'

    perl - use utf8; : 404 Blog Not Found
    lesamoureuses
    lesamoureuses 2007/05/11
    この辺はわからんので覚書