タグ

2008年8月4日のブックマーク (4件)

  • MapReduce::Liteで手軽に分散処理 - はこべにっき ♨

    Googleを支える技術 ?巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)」を読み終えたので,id:naoyaさんの作ったMapReduce::LiteでMapReduceを試してみた.以下は,MapReduce::Liteを使ってみたメモなど.あくまでもメモなので,くわしくMapReduceの勉強をしたいひとは,id:naoyaさんの記事(MapReduce - naoyaのはてなダイアリー)がおすすめです. MapReduceは,MapとReduceの二つを組み合わせて実現できる処理を,分散処理化するGoogle技術.すばらしい抽象化ですね. id:naoyaさんの作ったMpaReduce::Liteは,MapReduceの仕組みをPerl上で実現したモジュール.ただ,MapReduce::Liteでは,処理をマシンごとに割り当てて分散しているわけではなく,ス

    MapReduce::Liteで手軽に分散処理 - はこべにっき ♨
  • Data::Decode - D-6 [相変わらず根無し]

    Data::Decode もうアホか、っていうくらいウェブから持ってきたデータを文字コードを解析してutf-8に正規化するみたいなコードを書いてきたので、いい加減飽きてきた。今使ってるモジュールでもそう言う事してくれるのでいいのだけど、なんかそれぞれのモジュールでそれぞれ別の書き方するのもなんだかなぁ・・・と思って、Data::Decode書いたですよ。 Data::Decodeは中身が完全にプラッガブルなので基はインターフェースを提供するだけなのです。残りは中に指定するオブジェクトをつなげて行く感じ。 use Data::Decode; use Data::Decode::Chain; use Data::Decode::Encode::Guess; use Data::Decode::Encode::HTTP::Response; my $response = $ua->get($

  • OpenID とプライバシーについて - 日向夏特殊応援部隊

    高木先生の大作である日のインターネットが終了する日を受けて、僕の日記のコメント欄にてid:futureeyeさんから質問が来ていたので、個人的な見解としての回答をしたいと思います。 名寄せの問題 a サイトで住所氏名Eメールアドレス等の個人特定情報を入力することによって、その個人特定情報と契約者固有ID(iモードID等)とが紐付けられ、ネット上での行動履歴情報が契約者固有IDを手掛かりに収集され(名寄せされ)、その収集情報と個人とが結び付けられる。 そもそも前提として携帯キャリアが確認無く契約者固有IDを任意のサービスに対して公開するという行為と、OpenIDのようにユーザの同意の下に Relying Party ( OpenID 認証を提供されるサービス ) に対して公開するのでは話のレベルが全然違います。 とは言え名寄せと言う点ではクロールして公開されている全ページを収集すればある程

    OpenID とプライバシーについて - 日向夏特殊応援部隊
  • TermExtract Perlで出来る特徴語抽出 - プログラマになりたい

    PerlのCPANモジュールを使って、簡単にベイジアンフィルターを使う方法を紹介したエントリーが思いのほか好評でした。ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと  調子に乗ってもう一つ、お気に入りのCPANモジュールの紹介です。日語の形態素解析といえばMeCabでほぼ間違いないのですが、MeCabはあくまで形態素解析器です。ということで、最小単位の形態素を検出することは出来ますが、連語等は分解されて出てきます。(当はちょっと工夫したら出せるのですが、それはまた次回)例えば、「集合知」という言葉が出てきたら、下のように分解されて出てきます。 集合 名詞,サ変接続,*,*,*,*,集合,シュウゴウ,シューゴー 知 名詞,一般,*,*,*,*,知,チ,チ 使い方にもよりますが、集合知という言葉で取りたい場合も多いと思います。以前、Yahoo!APIと組み合わせ