タグ

2009年3月3日のブックマーク (11件)

  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • Web::Scraperで正規表現を使って必要なリンクだけを取得する方法 - 日曜プログラマのそゞろ事

    わかってしまえば単純なことでした。 process 'a[href=~/\.jpe?g$/]', 'urls[]' => '@href'; XPathでも同じようにできます。 process '//a[@href =~ /\.jpe?g$/]', 'urls[]' => '@href'; Web::Scraperにはフィルタの概念があって、取得してからごにょごにょできるので、そっちのほうばかり調べていました。 例えば以下のようなHTMLの場合、そのまま取得すると、前後に改行が入ってしまいます。 <title> タイトルなのだ </title> で、それを取得する時に、前後の改行を削除してやることができます。 process 'title', 'title' => ['TEXT', sub { s/^\s+//o; s/\s+$//o; } ]; こういう機能をフィルタと呼んでいます。 その

  • Web::Scraperに入門した - 日曜プログラマのそゞろ事

    かなーり今更感がありますが。 モジュール自体は、大分前にウェブにあったスクリプトをコピペして使ったときにインストール済みでしたが、なんとなく難しそうで敬遠していたところもありました。 が、やってみると簡単かつパワフルなモジュールであることがわかりました。 参考:use Web::Scraper; - 今日のCPANモジュール XPathがなかなかわからないのですが、CSSセレクタでもいけるのが超絶簡単です。 例えば、aタグのhref属性を取得する場合のprocessは以下のとおり。 process 'a', 'urls[]' => '@href'; で、この場合だと、href属性がないaタグも対象になってしまうので、未定義(undef)が入る場合があります。 なので、href属性があるものだけを対象としたのが以下のprocessです。 process 'a[href]', 'url

  • Introduction to Information Retrieval #18 の復習資料 - naoyaのはてなダイアリー

    Introduction to Information Retrieval 輪読会 18章の復習資料を以下にアップロードしました。 http://bloghackers.net/~naoya/iir/ppt/iir_18.ppt 18章のテーマは "Matrix decompositions and latent semantic indexing" で、行列の特異値分解と Latent semantic indexing (LSI, 潜在的意味インデキシング) でした。ベクトル空間モデルの核である単語文書行列を特異値分解を用いて低階数近似し、計算量を下げながらも*1適合度を向上させるという LSI についての解説の章です。LSI に関しては http://d.hatena.ne.jp/naoya/20090212/latent_semantic_indexing にて先日少し言及しました

    Introduction to Information Retrieval #18 の復習資料 - naoyaのはてなダイアリー
  • カタンブック翻訳プロジェクト

    Japanische Uebersetzung des Buchs fuer Siedler von Hammer, Horiyan, Ono Japanese Translation of the Catan Book by Hammer, Horiyan, Ono

  • nanoaでPerlを学習 その3 utf8プラグマ - LAPISLAZULI HILL#diary

    今回はutf8について.詰め込むにも削るにもなかなか大変です.utf8関連という意味ではいろいろ書くことがありますが,ここではプラグマに絞って書きます 表紙/目次 use utf8; utf8というのは文字コードです.コンピュータ上での文字の表し方のひとつです.ブラウザを使っていればshift_jisとかeuc-jpという単語を見ることがあると思いますが,それの仲間です.どれも日語も表現できる方法です というわけでこのuse utf8宣言(これもstrictやwarningsと同じプラグマ宣言です!)は,utf8でソースを書きますよ!という宣言なのです.いつもこんな感じになってしまいますが,この宣言をしておけばソースをutf8をとして扱えるようになるとわかっていれば(とりあえず)読む必要はないかもしれません ファイルをutf8で保存する utf8で日語を表現しますが,ファイルに保存する

    nanoaでPerlを学習 その3 utf8プラグマ - LAPISLAZULI HILL#diary
  • perl - Text::Tx now released! : 404 Blog Not Found

    2009年02月22日00:15 カテゴリ perl - Text::Tx now released! 以前作って放置してあったText::Tx を、CPAN にも Release したのでお知らせします。 /lang/perl/Text-Tx/L/trunk - CodeRepos::Share - Trac Dan Kogai / Text-Tx/ - search.cpan.org http://www.dan.co.jp/~dankogai/cpan/Text-Tx-0.02.tar.gz 404 Blog Not Found:perl - Text::Tx も一応作った CPANにまだ上げない理由その一。txはlibraryとして素直に使うにはちょっと問題があるのです。 もう一つは、なぜか Mac OS X v10.4.11 の gcc 4.0できちんとcompileしないこと。

    perl - Text::Tx now released! : 404 Blog Not Found
  • Key-Value Store 勉強会を開催しました。 - moratorium

    Key-Value Store 勉強会を開催しました。 2009-02-26 (Thu) 3:08 勉強会 もう先週の金曜日になりますが、Key-Value Store勉強会というのを開きました。 既に素晴らしいまとめエントリが有りますので、詳細はこちらをご覧下さい。 Key-Value Store勉強会に行ってきました by katsumaさん Key-Value Store勉強会 by shudoさん はてなブックマーク「kvs」タグ UStream録画動画 by ichiiさん 日経BP社 中田さまには、草の根的勉強会にも関わらず、記事にして頂きました。有難うございます。 「キー・バリュー型データストア」開発者が大集合した夜 また、講師の方々に発表資料等をアップロードして頂いております。 末永さん: 全文検索エンジンgroongaをテストリリースしました 山田さん: About L

  • テクノロジー : 日経電子版

    遺伝子を効率よく改変するゲノム編集研究の第一人者で米ブロード研究所のフェン・チャン主任研究員は、エボラ出血熱やジカ熱の早期診断技術を開発したことを明らかにした。ウイルスの遺伝情報が…続き 受精卵のゲノム編集、なぜ問題 優生思想と表裏一体 [有料会員限定] ゲノム編集品 販売容認、条件満たせば安全審査なし [有料会員限定]

    テクノロジー : 日経電子版
    yokochie
    yokochie 2009/03/03
    社と前後して、ドコモは「アンサー」というキーワードを打ち出したが、夏野は「お客様にアンサーしていても新しいものは生まれない」と手厳しい。「お客さんは新しいサービスを見たことがないんだから」
  • Webサービスの開発にフレームワークが必要な理由 ~Perl/Ruby/PHPユーザーのためのMVCフレームワーク入門~

    はじめに 前回はRuby/PHP/Perl、それぞれの言語ごとにフレームワークとテンプレートエンジンについて比較を行いました。これにより、現在のWebアプリケーション開発に求められる仕組みを俯瞰できたと思います。 今回はこの比較を基に、Ruby on Railsのこれまでの動向を追いながら、『どのようなフレームワークが自分にふさわしいのか』を考えていくことにします。また、最後に前回の記事で掲載しきれなかった各言語のフレームワークを紹介します。 「Perl/Ruby/PHPユーザーのためのMVCフレームワーク入門」これまでの記事 第1回「効率的なWebアプリ開発の定石」 第2回「言語別フレームワークの比較」 フレームワークについて調査・分析を フレームワークの目的は、汎用処理を系統立てた仕組みの中に内包することで、プログラマの作業の効率化とWebアプリケーションの保守性を高めることにあります

    Webサービスの開発にフレームワークが必要な理由 ~Perl/Ruby/PHPユーザーのためのMVCフレームワーク入門~
  • javascript - ソースを見せてかつ動かすための3つのtips : 404 Blog Not Found

    2009年02月24日04:30 カテゴリLightweight LanguagesTips javascript - ソースを見せてかつ動かすための3つのtips livedoor Blogを私が愛用しつづけている理由のひとつが、JavaScriptを受け付けること。 おかげでかなりのentriesが溜まりましたが、それだけにで実行用のソースと表示用のソースを用意するのが人一倍おっくうに感じられます。そんなわけで、どうやれば怠慢をもっと発揮できるかをまとめてみました。 0. DOMにIDをふらずにデモる こんな感じのデモがあったとしましょう。「404 Blog Not Found:javascript - Array#sortがオレquicksortより遅い!?」にあるものを書き直したものです。 # of Items: よくあるのは、inputタグやpreタグにIDをふって、docume

    javascript - ソースを見せてかつ動かすための3つのtips : 404 Blog Not Found