タグ

hadoopに関するfunc09のブックマーク (6)

  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp

    はじめに Hadoopとは、Googleの基盤技術であるMapReduceをJavaでオープンソース実装したもので、分散処理のフレームワークです。Hadoopを使うと、1台のサーバでは時間の掛かるような処理を、複数のサーバで分散処理させることができます。「⁠処理を割り振ったサーバが壊れた場合どうするか」などの耐障害性の問題もHadoopが管理してくれるため、利用者は処理のアルゴリズムのみに集中することができるのです。素晴らしいですね。最近ではYahoo!はてななど、様々な企業でも利用されるようになってきています。 Hadoop導入の背景 筆者はクックパッド株式会社に勤めています。open('http://cookpad.com'); return false;">クックパッドというサイトが有名だと思いますが、他にも携帯版クックパッドであるopen('http://m.cookpad.co

    第28回 RubyとHadoopで分散処理 Hadoop Streamingの仕組み | gihyo.jp
  • 大規模なデータセットを効率的に扱うための Pig 超入門 - (゚∀゚)o彡 sasata299's blog

    2010年07月07日22:38 Hadoop 大規模なデータセットを効率的に扱うための Pig 超入門 Pig あるじゃないですか。Hadoop のラッパーで、DSL で書けるというアレです。 最近は TwitterYahoo! などで使われているらしき Pig。Hadoop を扱う場合、mapper と reducer をそれぞれ記述する必要がありますが、この Pig を使うと DSL を書くだけで内部的に処理を mapper, reducer として実行してくれます。その結果、記述量が減って開発時間が短縮できるというメリットがあります。アイコンがもう少し可愛ければ、、と思うと残念でなりません。なんだこのドヤ顔は・・ 今まで「良さそうだなー」と思いつつ触れていなかったのですが、今回触ってみる機会があったので軽くまとめておきます。※Pig を動かす環境については出来ている前提です。

    func09
    func09 2010/11/04
    これならすぐ試せそうだ
  • Hadoopを使うメリットを2つ挙げてみる - (゚∀゚)o彡 sasata299's blog

    2010年09月29日19:34 Hadoop Hadoopを使うメリットを2つ挙げてみる 最近では、Hadoop を使ってるよー、という声もちらほら聞こえてきました。しかし、名前ばかりが先行していて、「一体何が凄いのかよくわからない」、「Hadoop を使うと何が嬉しいの?」という人も多いのではないでしょうか。そこで Hadoop を使うメリットとは一体なんなのかを改めて書いてみようかと思います。 Hadoop を使うメリット、僕は2つあると思っています。 (1) たくさんのサーバを使って分散処理できる これは多分ほとんどの方がご存知なのではないでしょうか?というかこれぞまさに Hadoop を使うメリットでしょ?って感じですね。大規模なデータを扱う際に、1台ではなく10台とか20台とか使えばそりゃあ早くなるよねって話です :-D とは言っても Hadoop 登場以前は、特定のサーバが壊

  • Hive on AWS @ COOKPAD - クックパッド開発者ブログ

    こんにちわ。サービス開発担当の勝間です。クックパッドの1年の最大のピークであるバレンタインが終わり、少し落ち着きをとりもどした技術部からお届けします。 さて、先日秋葉原で「第0回 AWS User Group - Japan勉強会」が開催されました。100人を超す参加者の中、AWSのエバンジェリストJeff Barrさんの講演があったり、内容の濃いLTが続いたりと、非常に大盛況でした。そんなLTに僕も参加して、クックパッドのバッチシステムとAWSとの連携について話してきました。 クックパッドではAWSとしてEC2, S3をつかって分散解析環境を構築して、Hiveを使ったデイリーのログ解析を行っています。LTではそれらの話をしたのですが、5分と限られた時間では駆け足の発表になってしまったので、当日じっくり話せなかった箇所などを確認いただければと思います。 [slideshare id=328

    Hive on AWS @ COOKPAD - クックパッド開発者ブログ
  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
  • 1