タグ

Hadoopに関するtsupoのブックマーク (10)

  • 進化するHadoop、戸惑うユーザー

    「Hadoop」はこれまでのバッチ処理という枠を越え、汎用の分散データ処理プラットフォームへと進化し始めている。Hadoop上でSQLクエリーを高速に処理したり、インメモリー処理を実行したりすることも可能になった。しかしHadoopの急速な進化は、ユーザーに思わぬ影響も与え始めている。 Hadoopの進化を下支えしているのが、Apacheソフトウエア財団(ASF)が2013年10月に正式版をリリースした「Hadoop 2」が搭載する「YARN」である。クラスター管理とスケジューリング管理を司るYARNが追加されたことによって、MapReduce以外の様々な処理方式をHadoopクラスター内で同時に実行できるようになったからだ。 Hadoopのディストリビューション(検証済みパッケージ)のベンダーである米ホートンワークスのロブ・ベアデンCEO(最高経営責任者)は、2014年6月に開催した「H

    進化するHadoop、戸惑うユーザー
    tsupo
    tsupo 2014/06/27
    従来のHadoop、つまりYARNを使わないHadoopのことを「Traditional Hadoop」と呼んでいる / 開発リソースをHadoop 2に注力し、Traditional Hadoopに対する性能改善や機能追加を、ほぼ止めてしまった
  • 試すのが難しい―機械学習の常識はMahoutで変わる

    ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop(以下、Hadoop)の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。 活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。 そもそも、機械学習とは? 機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ(すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ)、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。 機械学習をビジネスに活用した例は、レコメンド(ユーザーや商品

    試すのが難しい―機械学習の常識はMahoutで変わる
    tsupo
    tsupo 2012/03/08
    Hadoopによって並列分散処理のハードルが下がった / これまであきらめていた大量のデータによる機械学習が現実的な選択肢になる / Mahoutはヒンディー語由来の「象使い」という意味
  • Hadoop Advent Calendar 27日目 PigでJOINできない! - White scenery @showyou, hatena

    Hadoop Advent Calendarの27日目を担当します、showyouです。今日は自分とHadoopの1年でも書こうと思いましたが、誰もそんなの読みたいと思わないので軽いTipsでも書きます。 自分は業務や趣味でPigとかHive(を少し)とExcelを(大量に)使っています。個人的に今まで触った感じを書いてみます。主観に基づくので話半分に聞いてください。 Hive まずHiveのいい点を書いておきます。 SQLっぽい言語で、SQLに慣れてれば割と書きやすい 実行時にエラーが出ている場所が(Pigと比べて)わかりやすい partitionで高速化できる クエリがでかいと途中でこける場合がある テーブル作るのが面倒。間違ったテーブル定義すると検索できなくてエラーになることもある Pig 次にHiveに比べるとユーザ数が少なそうですが、PigのHiveと比べた特徴を書いときます ク

    Hadoop Advent Calendar 27日目 PigでJOINできない! - White scenery @showyou, hatena
    tsupo
    tsupo 2011/12/28
    Excel使いまくりなのか
  • Eventbrite

    Your version of Internet Explorer is not longer supported. Please upgrade your browser.

    Eventbrite
    tsupo
    tsupo 2011/08/25
    2011年9月26日 10:00-18:30 ベルサール汐留
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
    tsupo
    tsupo 2011/06/22
    テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説
  • Hadoopの死角、COBOLバッチ処理の並列化

    Hadoopの死角、COBOLバッチ処理の並列化:現場にキく、Webシステムの問題解決ノウハウ(8) 連載は、日立製作所が提供するアプリケーションサーバ「Cosminexus」の開発担当者へのインタビューを通じて、Webシステムにおける、さまざまな問題/トラブルの解決に効くノウハウや注意点を紹介していく。現在起きている問題の解決や、今後の開発のご参考に(編集部) クラウドで可能になった大量データ処理とバッチ処理 クラウド・コンピューティングを前提として、多数のサーバを使い大量のデータ処理をするための手法として、「MapReduce」や、MapReduceをJavaで実現するフレームワーク「Hadoop」に代表される分散並列処理に注目が集まっている。 多数のサーバを使い計算処理を並列化し、それまで非現実的と思われていた大量の計算処理も可能とする手法で、まさに「クラウド時代の技術」といえるだ

    Hadoopの死角、COBOLバッチ処理の並列化
    tsupo
    tsupo 2011/01/27
    グリッドバッチソリューション / 既存のバッチ処理プログラムを書き直さずに並列処理 / 入力データをうまく分割し、複数のサーバ上で並列処理させ、プログラムの出力を再結合
  • グーグルがHadoopにMapReduce特許の利用を許可

    大規模分散処理の技術として知られるMapReduceは、グーグルが検索エンジンの基盤技術として開発したもの。そして同社はMapReduceの特許を1月に取得していました。 グーグルMapReduce特許を取得。Hadoopへの影響は? - Publickey グーグルが特許を保有していることでMapReduceのオープンソース実装であるHadoopに対する影響が心配されていましたが、Apache Foundationの弁護士がグーグルの弁護団から特許の利用許可を得たことを明らかにしました。 予想通りの展開に 4月23日付けでYahoo!のHadoopチームアーキテクトOwen O’Malley氏がメーリングリストに投稿した「Re: License for Google's patent」というメッセージ。この中でApache Foundationの弁護士が、グーグルからの特許利用許可を伝

    グーグルがHadoopにMapReduce特許の利用を許可
    tsupo
    tsupo 2010/04/27
    「グーグルがMapReduceの特許を取得したことがあきらかになったときから、これは単なる防衛目的の特許取得であって、Hadoopの脅威とはならないと予想されていました。予想通りの展開となったわけです」
  • 優良企業はなぜHadoopに走るのか

    ちなみに、この分析のために必要とされるMapReduceのコードであるが、そのサイズはわずか20ステップだという。Yahoo!のプレゼンテーターである、エリック・バルデシュバイラー氏によると、たとえ経験の浅いエンジニアであっても、MapReduceによるプログラミングは可能であるとされる。 また、VISAのジョー・カニンガム氏からも、貴重なデータが提供されていたので以下に紹介する。同社では、1日に1億トランザクションが発生するため、2年間で700億強のトランザクションログが蓄積され、そのデータ量は36テラバイトに至るという。こうしたスケールのデータを、従来のRDBを用いて分析するには、約1カ月の時間が必要とされてきたが、Hadoopを用いることで13分に短縮されたという。 これまでは、Yahoo!にしろVISAにしろ、膨大なデータをRDBに押し込むほかに方法はなく、その分析に数十日を要する

    優良企業はなぜHadoopに走るのか
    tsupo
    tsupo 2009/10/15
    増え続けるデータを効率よくハンドリングするための仕組みとしてRDBに変わる選択肢をMapReduce型のHadoopに求める動き / 「もう、特定のデータベースベンダーに、膨大なライセンス料を支払う時代ではない」
  • アマゾン、ウィザードだけで使えるHadoopサービス開始 - @IT

    2009/04/02 米アマゾンの子会社、Amazon Web Services(AWS)は4月2日、多数のOSインスタンスを起動して大規模分散処理を行える「Amazon Elastic MapReduce」のベータサービスを開始した。 Amazon Elastic MapReduceは、オープンソースの分散処理フレームワークApache Hadoop 0.18.3を利用したサービスで、Webブラウザベースの管理コンソールやコマンドラインツール、APIを使ってジョブを投入することで、大量データの解析や計算量の多い科学計算、統計処理が可能。大量のログ処理や機械学習、金融計算、データマイニング、Webサイトのインデクシング処理などに使えるという。 ジョブを処理するノードは、従来からAWSが提供しているAmazon EC2で稼働し、データの入出力にはAmazon S3が使える。データの入力にはイ

    tsupo
    tsupo 2009/04/03
    Amazon Elastic MapReduceは、Apache Hadoop 0.18.3を利用したサービス / Java、Ruby、Perl、Python、PHP、R、C++ / 起動できるノード数に制限はないが、20インスタンス以上利用する場合には、事前に申請が必要
  • 九州大学にクラウド現れる

    IBMと九州大学大学院システム情報科学研究院は12月2日、次世代の分散コンピューティングを研究、検証することができるクラウド・コンピューティング環境を同研究院に構築することで合意したと発表した。分散コンピューティング技術である「Hadoop」の検証などを行う。 日IBMはクラウド用ノードとして同社のブレードサーバ「IBM BladeCenter HS12/HS21」を同研究院に導入。まずはサーバブレード2台からはじめ、拡張する計画。日IBMは技術者を派遣し、同研究院で履修する10人の院生と共にHadoop環境の要件定義、構築を行い、学内外での活用の可能性を探る「プロジェクト・ベースド・ラーニング」を行う。 同研究院は今後、クラウドについての教育コースの開設や、学内IT基盤、外部インフラへのクラウドの適用を目指すとしている。 日IBMは、晴海事業所内にクラウドの検証施設を開設し検証

    九州大学にクラウド現れる
    tsupo
    tsupo 2008/12/03
    日本IBMは、晴海事業所内にクラウドの検証施設を開設し検証を行っているが、外部組織へのクラウド環境の構築は今回が初めて / 米IBMは米グーグルと協力し、米国のワシントン大学やマサチューセッツ工科大学、スタンフォード大学などにクラウド環境を構築する取り組みを行っている
  • 1