タグ

Hadoopに関するgiassのブックマーク (10)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
    giass
    giass 2017/07/10
  • めざせ!Hadoopエンジニア―開発者編―

    大規模データを処理するための基盤の一つとして、分散処理プラットフォームであるHadoopが広く使われるようになり、その勢いは世界中で加速しています。一方、大規模データの分析、活用のための人材不足が深刻化し、人材育成が急務となっている企業も少なくありません。記事では、大規模データ処理基盤として注目されているHadoopの歴史と共に、Hadoopのスキルを客観的に証明できるHadoop認定プログラムを前/後編に分けて紹介します。 Hadoopが注目される理由 ハードウェアの進化に伴ってサーバの性能は年々向上しています。ムーアの法則にあるように、その中でもCPUなど半導体の性能は著しく向上しています。 一方でハードディスクの性能はこれに追いついておらず、データの読み書き時には待ち状態になってしまう場合もあるでしょう。 つまり、データ量が多ければ多いほど、待ち状態がボトルネックとなってしまうので

    めざせ!Hadoopエンジニア―開発者編―
    giass
    giass 2012/06/21
  • Hadoopの現実解「バッチ処理」の常識をAsakusaで体得

    Hadoopの現実解「バッチ処理」の常識をAsakusaで体得:ビッグデータ処理の常識をJavaで身につける(7)(1/4 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 “ビッグデータ”時代の「バッチ処理」 アプリケーション開発というと、システム利用者に一番近い画面系の開発が花形ですね。一方「バッチ処理」というと、何となく地味な感じがしますが、「バッチ処理」は縁の下の力持ち、これがないと、大概のシステムは稼働できません。 絶対に必要だけど、影の薄い「バッチ処理」でしたが、“ビッグデータ”への注目度が高まり、大量データを短時間に処理する「並列分散処理バッチ」が活躍する場面も増えてきました。 稿では、並列分散で「バッチ処理」を行う方法につい

    Hadoopの現実解「バッチ処理」の常識をAsakusaで体得
  • Hadoopをインストールしよう

    Hadoopを動かすには、少なくとも1台のLinuxマシンが必要になります。実際に効果を得るためには、巨大なデータと、物理的に多数のPCを用意する必要があります。 Hadoopには3つの動作モードがあり、どのモードを動かすかによって必要な環境が異なります(表1)。記事では、1台のマシン上でHadoopの各デーモンを起動する「疑似分散モード」を動かし、Hadoopの動作を確認します。 Linux環境の準備 まず最初に、Linuxが動作する環境を準備してください。もし古いPCなど、現在使っていないPCがあれば、そこにインストールすればいいでしょう。そのような余ったPCが無ければWindowsマシン上の仮想化ソフトで、Linuxを使うという方法もあります。 Linuxのインストールは極めて簡単です。Linuxをこれまでまったく触れたことがない人でも、GUIの操作で簡単にインストールできます。L

    Hadoopをインストールしよう
    giass
    giass 2012/03/13
  • TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る

    大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング(Doug Cutting)さんが「Cloud Computing World Tokyo 2011」&「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。 満員の客席。 皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。 まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕

    TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る
  • ウルシステムズのHadoopフレームワーク「Asakusa」

    企業ITに携わる人々の間で、Hadoopに対する関心が急速に高まっている。Hadoopとは、米Googleが発表した論文のアイデアから生まれた、オープンソースの分散処理基盤ソフトウェアである。大量のデータを、比較的安価なサーバを多数並べたクラスタシステム上で、高速かつ効率的に処理できる。既に多くの企業が、Webログの分析やPOSデータの解析といった情報系システムの用途で、Hadoopの活用を始めている。 さらに近年では、大量データを高速処理できるHadoopのメリットを、基幹系システムにも応用しようという動きが出てきている。特に、基幹バッチの処理を高速化するための技術として、Hadoopに大きな期待が寄せられている。しかしその半面、Hadoopを基幹系システムで導入するには、技術的なハードルが数多く存在するともいわれている。 ここに目を付けたのが、ウルシステムズだ。同社が2011年3月にオ

    ウルシステムズのHadoopフレームワーク「Asakusa」
    giass
    giass 2011/03/23
  • Hadoop基幹バッチを簡単に開発するDSL、ウルシステムズがOSSで公開 | IT Leaders

    2011/02/09 17:55 ウルシステムズは2011年3月頃から、受発注など基幹業務の日次・月次バッチを高速に処理するためのソフトウエア開発コンポーネント「Asakusa Framework」を、オープンソースとして公開する。分散処理基盤ソフト「Apache Hadoop」の使い勝手を高める上位層のソフトであり、Hadooopの仕組みを知らなくても分散バッチ処理システムを開発できる。構成要素は大きく、以下の通り。(1)上位言語で設計したバッチ処理をHadoopのJavaコードに変換・実行する開発機能(Ashigel Compiler)、(2)MySQLのテーブル情報を元に、Hadoopの入出力データ形式に合わせたデータ・クラスとテスト・データを生成するモジュール(Model Generator)、(3)これらを統合管理する統合テスト・ツール、である。 Ashigel Compiler

    giass
    giass 2011/02/10
  • Hadoopの死角、COBOLバッチ処理の並列化

    Hadoopの死角、COBOLバッチ処理の並列化:現場にキく、Webシステムの問題解決ノウハウ(8) 連載は、日立製作所が提供するアプリケーションサーバ「Cosminexus」の開発担当者へのインタビューを通じて、Webシステムにおける、さまざまな問題/トラブルの解決に効くノウハウや注意点を紹介していく。現在起きている問題の解決や、今後の開発のご参考に(編集部) クラウドで可能になった大量データ処理とバッチ処理 クラウド・コンピューティングを前提として、多数のサーバを使い大量のデータ処理をするための手法として、「MapReduce」や、MapReduceをJavaで実現するフレームワーク「Hadoop」に代表される分散並列処理に注目が集まっている。 多数のサーバを使い計算処理を並列化し、それまで非現実的と思われていた大量の計算処理も可能とする手法で、まさに「クラウド時代の技術」といえるだ

    Hadoopの死角、COBOLバッチ処理の並列化
  • Hadoop MapReduceプログラムを解剖する

    オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体からでさえも、新APIを使ったサンプルが提示されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

  • IBM版Hadoopでクラスターを簡単セットアップ

    はじめに IBM版Apache Hadoop(英語名:IBM Distribution of Apache Hadoop / 通称:IDAHO)とは、IBMのJava VMで動く、インストーラー付きApache Hadoopです。先進テクノロジー・ソフトウェアの無償ダウンロードサイト「IBM alphaWorks」で公開されています。 記事執筆時点では、32-bit Linux version of the IBM SDK for Java 6 SR 8で稼働します。また、IDAHO-1.0では、Apache Hadoop version 0.20.2をベースにしています。 IDAHOには、Web-UIによるインストーラーがついています。SSH設定、Javaランタイム、Hadoopなどの設定を自動的に行いますので、Hadoopクラスターのセットアップが簡単に行えます。また、一回の作業で複

    IBM版Hadoopでクラスターを簡単セットアップ
  • 1