タグ

Hadoopに関するmario272のブックマーク (16)

  • [5]DBの未来、どうするHadoop

    DBMSが進化する方向性を議論した。分散処理ソフト「Hadoop」の連携では、積極的に進めるベンダーがある一方、それほどニーズを感じないという意見もあった。連携手法も、結果データだけなのか、処理形態も模すのかなど、多様である。Hadoopへの対応を含め、今後、各社が注力するテーマを聞いた。 司会: 今後、データベースが進化する方向性について話をしましょう。ビッグデータの活用を考えたとき、分散処理ソフト「Hadoop」の活躍が目立ちます。まずHadoop対応をどう考えますか。 SAPジャパン:岩 SAP HANAはHadoopのデータを扱うことができます。HANAは、「スマートデータアクセス」という機能を通じて、オラクルとかテラデータとか、マイクロソフトやIBMのデータベースを読み込めます。その中のアダプターの一つとしてHadoopのHiveがあり、そのデータを吸い上げて、これをHANAの

    [5]DBの未来、どうするHadoop
  • 「RedshiftはHadoopキラーになる」、FlyDataの藤川氏に聞く

    藤川幸一氏がシリコンバレーで起業した米フライデータ(FlyData)は、様々なデータソースから米アマゾン・ウェブ・サービス(AWS)のデータウエアハウス(DWH)サービス「Amazon Redshift」にデータを転送するというサービス「FlyData」を提供する。藤川氏はAWSのRedshiftが「Hadoopキラーになりつつある」との見方を示す。 フライデータのビジネスの現状はどうか? 当社はもともとハピルス(Hapyrus)という社名で、「Hadoop」のPaaS(プラットフォーム・アズ・ア・サービス)を提供することを目指して起業した。しかしHadoopのPaaSが増えてきたことを考え、現在の「FlyData」の事業にピボット(事業転換)し、社名もFlyDataへと変更した。 事業を転換したもう一つの理由が、AWSが2013年初めにRedshiftを開始したことだ。Redshiftを

    「RedshiftはHadoopキラーになる」、FlyDataの藤川氏に聞く
  • Hadoopの「開発企業」へと進み始めたNTTデータ

    オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」を使ったシステム構築やサポートの事業を手がけるNTTデータ。そんな同社が現在、Hadoopのサポート企業から「開発企業」へと変わり始めている。Hadoopのソースコード開発に関する貢献を増やし、Hadoopの「コミッター」を自社から輩出することを目指す。 「Hadoopの開発そのものに、今まで以上に足を突っ込むことに覚悟を決めた」。NTTデータの濱野賢一朗氏は、同社のHadoopに関するスタンスをこのように表現する。NTTデータは2010年7月から、Hadoopを使ったシステム構築・運用支援サービスを手がけている。NTTデータは当初、Hadoopのディストリビューション(検証済みパッケージ)のベンダーである米クラウデラと提携し、サポートを提供していた。例えば、ユーザー企業からHadoopに関するバグ修正などの要望が生

    Hadoopの「開発企業」へと進み始めたNTTデータ
  • MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏

    オープンソースソフトウエア(OSS)の分散データ処理ソフト「Hadoop」が、大きな変貌を遂げ始めている。バッチ処理だけでなく、SQLクエリーを使ったインタラクティブ分析やインメモリー処理、機械学習処理などへと適用領域を広げているからだ。Hadoopのオリジナル開発者であるダグ・カッティング氏は、「新しい時代が始まった」と語る。 現在のHadoopの状況をどのように見ているか? 同じような機能を備えたコンポーネントが複数提案されるなど重複はあるが、技術開発は非常に高速に進んでいる。(米Apacheソフトウエア財団が2013年10月に正式版をリリースした)スケジューラーの「YARN」によって、(Hadoopのストレージシステムである)「HDFS」の上に、様々なテクノロジーを共存できるようになったことが大きい。私が特に驚いているのは、(DAG:Directed Acyclic Graph=有向

    MapReduceは「ゆっくり死んでいく」、Hadoop開発者のカッティング氏
  • NTTデータが4000コアのクラスターでSparkを試行、NTTドコモからの要望受け

    写真●2014年7月に東京で開催されたHadoopのイベント「Hadoop Conference Japan 2014」で、Sparkの試行結果について発表するNTTデータ基盤システム事業部 システム方式技術ビジネスユニット OSSプロフェッショナルサービスの土橋昌主任 Hadoopによる分散クラスターを使ってビッグデータをインメモリーで高速処理できるソフト「Spark」。このSparkによるビッグデータ処理の試行結果を2014年7月、NTTデータが発表した(写真)。Sparkに注目しているユーザー企業であるNTTドコモからの要望を受け、NTTデータが実利用に近い形で約200台(4000コア)のクラスターでSparkを評価した。Sparkの実証例は世界的にもまだ少なく、先駆的な事例といえる。 Sparkはインメモリー処理が主体のため、Hadoopで一般的な処理方式である「MapReduc

    NTTデータが4000コアのクラスターでSparkを試行、NTTドコモからの要望受け
  • 第4回 ビッグデータを迅速に処理するAmazon Elastic MapReduce

    今回はAmazon Elastic MapReduce(EMR)について解説します。Amazon EMRは、Amazonクラウド内でHadoopフレームワークを利用可能にする機能です。Hadoopフレームワークとは、分散処理を実現するミドルウエアの一つで、例えば大量のログやトランザクションデータの集計などのバッチ処理を、複数のサーバーで並列処理するアプリケーションを開発できます。 Amazon EMRの用途は、ログ分析、ウェブインデックス作成、データウエアハウス、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスなど多岐にわたります。2009年にサービスを開始して以来、550万以上の Amazon EMR クラスターが利用者によって起動されています。 例えば、何万人分ものゲノム情報の収集や解析、医療情報のグローバル共有など、医療や科学の発展を目的とした国際プロジェクトで、A

    第4回 ビッグデータを迅速に処理するAmazon Elastic MapReduce
  • 進化するHadoop、戸惑うユーザー

    「Hadoop」はこれまでのバッチ処理という枠を越え、汎用の分散データ処理プラットフォームへと進化し始めている。Hadoop上でSQLクエリーを高速に処理したり、インメモリー処理を実行したりすることも可能になった。しかしHadoopの急速な進化は、ユーザーに思わぬ影響も与え始めている。 Hadoopの進化を下支えしているのが、Apacheソフトウエア財団(ASF)が2013年10月に正式版をリリースした「Hadoop 2」が搭載する「YARN」である。クラスター管理とスケジューリング管理を司るYARNが追加されたことによって、MapReduce以外の様々な処理方式をHadoopクラスター内で同時に実行できるようになったからだ。 Hadoopのディストリビューション(検証済みパッケージ)のベンダーである米ホートンワークスのロブ・ベアデンCEO(最高経営責任者)は、2014年6月に開催した「H

    進化するHadoop、戸惑うユーザー
  • 次世代Hadoop最有力候補の「Spark」、動き始めたエコシステム

    次世代Hadoopの有力なビッグデータ分析基盤として期待を集めているフレームワークがある。Apache Software Foundation(ASF)のオープンソースソフト(OSS)プロジェクトである「Spark」だ。インメモリー処理が特徴で、Hadoopにおける処理方式の一つである「MapReduce」を用いた場合と比べて最大で100倍以上、分析処理を高速化できる。 Sparkは当初、研究用途として米University of California Berkeley(UCB)の研究組織「AMPLab」で誕生したものだが、2014年5月にはASFから「バージョン1.0」が公開された。研究用途のフェーズを脱し、企業が商用で使えるソフトを目指すことを宣言した形だ(関連記事:Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開)。 Sparkに注目し、その動向に詳

    次世代Hadoop最有力候補の「Spark」、動き始めたエコシステム
  • 「100倍高速」の並列処理エンジンも実現、SQLや機械学習へと用途広げるHadoop

    「Hadoopが使えるのはバッチ処理だけ。そんな印象はもはや過去のものだ」。「Hadoop」のディストリビューション(検証済みパッケージ)のベンダーである米ホートンワークスのロブ・ベアデンCEO(最高経営責任者)は、2014年6月に開催した「Hadoop Summit 2014」でこう強調した。 Hadoopの開発元であるApacheソフトウエア財団(ASF)が、Hadoopの標準的な処理方式「MapReduce」以外の方式に対応した「Hadoop 2」をリリースしたのは2013年10月。それから半年が経過し、Hadoopで利用できる処理方式は急速に増加している(図)。

    「100倍高速」の並列処理エンジンも実現、SQLや機械学習へと用途広げるHadoop
  • ビッグデータを可視化する「SIOS OSS Dashboard」、サイオスが提供開始

    サイオステクノロジーは2013年8月29日、ビッグデータを可視化するサービス「SIOS OSS Dashboard」を開始した。「Treasure Data Platform」に蓄積されたデータをOSS(オープンソースソフトウエア)を活用し可視化する。 Treasure Data Platformは、米Treasure Dataが提供する、Hadoopを応用した大規模分散データのクラウドサービス。サイオステクノロジーは、Treasure Dataの代理店としてTreasure Data Platformを販売している。 SIOS OSS Dashboardは、Treasure Data Platformから必要なデータを取り出すための設定サポートや可視化のためのダッシュボード機能をクラウド上で提供する。3日から1週間程度の短期間での導入が可能であるとしている。 料金は、標準仕様での初期導入

    ビッグデータを可視化する「SIOS OSS Dashboard」、サイオスが提供開始
  • ビッグデータ活用の“特効薬”はあるのか?

    「ビッグデータ」――皆さんなら聞いたことのない方はいないであろう。恐らく、このコラムを読んでいる方も、「ビッグデータ」というキーワードに誘われたのがきっかけではないだろうか。 頻繁に見聞きする「ビッグデータ」という言葉だが、では「ビッグデータについて説明してください」と問われたら、明快に説明できるだろうか?はたまた、一部のビッグデータ成功企業を除いて、当にビッグデータを活用している企業はあるのだろうか? 「どんなシステムを買えばよいですか」 筆者にも、最近ビッグデータに関する問い合わせがよく来る。多いのが、「医療でのビッグデータの活用方法を教えてください」「当院でもビッグデータを活用したいのですが、どんなシステムを買えばよいですか」といった内容である。 確かに、ビッグデータ関連のソリューションを提供している企業のWeb サイトを眺めていると、「医療ビッグデータを活用することで、オーダーメ

    ビッグデータ活用の“特効薬”はあるのか?
  • https://www.aol.com/metrics/master/?domain=m.jp.techcrunch.com&redir=http%3A%2F%2Fm.jp.techcrunch.com%2Fmetrics%2Fredirect%2F%3Fredir%3Dhttp%253A%252F%252Fm.jp.techcrunch.com%252F2013%252F06%252F25%252F20130624datameer-smart-analytics-is-designed-for-the-per

  • 第5回 ビッグデータ

    「ビッグデータ」は業界をにぎわせているキーワードである。このキーワードにさまざまな意見があるだろうが、技術や製品の進化はビッグデータのニーズに応える形で進化している。ITエンジニアなら、そうした進化をしっかりと押さえておきたい。 ビッグデータを扱う製品の代表といえば、分散処理機構を備えたHadoopだろう。だがHadoopのプログラミングモデルであるMapReduceは習得が難しい。そこでビッグデータの収集と1次加工のみHadoopを使い、データ分析はそれを得意とするデータベースに任せる方向で技術が進化している。 筆者が特に注目しているのが「カラム型分散データベース」だ。分散型でスケーラビリティーを確保しつつ、カラム単位で高速検索・集計する機能を備える。データ圧縮機能もある。複雑なインデックスは不要でSQL文も利用できるので、MapReduceより簡単に使いこなせる。米国大統領選挙でもHa

    第5回 ビッグデータ
  • A Big Data introduction | R-bloggers

  • 米クラウデラ、Hadoop用検索ツール「Cloudera Search」を発表

    米クラウデラは現地時間2013年6月4日、「Hadoop」に蓄積するデータへの対話型検索ができるソフトウエア「Cloudera Search」を発表した。オープンソースソフトウエア(OSS)の検索エンジン「Solr」をベースに機能を強化した。同日からベータ版を公開している。 Hadoopではデータは「HDFS(Hadoop Distributed File System)」に保存する。HDFSのデータに対するバッチ処理を実行するのが「MapReduce」であり、HDFSのデータに対する低遅延ランダムアクセスを行うためのソフトとして「HBase」がある。クラウデラは、MapReduceやHBase以外の処理手段を増やしており、HDFSのデータへの対話型SQLクエリー処理を行うためのソフトとして2012年秋に「Cloudera Impala」のベータ版を公開している。 今回発表したCloude

    米クラウデラ、Hadoop用検索ツール「Cloudera Search」を発表
  • 「Hadoop Summit Europe」に見るツール/事例の最新動向

    2013年3月20日と21日の2日間、オランダのアムステルダムにてHadoop Summit Europeが開催された。Hadoopのイベントとしては、毎年10月頃に開催されるHadoop Worldと並ぶ2大イベントのうちの1つであり、欧州で開催されるのは初めてのことであった。連載の最終回は、このイベントの様子について紹介する。 Hadoop Summit会場の様子 米ヤフー!と米ホートンワークス(米ヤフー!のHadoop専門チームがスピンアウトしたHadoop専業ベンチャー企業。2011年6月設立)が共催するHadoop Summitは、今回で6回目の開催となる。前回までは年1回の開催であったが、今年はHadoop Summit Europeと、6月26日と27日に米国サンノゼで開催されるHadoop Summit North Americaの2回開催となる。 会場はオランダの旧証券取

    「Hadoop Summit Europe」に見るツール/事例の最新動向
  • 1