タグ

hadoopに関するyosfのブックマーク (26)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
    yosf
    yosf 2017/07/10
  • (日本語)Hadoopは失敗した、という分析

    Datanami社によるデータベース専門家とのインタビューの結果によると、Hadoopを採用したい企業の多くは、失敗プロジェクトに終わっている、と指摘している。 Snowflake Computing社CEO, Bob Muglia氏によると、今までHadoopを採用してい幸せになった企業はみた事が無いし、今後も出てくるような気配が無い、と言い切っている。 すでに、Hadoopは多くの企業で使われ...

    (日本語)Hadoopは失敗した、という分析
    yosf
    yosf 2017/03/28
  • HadoopやMongoDBのデータ消去被害が続出、世界各国で

    「適切な認証なしにインターネットに直接露呈されているデータベースサービスは、データを盗まれたり、消去されたりする危険がある」とセキュリティ企業は警鐘を鳴らしている。 世界各国でHadoopやMongoDBなどのシステムがサイバー攻撃の標的にされ、身代金を要求されたり、データを消去されたりする被害が相次いでいるという。セキュリティ企業やメディア各社が伝えた。 セキュリティ企業Fidelis Cybersecurityの1月18日のブログによると、2017年に入ってMongoDBやElasticsearchのデータベースが攻撃を受け、データを人質に身代金を要求される被害が続出した。続いて、Hadoop Distributed File System(HDFS)インスタンスも同じような攻撃の標的にされ、システム上の全データが消去される被害が出ている。 Fidelisはその原因について、ビッグデー

    HadoopやMongoDBのデータ消去被害が続出、世界各国で
  • 二極化するHadoop業界--ホートンワークスとClouderaの複占を危惧する

    Andrew Brust (Special to ZDNET.com) 翻訳校正: 石橋啓一郎 2016-04-15 06:00 HadoopベンダーのHortonworksは、アイルランドのダブリンで現地時間4月13日~14日に開催した「Hadoop Summit」で多くのことを発表した。発表そのものにも重要な内容が含まれており、この記事ではその内容を紹介する。 ただしこれらの発表は、「一般向け」のHadoop界が2つに分割されつつある現状を示していることを念頭に置いておいてほしい。HortonworksとClouderaが各ディストリビューションに導入している独自のコンポーネントは多くの場合、同じようなニーズや要件を満たすものになっている。 Hortonworksの発表 まず、重要な内容から紹介しよう。「Pivotal HD」を引っ提げて、3年前にHadoopのディストリビューション競

    二極化するHadoop業界--ホートンワークスとClouderaの複占を危惧する
    yosf
    yosf 2016/04/17
  • ビッグデータ技術の普及を目指すODPi、初のランタイム仕様を公開

    Andrew Brust (Special to ZDNET.com) 翻訳校正: 編集部 2016-03-29 11:57 「Open Data Platform initiative(ODPi)」は米国時間3月28日、「Apache Hadoop」をベースにしたディストリビューションのランタイム仕様である「ODPi Runtime Specification」を、関連するテストスイートとともに公開した。このランタイム仕様は、標準化を推進するとともに、エコシステムの断片化の抑制、互換性の最大化を実現するため、Hadoopディストリビューションのコアコンポーネントに対する共通仕様を策定することを目指す。ODPiは2015年2月に設立された業界団体だ。 「Apache Hadoop 2.7」をベースにしたこのランタイム仕様は、「Hadoop Distributed File System(H

    ビッグデータ技術の普及を目指すODPi、初のランタイム仕様を公開
  • TechCrunch | Startup and Technology News

    Welcome to Startups Weekly — Haje’s weekly recap of everything you can’t miss from the world of startups. Anna will be covering for him this week. Sign up here to…

    TechCrunch | Startup and Technology News
    yosf
    yosf 2016/03/25
  • Hadoop向けデータウェアハウス構築ソフトウェア「Apache Tajo 0.11」公開 | OSDN Magazine

    Apache Hadoop環境で利用できる高度なデータウェアハウスシステム「Apache Tajo」開発チームは10月27日、最新版となる「Apache Tajo 0.11.0」をリリースした。 Apache TajoはApache Hadoop環境で動作するリレーショナル・分散データウェアハウス(DWH)ソフトウェア。分散SQLクエリ処理エンジン、低遅延、拡張性のあるアドホッククエリ、オンラインアグリゲーションなどの機能を備え、Hadoop Distributed File System(HDFS)やその他のデータソース上にある大規模なデータセットにアクセスして分散実行を直接制御できる。ETL、ANSI/ISO SQL標準、Hive MetaStoreアクセス、CSV/JSON/RCFile/Paquetなどのファイル/データフォーマットをサポートするのも特徴。同プロジェクトは2014年

    Hadoop向けデータウェアハウス構築ソフトウェア「Apache Tajo 0.11」公開 | OSDN Magazine
    yosf
    yosf 2015/10/28
  • 米グーグルがHadoop/Spark運用サービス「Cloud Dataproc」のベータ提供を開始

    グーグルがHadoop/Spark運用サービス「Cloud Dataproc」のベータ提供を開始:料金は1VM1時間1セント(あるいはそれ以下) 米グーグルは2015年9月23日(米国時間)、同社のクラウドサービス「Google Clooud Platform」で、Hadoop/Sparkクラスタ運用サービス、「Cloud Dataproc」のベータ提供を開始した。平均90秒というクラスタの迅速な展開と、1仮想インスタンス当たり1セント(あるいはそれ以下)という低料金が特徴。 米グーグルは2015年9月23日(米国時間)、同社のクラウドサービス「Google Clooud Platform」で、Hadoop/Sparkクラスタ運用サービス、「Cloud Dataproc」のベータ提供を開始した。 Dataprocは、Hadoop/Sparkクラスタの構築/立ち上げ、拡張/縮小、停止という

    米グーグルがHadoop/Spark運用サービス「Cloud Dataproc」のベータ提供を開始
  • SparkとHadoopは友だちである、敵ではない | TechCrunch Japan

    Boeing’s Starliner spacecraft has successfully delivered two astronauts to the International Space Station, a key milestone in the aerospace giant’s quest to certify the capsule for regular crewed missions.  Starliner…

    SparkとHadoopは友だちである、敵ではない | TechCrunch Japan
  • 「Hadoop Summit」開催--MapRとPentahoが最新製品を発表

    Andrew Brust (Special to ZDNET.com) 翻訳校正: 編集部 2015-06-10 11:01 Hortonworksはサンノゼで米国時間6月9日から3日間「Hadoop Summit」を開催している。初日、HadoopディストリビューションベンダーのMapR、日立製作所の米国子会社が買収したPentahoが新製品を発表した。 MapR 5.0 MapRは最新版「MapR 5.0」を発表した。最新版には「MapR-DB」(MapRのHBase互換オペレーショナルデータベース)とElasticsearchのリアルタイム統合など、リアルタイムレプリケーション機能が導入された。このようなリアルタイム統合機能により、Elasticsearchの検索インデックスはオペレーションが発生するたびに最新のものに保持される。これまでのバッチアップデートプロセスでは検索結果に遅延

    「Hadoop Summit」開催--MapRとPentahoが最新製品を発表
    yosf
    yosf 2015/06/10
  • 「Hadoop」導入、当面伸び悩みか--ガートナー調査

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます ビッグデータとアナリティクスが大きな関心を集めていることは明白だが、「Hadoop」の今後2年間の見通しは、明るい部分ばかりではないようだ。 一部のアーリーアダプターはHadoopの成功事例を報告しているかもしれないが、Gartnerの調査に対する回答者の半数強は、さし当たりHadoopへの投資を計画していない。2年以内の投資を予定しているのはわずか18%だ。 Gartnerによると、単にHadoopを優先事項とみなしていない企業もあれば、自社の問題に対してHadoopは過剰であると考えている企業もあり、このことは、予想される利益に比べてHadoop導入の機会費用が高すぎることを示しているという。 既にHadoopの展開、試験運用、また

    「Hadoop」導入、当面伸び悩みか--ガートナー調査
    yosf
    yosf 2015/05/14
  • 第2回 並列データ処理系の歴史と重要性 | gihyo.jp

    はじめに 前回は、連載の目的や、連載で扱う並列データ処理の定義について説明しました。今回は、並列データ処理系の歴史や重要性について見ていきます。技術を学ぶうえで、その技術歴史や重要性について理解しておくことはとても良いことですので、かんたんな読み物を読むつもりでお付き合いください。 並列データ処理系の進展 並列データ処理系における基的なアルゴリズムや処理方式は、並列データベースと称される並列化された[1]データベースシステムにおける技術に基づいています。 並列データベースに関する研究・開発は、1970年代からの並列データベースマシン(Parallel Database Machine)[⁠1、2、3]と称されるデータベース処理専用の並列計算機に遡ることができます。並列データベースマシンは、データ処理用途にカスタマイズされたプロセッサや記憶装置を用いていたため、必ずしも価格に見合った

    第2回 並列データ処理系の歴史と重要性 | gihyo.jp
    yosf
    yosf 2015/04/15
  • 第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

    はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。 このような問題を解決するには、

    第1回 なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
  • 2015年のHadoopとビッグデータ活用 | gihyo.jp

    あけましておめでとうございます。濱野 賢一朗です。 1年は早いものですね。当にあっという間に過ぎ去ってしまうものです。しかし、いざ1年を振り返ってみると、いろんなことが起きていたのだと実感したりもします。ここでは「ビッグデータ(Big Data)活用」が2015年にどう変化していきそうか、Hadoopの話題を中心に紹介したいと思います。 2014年を振り返る まずは、昨年を振り返ってみましょう。急浮上したバズワードという印象の「ビッグデータ活用」も、すこし落ち着いてきました。まだまだ浮ついた話を耳にしましたが、一方で、具体的な事例や技術の話も増えてきた1年でした。 システム基盤の観点では「Hadoop」の変貌が始まりました。皆さんご存じのとおり、Hadoopは並列分散処理を実現するオープンソースソフトウェアです。技術的側面での変貌は2015年に格化すると思いますが、その下準備が着実に行

    2015年のHadoopとビッグデータ活用 | gihyo.jp
  • ASF、スキーマフリーのHadoop向けSQLクエリエンジン「Apache Drill」をトップレベルプロジェクトに | OSDN Magazine

    オープンソースプロジェクトを運営する非営利団体Apache Software Foundation(ASF)は12月2日(米国時間)、NoSQLデータベース向けのクエリエンジン「Apache Drill」をトップレベルプロジェクト(TLP)とすることを発表した。 Apache DrillはHadoopやNoSQL向けのSQLクエリエンジン。これを利用することで、スキーマの定義なしにJSONやParquet、HBaseテーブルなどに対しクエリを実行でき、ユーザーは生成されたデータをすぐに利用できる。米Googleのインタラクティブなアドホック型クエリシステム「Dremel」をベースとし、2012年8月にASFのインキュベータープロジェクトとなっていた。 HDFS、NoSQLなどのスキーマフリーのデータストア向けデータモデルを持ち、スタンドアロンのクエリエンジンとしてさまざまなデータソースをサ

    ASF、スキーマフリーのHadoop向けSQLクエリエンジン「Apache Drill」をトップレベルプロジェクトに | OSDN Magazine
    yosf
    yosf 2014/12/04
  • Apache Drillを使用してYelpの生データを数分で分析する方法 | Hadoop Times

    Apache Drillは、急成長しているオープンソースプロジェクトの1つであり、その月毎のリリースに伴い、このコミュニティも飛躍的に進歩しています。最新のDrill 0.6リリースも、このプロジェクトにとって重要なマイルストーンでした。今回のリリースでは、(現在既に対応済みのファイルシステム、HBase、および、Hiveソースに加え) MongoDBに直接SQLクエリを行えるようになる等、重要な強化や、数多くのパフォーマンスおよびSQL関連の改善が行われ、パワーアップしました。 この記事では、Drillの主な使用法の1つである、SQLを使用してHadoop/NoSQLシステムに送られてくる生データを調査・分析する方法を簡単にご紹介したいと思います。 “ちょっと待って、それって普通に出回っているどのSQL-on-Hadoopシステムでもやっていることじゃないかって?” その通りです。 です

    Apache Drillを使用してYelpの生データを数分で分析する方法 | Hadoop Times
    yosf
    yosf 2014/12/02
  • Hadoop MapReduceを全置き換え、スペインStratioがSpark採用事例を発表

    ビッグデータ分析ソフトを手掛けるスペインのStratioは、インメモリーのビッグデータ分析ソフト「Spark」の採用事例を公開した(発表資料)。同社は7年以上前から、顧客向けのビッグデータ分析にHadoop MapReduceを使ってきたが、2013年からSparkの利用を始め、今ではMapReduceを完全にSparkに置き換えたという。 同社は2013年までの6年間ほど、MapReduceにリアルタイム処理エンジンの「Storm」を組み合わせたラムダアーキテクチャを採用してきたが、「開発やデプロイ、サポートなどの面で、次第に複雑さが増してきたため、より良い技術を探した結果、Sparkを見つけ、採用することにした」(同社)という。 Stratioは、通信事業者のスペインTelefonicaやホテル事業を手掛けるスペインNH Hotelsといった企業に向けて、ビッグデータ分析基盤を提供して

    Hadoop MapReduceを全置き換え、スペインStratioがSpark採用事例を発表
    yosf
    yosf 2014/08/12
  • agilecatcloud.com

    This domain may be for sale!

    agilecatcloud.com
    yosf
    yosf 2014/07/28
  • グーグル、MapReduce後継のビッグデータ処理サービス「Cloud Dataflow」を発表

    グーグルは2014年6月25日(米国時間)、ビッグデータ処理のクラウドサービスである「Google Cloud Dataflow」を発表した。グーグルの並列データ処理技術MapReduce」の後継技術をベースにしたサービスで、バッチ処理だけでなくストリーム処理やリアルタイム処理を実行できることが特徴。25日から同社が米国サンフランシスコ市で開く開発者会議「Google I/O 2014」で発表した。 今回の発表で最も興味深いのは、基調講演に登壇した同社のウルス・ヘルツル上級副社長が「我々は既に、社内でMapReduceをほとんど使っていない」と明らかにしたことだ。MapReduceはグーグルが2004年に論文発表した技術で、開発からすでに10年以上を経過している。グーグルは近年、並列パイプライン処理技術である「FlumeJava」や大規模ストリーム処理技術である「MillWheel」な

    グーグル、MapReduce後継のビッグデータ処理サービス「Cloud Dataflow」を発表
  • データ統合/ETLのTalendが分散処理を45%高速化、Sparkにも対応

    Talendは2014年6月4日、異なるシステム間のデータベースを連携/統合するデータ統合ソフトの新版「Talend 5.5」を発表した。7月に販売/出荷する。新版では、Hadoopをデータ統合処理のエンジンとして使った場合の処理性能を平均45%向上させたほか、新たにApache Sparkをエンジンとして使えるようにした。価格(税別)は、ETL(抽出/変換/登録)機能を提供する中核ソフト「Talend Enterprise Data Integration V5.4」が、年額190万円から。開発会社は米Talend。 Talendは、データ統合ソフト製品群である(関連記事:Talend、データ統合ソフト新版でMapReduce 2.0/YARNエンジンを使用)。ETLソフトの「Enterprise Data Integration」を中核に、データクレンジング/マスターデータ管理機能やE

    データ統合/ETLのTalendが分散処理を45%高速化、Sparkにも対応
    yosf
    yosf 2014/06/04