[B! hadoop] yosfのブックマーク

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

yosf 2017/07/10

hadoop

リンク

（日本語）Hadoopは失敗した、という分析

Datanami社によるデータベース専門家とのインタビューの結果によると、Hadoopを採用したい企業の多くは、失敗プロジェクトに終わっている、と指摘している。 Snowflake Computing社CEO, Bob Muglia氏によると、今までHadoopを採用してい幸せになった企業はみた事が無いし、今後も出てくるような気配が無い、と言い切っている。すでに、Hadoopは多くの企業で使われ...

yosf 2017/03/28

hadoop

リンク

HadoopやMongoDBのデータ消去被害が続出、世界各国で

「適切な認証なしにインターネットに直接露呈されているデータベースサービスは、データを盗まれたり、消去されたりする危険がある」とセキュリティ企業は警鐘を鳴らしている。世界各国でHadoopやMongo DBなどのシステムがサイバー攻撃の標的にされ、身代金を要求されたり、データを消去されたりする被害が相次いでいるという。セキュリティ企業やメディア各社が伝えた。セキュリティ企業Fidelis Cybersecurityの1月18日のブログによると、2017年に入ってMongo DBやElasticsearchのデータベースが攻撃を受け、データを人質に身代金を要求される被害が続出した。続いて、Hadoop Distributed File System（HDFS）インスタンスも同じような攻撃の標的にされ、システム上の全データが消去される被害が出ている。 Fidelisはその原因について、ビッグデー

yosf 2017/01/20

リンク

二極化するHadoop業界--ホートンワークスとClouderaの複占を危惧する

Andrew Brust （Special to ZDNET.com）翻訳校正：石橋啓一郎 2016-04-15 06:00 HadoopベンダーのHortonworksは、アイルランドのダブリンで現地時間4月13日～14日に開催した「Hadoop Summit」で多くのことを発表した。発表そのものにも重要な内容が含まれており、この記事ではその内容を紹介する。ただしこれらの発表は、「一般向け」のHadoop界が2つに分割されつつある現状を示していることを念頭に置いておいてほしい。HortonworksとClouderaが各ディストリビューションに導入している独自のコンポーネントは多くの場合、同じようなニーズや要件を満たすものになっている。 Hortonworksの発表まず、重要な内容から紹介しよう。「Pivotal HD」を引っ提げて、3年前にHadoopのディストリビューション競

yosf 2016/04/17

hadoop

リンク

ビッグデータ技術の普及を目指すODPi、初のランタイム仕様を公開

Andrew Brust （Special to ZDNET.com）翻訳校正：編集部 2016-03-29 11:57 「Open Data Platform initiative（ODPi）」は米国時間3月28日、「Apache Hadoop」をベースにしたディストリビューションのランタイム仕様である「ODPi Runtime Specification」を、関連するテストスイートとともに公開した。このランタイム仕様は、標準化を推進するとともに、エコシステムの断片化の抑制、互換性の最大化を実現するため、Hadoopディストリビューションのコアコンポーネントに対する共通仕様を策定することを目指す。ODPiは2015年2月に設立された業界団体だ。「Apache Hadoop 2.7」をベースにしたこのランタイム仕様は、「Hadoop Distributed File System（H

yosf 2016/03/29

リンク

TechCrunch | Startup and Technology News

Welcome to Startups Weekly — Haje’s weekly recap of everything you can’t miss from the world of startups. Anna will be covering for him this week. Sign up here to…

yosf 2016/03/25

hadoop

リンク

Hadoop向けデータウェアハウス構築ソフトウェア「Apache Tajo 0.11」公開 | OSDN Magazine

Apache Hadoop環境で利用できる高度なデータウェアハウスシステム「Apache Tajo」開発チームは10月27日、最新版となる「Apache Tajo 0.11.0」をリリースした。 Apache TajoはApache Hadoop環境で動作するリレーショナル・分散データウェアハウス（DWH）ソフトウェア。分散SQLクエリ処理エンジン、低遅延、拡張性のあるアドホッククエリ、オンラインアグリゲーションなどの機能を備え、Hadoop Distributed File System（HDFS）やその他のデータソース上にある大規模なデータセットにアクセスして分散実行を直接制御できる。ETL、ANSI/ISO SQL標準、Hive MetaStoreアクセス、CSV/JSON/RCFile/Paquetなどのファイル/データフォーマットをサポートするのも特徴。同プロジェクトは2014年

yosf 2015/10/28

hadoop

リンク

米グーグルがHadoop／Spark運用サービス「Cloud Dataproc」のベータ提供を開始

米グーグルがHadoop／Spark運用サービス「Cloud Dataproc」のベータ提供を開始：料金は1VM1時間1セント（あるいはそれ以下）米グーグルは2015年9月23日（米国時間）、同社のクラウドサービス「Google Clooud Platform」で、Hadoop／Sparkクラスタ運用サービス、「Cloud Dataproc」のベータ提供を開始した。平均90秒というクラスタの迅速な展開と、1仮想インスタンス当たり1セント（あるいはそれ以下）という低料金が特徴。米グーグルは2015年9月23日（米国時間）、同社のクラウドサービス「Google Clooud Platform」で、Hadoop／Sparkクラスタ運用サービス、「Cloud Dataproc」のベータ提供を開始した。 Dataprocは、Hadoop／Sparkクラスタの構築／立ち上げ、拡張／縮小、停止という

yosf 2015/09/24

リンク

SparkとHadoopは友だちである、敵ではない | TechCrunch Japan

Boeing’s Starliner spacecraft has successfully delivered two astronauts to the International Space Station, a key milestone in the aerospace giant’s quest to certify the capsule for regular crewed missions. Starliner…

yosf 2015/07/14

Spark
hadoop

リンク

「Hadoop Summit」開催--MapRとPentahoが最新製品を発表

Andrew Brust （Special to ZDNET.com）翻訳校正：編集部 2015-06-10 11:01 Hortonworksはサンノゼで米国時間6月9日から3日間「Hadoop Summit」を開催している。初日、HadoopディストリビューションベンダーのMapR、日立製作所の米国子会社が買収したPentahoが新製品を発表した。 MapR 5.0 MapRは最新版「MapR 5.0」を発表した。最新版には「MapR-DB」（MapRのHBase互換オペレーショナルデータベース）とElasticsearchのリアルタイム統合など、リアルタイムレプリケーション機能が導入された。このようなリアルタイム統合機能により、Elasticsearchの検索インデックスはオペレーションが発生するたびに最新のものに保持される。これまでのバッチアップデートプロセスでは検索結果に遅延

yosf 2015/06/10

hadoop

リンク

「Hadoop」導入、当面伸び悩みか--ガートナー調査

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができますビッグデータとアナリティクスが大きな関心を集めていることは明白だが、「Hadoop」の今後2年間の見通しは、明るい部分ばかりではないようだ。一部のアーリーアダプターはHadoopの成功事例を報告しているかもしれないが、Gartnerの調査に対する回答者の半数強は、さし当たりHadoopへの投資を計画していない。2年以内の投資を予定しているのはわずか18％だ。 Gartnerによると、単にHadoopを優先事項とみなしていない企業もあれば、自社の問題に対してHadoopは過剰であると考えている企業もあり、このことは、予想される利益に比べてHadoop導入の機会費用が高すぎることを示しているという。既にHadoopの展開、試験運用、また

yosf 2015/05/14

hadoop

リンク

第2回　並列データ処理系の歴史と重要性 | gihyo.jp

はじめに前回は、本連載の目的や、本連載で扱う並列データ処理の定義について説明しました。今回は、並列データ処理系の歴史や重要性について見ていきます。技術を学ぶうえで、その技術の歴史や重要性について理解しておくことはとても良いことですので、かんたんな読み物を読むつもりでお付き合いください。並列データ処理系の進展並列データ処理系における基本的なアルゴリズムや処理方式は、並列データベースと称される並列化された[1]データベースシステムにおける技術に基づいています。並列データベースに関する研究・開発は、1970年代からの並列データベースマシン（Parallel Database Machine）［⁠1、2、3］と称されるデータベース処理専用の並列計算機に遡ることができます。並列データベースマシンは、データ処理用途にカスタマイズされたプロセッサや記憶装置を用いていたため、必ずしも価格に見合った

yosf 2015/04/15

hadoop

リンク

第1回　なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp

はじめにビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア（データ処理系）が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。このような問題を解決するには、

yosf 2015/04/01

リンク

2015年のHadoopとビッグデータ活用 | gihyo.jp

あけましておめでとうございます。濱野賢一朗です。 1年は早いものですね。本当にあっという間に過ぎ去ってしまうものです。しかし、いざ1年を振り返ってみると、いろんなことが起きていたのだと実感したりもします。ここでは「ビッグデータ（Big Data）活用」が2015年にどう変化していきそうか、Hadoopの話題を中心に紹介したいと思います。 2014年を振り返るまずは、昨年を振り返ってみましょう。急浮上したバズワードという印象の「ビッグデータ活用」も、すこし落ち着いてきました。まだまだ浮ついた話を耳にしましたが、一方で、具体的な事例や技術の話も増えてきた1年でした。システム基盤の観点では「Hadoop」の変貌が始まりました。皆さんご存じのとおり、Hadoopは並列分散処理を実現するオープンソースソフトウェアです。技術的側面での変貌は2015年に本格化すると思いますが、その下準備が着実に行

yosf 2015/01/02

hadoop
Spark

リンク

ASF、スキーマフリーのHadoop向けSQLクエリエンジン「Apache Drill」をトップレベルプロジェクトに | OSDN Magazine

オープンソースプロジェクトを運営する非営利団体Apache Software Foundation（ASF）は12月2日（米国時間）、NoSQLデータベース向けのクエリエンジン「Apache Drill」をトップレベルプロジェクト（TLP）とすることを発表した。 Apache DrillはHadoopやNoSQL向けのSQLクエリエンジン。これを利用することで、スキーマの定義なしにJSONやParquet、HBaseテーブルなどに対しクエリを実行でき、ユーザーは生成されたデータをすぐに利用できる。米Googleのインタラクティブなアドホック型クエリシステム「Dremel」をベースとし、2012年8月にASFのインキュベータープロジェクトとなっていた。 HDFS、NoSQLなどのスキーマフリーのデータストア向けデータモデルを持ち、スタンドアロンのクエリエンジンとしてさまざまなデータソースをサ

yosf 2014/12/04

hadoop

リンク

Apache Drillを使用してYelpの生データを数分で分析する方法 | Hadoop Times

Apache Drillは、急成長しているオープンソースプロジェクトの１つであり、その月毎のリリースに伴い、このコミュニティも飛躍的に進歩しています。最新のDrill 0.6リリースも、このプロジェクトにとって重要なマイルストーンでした。今回のリリースでは、(現在既に対応済みのファイルシステム、HBase、および、Hiveソースに加え) Mongo DBに直接SQLクエリを行えるようになる等、重要な強化や、数多くのパフォーマンスおよびSQL関連の改善が行われ、パワーアップしました。この記事では、Drillの主な使用法の1つである、SQLを使用してHadoop/NoSQLシステムに送られてくる生データを調査・分析する方法を簡単にご紹介したいと思います。 “ちょっと待って、それって普通に出回っているどのSQL-on-Hadoopシステムでもやっていることじゃないかって？” その通りです。です

yosf 2014/12/02

hadoop

リンク

Hadoop MapReduceを全置き換え、スペインStratioがSpark採用事例を発表

ビッグデータ分析ソフトを手掛けるスペインのStratioは、インメモリーのビッグデータ分析ソフト「Spark」の採用事例を公開した（発表資料）。同社は7年以上前から、顧客向けのビッグデータ分析にHadoop MapReduceを使ってきたが、2013年からSparkの利用を始め、今ではMapReduceを完全にSparkに置き換えたという。同社は2013年までの6年間ほど、MapReduceにリアルタイム処理エンジンの「Storm」を組み合わせたラムダアーキテクチャを採用してきたが、「開発やデプロイ、サポートなどの面で、次第に複雑さが増してきたため、より良い技術を探した結果、Sparkを見つけ、採用することにした」（同社）という。 Stratioは、通信事業者のスペインTelefonicaやホテル事業を手掛けるスペインNH Hotelsといった企業に向けて、ビッグデータ分析基盤を提供して

yosf 2014/08/12

hadoop

リンク

agilecatcloud.com

This domain may be for sale!

yosf 2014/07/28

hadoop

リンク

グーグル、MapReduce後継のビッグデータ処理サービス「Cloud Dataflow」を発表

米グーグルは2014年6月25日（米国時間）、ビッグデータ処理のクラウドサービスである「Google Cloud Dataflow」を発表した。グーグルの並列データ処理技術「MapReduce」の後継技術をベースにしたサービスで、バッチ処理だけでなくストリーム処理やリアルタイム処理を実行できることが特徴。25日から同社が米国サンフランシスコ市で開く開発者会議「Google I/O 2014」で発表した。今回の発表で最も興味深いのは、基調講演に登壇した同社のウルス・ヘルツル上級副社長が「我々は既に、社内でMapReduceをほとんど使っていない」と明らかにしたことだ。MapReduceはグーグルが2004年に論文発表した技術で、開発からすでに10年以上を経過している。グーグルは近年、並列パイプライン処理技術である「FlumeJava」や大規模ストリーム処理技術である「MillWheel」な

yosf 2014/06/26

リンク

データ統合/ETLのTalendが分散処理を45％高速化、Sparkにも対応

Talendは2014年6月4日、異なるシステム間のデータベースを連携/統合するデータ統合ソフトの新版「Talend 5.5」を発表した。7月に販売/出荷する。新版では、Hadoopをデータ統合処理のエンジンとして使った場合の処理性能を平均45％向上させたほか、新たにApache Sparkをエンジンとして使えるようにした。価格（税別）は、ETL（抽出/変換/登録）機能を提供する中核ソフト「Talend Enterprise Data Integration V5.4」が、年額190万円から。開発会社は米Talend。 Talendは、データ統合ソフト製品群である（関連記事：Talend、データ統合ソフト新版でMapReduce 2.0/YARNエンジンを使用）。ETLソフトの「Enterprise Data Integration」を中核に、データクレンジング/マスターデータ管理機能やE

yosf 2014/06/04

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

hadoopに関するyosfのブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス