タグ

hadoopに関するbasementjaxxのブックマーク (8)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • 第17回 Impalaの設計と実装[1] | gihyo.jp

    はじめに 今回から3回に渡って、Hadoop上で動作するデータ処理ソフトウェアの1つであるApache Impala(incubating)(以下、Impala)について、以下の流れで説明していきます。 Impala概要(今回) クエリ実行時の並列化の仕組み(第18回) I/O処理における高速化の仕組み(第19回) Impalaの特徴のすべてをお伝えできるわけではありませんが、Impalaの速度に対する取り組みについて参考になれば幸いです。 今回は、Impalaが開発されるに至った背景や特徴、および動作の概要までを紹介していきます。 Impala開発の背景 これまでの連載内でも触れられてきましたが、ImpalaはHadoop上でSQL(正確にはHive Query Language/HiveQL)を高速に処理するために開発された並列データ処理系です。Impala以前から、SQLを実行するH

    第17回 Impalaの設計と実装[1] | gihyo.jp
  • とあるオープンソースの分散処理基盤 -Hadoop(ハドゥープ)- | ADN LAB's Blog

    Introduction – Hadoopとは? こんにちは、k_oomoriです。今回は、オープンソースミドルウェアのApache Hadoopを取り上げたいと思います。 コンピュータの性能は日々進化しているとはいえ、1台のマシンの性能にはおのずと限界があります。また、その時々で常に最高性能のマシンを維持していこうとすると莫大なコストがかかってしまいます。そこで登場するのが分散処理という考え方です。1台1台は特に高性能ではないマシンでも多数並べて処理を同時並行で行うことにより、全体の処理性能を上げようというアプローチです。この方法では性能が足りなくなった場合にはマシンを追加することで容易に性能向上ができる反面、分散処理の実装そのものが難しいという問題がありました。例えば、処理の振り分けアルゴリズムやサーバの死活監視、結果の集約など、考えなければならないことがいくつもあります。この分散処理

  • Hadoop運用管理の今(EnterpriseZine) - goo ニュース

    現在Apache Hadoop(以降Hadoop)はデータ処理基盤としての地位を確立し、さまざまな業種で広く利用されるようになりました。前回の記事、「目指せ!Hadoopエンジニア」で紹介したように、Hadoopを利用するソフトウェアの開発を行うエンジニア、システム管理者の需要はますます増え、データを活用するためのデータサイエンティストのニーズも高くなっています。また、Hadoopもこの1年で目覚ましい進化を遂げており、新しい機能を使いこなすことで効率の良い開発や運用管理ができるようになるでしょう。記事では、今回はHadoopの最新動向を紹介し、次回以降でCloudera Managerを使用したHadoopの運用管理について紹介します。 Hadoopの最新状況  2006年、Hadoopはウェブのインデックス処理を行うために開発されました。その後さまざまな用途に利用されるようになり、そ

    Hadoop運用管理の今(EnterpriseZine) - goo ニュース
  • Apache Impala

    “Apache Impalaは、Apache Hadoop向けの最新の高性能分析データベースです。 MPP(Massively Parallel Processing)SQLクエリエンジンにより、データセットを特定のシステムまたは専用フォーマットに移行することなく、オンプレミス(HDFSまたはApache Kuduの場合)またはSQL、またはビジネスインテリジェンスツールを使用して、Cloudオブジェクトストレージに格納されたデータの分析クエリが可能になります “:Apache Impala リリース記事より抄訳:) 注意:このページの内容はやや古くなっているので、日付にご注意ください。また、ブログに書いている場合があります。 (photo by freepik) 2018/7/26 追記 パフォーマンスの最適化に役立つスライド Performance Optimizations in A

    Apache Impala
  • コミッタが語る、HadoopやSpark、2016年はどうなる? | gihyo.jp

    あけまして、おめでとうございます。 例年、Apache Hadoopを中心に並列分散処理ミドルウェアの動向や展望についてご紹介しています。 今年は、NTTデータに所属する 鯵坂 明(Apache Hadoopコミッタ) 岩崎 正剛(Apache Hadoop開発者、HTraceコミッタ) 関 堅吾(Apache Yetusコミッタ) 猿田 浩輔(Apache Sparkコミッタ) の4名による対談からまとめた、HadoopとSparkを中心に2015年の振り返りと2016年の展望をご紹介します。 対談の模様(1)鯵坂 明氏(左)と岩崎 正剛氏 2015年を振り返る 2015年の新春特別企画では「TezやSparkなどの新しい処理基盤の活用が進むことになる」と紹介しました。実際に振り返ってみると、Apache Sparkはかなり盛り上がりました。 Apache Sparkは、年初にバージョン

    コミッタが語る、HadoopやSpark、2016年はどうなる? | gihyo.jp
  • HadoopをWindows上の仮想マシンで手軽に試す方法

    Hadoopといえば大規模分散フレームワークであり、実行にはそれなりのサーバ群を揃えなければならない、と思われがち。 しかしHadoopでもっとも有名なディストリビューションを提供するClouderaは、PC上の仮想マシンで手軽にHadoopを実行できる仮想マシンイメージ「Cloudera's Hadoop Demo VM for CDH4」を無償公開しています。 VMware Player、KVM、VirtualBoxなど幅広い仮想マシンに対応。個人のPCを使って、例えばWindowsの上でも簡単にHadoopを試すことができます。 仮想マシンを使ったHadoopの実行手順を詳しく解説

    HadoopをWindows上の仮想マシンで手軽に試す方法
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 1