[B! hadoop] basementjaxxのブックマーク

basementjaxx id:basementjaxx

hadoopに関するbasementjaxxのブックマーク (8)

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
basementjaxx 2017/07/10
hadoop

MapReduce
リンク
第17回　Impalaの設計と実装［1］ | gihyo.jp
はじめに今回から3回に渡って、Hadoop上で動作するデータ処理ソフトウェアの1つであるApache Impala（incubating)（以下、Impala）について、以下の流れで説明していきます。 Impala概要（今回）クエリ実行時の並列化の仕組み（第18回） I/O処理における高速化の仕組み（第19回） Impalaの特徴のすべてをお伝えできるわけではありませんが、Impalaの速度に対する取り組みについて参考になれば幸いです。今回は、Impalaが開発されるに至った背景や特徴、および動作の概要までを紹介していきます。 Impala開発の背景これまでの連載内でも触れられてきましたが、ImpalaはHadoop上でSQL（正確にはHive Query Language／HiveQL）を高速に処理するために開発された並列データ処理系です。Impala以前から、SQLを実行するH
basementjaxx 2016/10/20
hadoop

Impala
リンク
とあるオープンソースの分散処理基盤 -Hadoop（ハドゥープ）- | ADN LAB's Blog
Introduction – Hadoopとは? こんにちは、k_oomoriです。今回は、オープンソースミドルウェアのApache Hadoopを取り上げたいと思います。コンピュータの性能は日々進化しているとはいえ、1台のマシンの性能にはおのずと限界があります。また、その時々で常に最高性能のマシンを維持していこうとすると莫大なコストがかかってしまいます。そこで登場するのが分散処理という考え方です。1台1台は特に高性能ではないマシンでも多数並べて処理を同時並行で行うことにより、全体の処理性能を上げようというアプローチです。この方法では性能が足りなくなった場合にはマシンを追加することで容易に性能向上ができる反面、分散処理の実装そのものが難しいという問題がありました。例えば、処理の振り分けアルゴリズムやサーバの死活監視、結果の集約など、考えなければならないことがいくつもあります。この分散処理
basementjaxx 2016/10/20
hadoop
リンク
Hadoop運用管理の今(EnterpriseZine) - goo ニュース
現在Apache Hadoop（以降Hadoop）はデータ処理基盤としての地位を確立し、さまざまな業種で広く利用されるようになりました。前回の記事、「目指せ！Hadoopエンジニア」で紹介したように、Hadoopを利用するソフトウェアの開発を行うエンジニア、システム管理者の需要はますます増え、データを活用するためのデータサイエンティストのニーズも高くなっています。また、Hadoopもこの1年で目覚ましい進化を遂げており、新しい機能を使いこなすことで効率の良い開発や運用管理ができるようになるでしょう。本記事では、今回はHadoopの最新動向を紹介し、次回以降でCloudera Managerを使用したHadoopの運用管理について紹介します。 Hadoopの最新状況　2006年、Hadoopはウェブのインデックス処理を行うために開発されました。その後さまざまな用途に利用されるようになり、そ
basementjaxx 2016/10/20
hadoop

Impala
リンク
Apache Impala
“Apache Impalaは、Apache Hadoop向けの最新の高性能分析データベースです。 MPP（Massively Parallel Processing）SQLクエリエンジンにより、データセットを特定のシステムまたは専用フォーマットに移行することなく、オンプレミス（HDFSまたはApache Kuduの場合）またはSQL、またはビジネスインテリジェンスツールを使用して、Cloudオブジェクトストレージに格納されたデータの分析クエリが可能になります “：Apache Impala リリース記事より抄訳:) 注意：このページの内容はやや古くなっているので、日付にご注意ください。また、ブログに書いている場合があります。 (photo by freepik) 2018/7/26 追記パフォーマンスの最適化に役立つスライド Performance Optimizations in A
basementjaxx 2016/10/20
hadoop

Impala
リンク
コミッタが語る、HadoopやSpark、2016年はどうなる？ | gihyo.jp
あけまして、おめでとうございます。例年、Apache Hadoopを中心に並列分散処理ミドルウェアの動向や展望についてご紹介しています。今年は、NTTデータに所属する鯵坂明（Apache Hadoopコミッタ）岩崎正剛（Apache Hadoop開発者、HTraceコミッタ）関堅吾（Apache Yetusコミッタ）猿田浩輔（Apache Sparkコミッタ）の4名による対談からまとめた、HadoopとSparkを中心に2015年の振り返りと2016年の展望をご紹介します。対談の模様（1）鯵坂明氏（左）と岩崎正剛氏 2015年を振り返る 2015年の新春特別企画では「TezやSparkなどの新しい処理基盤の活用が進むことになる」と紹介しました。実際に振り返ってみると、Apache Sparkはかなり盛り上がりました。 Apache Sparkは、年初にバージョン
basementjaxx 2016/10/20
hadoop

spark

hive

MapReduce
リンク
HadoopをWindows上の仮想マシンで手軽に試す方法
Hadoopといえば大規模分散フレームワークであり、実行にはそれなりのサーバ群を揃えなければならない、と思われがち。しかしHadoopでもっとも有名なディストリビューションを提供するClouderaは、PC上の仮想マシンで手軽にHadoopを実行できる仮想マシンイメージ「Cloudera's Hadoop Demo VM for CDH4」を無償公開しています。 VMware Player、KVM、VirtualBoxなど幅広い仮想マシンに対応。個人のPCを使って、例えばWindowsの上でも簡単にHadoopを試すことができます。仮想マシンを使ったHadoopの実行手順を詳しく解説
basementjaxx 2012/08/31
hadoop

あとで読む

オープンソース

開発
リンク
いまさら聞けないHadoopとテキストマイニング入門
ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1
basementjaxx 2011/09/29
Apache

あとで読む

オープンソース

Programming

hadoop

プログラミング

自然言語処理

テキストマイニング
リンク
1