分散並列処理の基本に関する解説と,分散並列処理のオープンソース界隈で最近起こっていることをまとめた資料です.
こんにちは、小澤です。 今回は10月26, 27日に行われたHadoop Summit 2016 Tokyoの参加レポートを書かせていただきます。 参加セッション 1日目 Opening Keynote Moving towards enterprise ready Hadoop clusters on the cloud Hivemall: Scalable machine learning library for Apache Hive/Spark/Pig Hadoop 3.0 in a Nutshell The truth about SQL and Data Warehousing on Hadoop Using Hadoop to build a Data Quality Service for both real-time and batch data 2日目 Opening
A Collection of Real-World Use Cases Big Data has changed the way organizations, capture, analyze and utilize data in many industries. Are you planning or starting a big data project? Whether it’s your first project or you have completed several, you may benefit from the experiences of others. By reading real-world examples, you can more easily capitalize on the promises of big data and avoid some
Hadoop / Spark Conference Japan 2016に行ってきましたので、その内容についてレポートします。最近は機械学習とSparkに興味があるためランチはB会場のライトニングトークを聞き、午後はD会場のセッションに参加しました。なお、スライドは順次Hadoop / Spark Conference Japan 2016(2月8日、東京)の講演・LTのプログラム | 日本Hadoopユーザー会に公開されるそうなので、そちらも合わせてご覧下さい。 Keynote まずは午前中のKeynoteです。他にもKeynoteに関する記事を見つけたのこちらも合わせてご覧下さい。 #hcj2016 Hadoop/Spark Conference Japan 2016 午前キーノートのメモ - #garagekidztweetz Hadoop / Spark Conference Ja
日本Hadoopユーザー会主催イベント「Hadoop Conference Japan 2016」「Spark Conference Japan 2016」を2月8日に東京・品川区内で開催しました。 今回は、Spark Conference Japanをはじめて併催しました。Apache Sparkの主要開発者である Xin Reynold 氏(Databricks)をお招きして、次期バージョンSpark 2.0の最新情報をご紹介頂きました。 様々な講演者が集結し、技術トピックはもちろんのこと、Yahoo! Japan、さくらインターネット、niconico、ソフトバンク、ローソン、リクルートライフスタイル、IHI等によるHadoop / Sparkの事例・取り組みも紹介されました。また、皆様に投票にご協力頂いたライトニングトーク選定の結果にもとづき魅力的な22件に発表頂きました。 このほ
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 年々拡大するビッグデータ市場。IDC Japanの予測によれば、国内のビッグデータソフトウェア市場の規模は2014~2019年にかけて年間平均成長率33.5%で拡大し、2019年には470億6100万円に達する。 ビッグデータを分散処理・管理するためのソフトウェア基盤としてメジャーなOSSに「Apache Hadoop」がある。Hadoop上のデータ処理には、従来から「Hadoop MapReduce」や、MapReduce上で動作するクエリ処理技術である「Apache Hive」が利用されてきた。しかし、MapReduceとHiveには、大規模データの処理に活用する上での課題がある。 MapReduceはスループット重視の設計であるた
Apache SparkをYARN上で動かしていて、気づいたことのメモ。 ディスク容量が非常に小さいサーバをスレーブにしていた時に、ある程度Sparkアプリケーションを実行していると、NodeManagerのUnhealthy化が起きたので調査しました。 NodeManagerのUnhealthyとは YARNでは、各スレーブサーバで動作しているNodeManagerは自身のサーバでYARNコンテナの動作に利用するディスク領域のチェックを定期的に実行しています。パーミッションが適切か、ディスクの空き容量が十分余っているかを確認しており、デフォルトでは90%以上容量を使ってしまっていると、UNHEALTHYという状態であることをResourceManagerに通知し、新しいYARNコンテナの割り当てがされないようにします。 このあたりの仕様はHadoopのドキュメントに書いてあります。 ht
Cloudera World Tokyo 2015 で発表した資料です。 https://clouderaworld.tokyo/ 概要 かつてHadoopによるビッグデータ基盤は HiveやPig、MapReduce、そしてHDFSだけで構成されるシンプルなシステムでした。しかし現在では、SparkやImpalaを始めとして、Kafka、HBase、Parquet、そしてKuduなどの新しいコンポーネントを組み合わせた複雑なシステムが次々に本番環境で稼働し始めています。 このセッションでは、データの取得、加工、提供までの流れがどのように変わっていったか、そして現在ではどのような基盤が主流なのか、最新のトレンドについて解説します。Read less
はじめに 「さくらのクラウドでHadoop/Spark/Asakusa環境を構築する」第2回目です。 前回は、さくらのクラウド環境にHadoopディストリビューション Hortonworks Data Platform (HDP) を使ってHadoopクラスタを構築しました。 今回は、Apache Spark を紹介します。 前回構築したHadoopクラスタにSparkをセットアップして、HadoopとSparkを連携するための設定を行います。 SparkがHadoopと連携して動作することを確認できたら、いくつかのSparkアプリケーションを実行してみます。 また、Sparkが提供するSQL実行エンジン Spark SQLや、 ストリーム処理エンジン Spark Streaming 、 Sparkが提供する管理画面などを紹介します。 インストール構成 これからHadoopクラスタにSpa
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
はじめに さくらのナレッジをご覧の皆様、はじめまして。 株式会社ノーチラス・テクノロジーズ の川口と申します。 この連載では、さくらのクラウド上に分散処理基盤用のフレームワーク Hadoop、Spark の環境を構築して、 この環境上でいくつかのアプリケーションを実行する方法を紹介します。 また、HadoopやSpark上で動作し、複雑なバッチ処理の開発に向いているバッチアプリケーション開発フレームワーク Asakusa Framework の使い方を紹介します。 HadoopやSparkがどのようなものかは、インターネット上に豊富な情報があるのでそちらを見て頂くとして、 この連載ではこれらのプロダクトを使い始めるまでの具体的な手順を中心に書いていきたいと思います。 HadoopやSpark、Asakusa Frameworkをよく知らない方や始めてさわってみる、 という方にでもわかりやす
Outline HadoopのYARN上で色々なアプリを動かすことになったのでテスト環境を作ってみた。 今回はYARN上でSparkのjarを走らせてみる。 走らせるjarは、sparkパッケージに入ってるexampleと、自分で作ったやつ。 環境 メインマシン 実際に動かしているハード。 WebUIなどの動作確認に使う。 Client OS: Ubuntu14.04 (AWS EC2) Hadoop: 2.5.2 Java: 8 Hadoopクラスタ 別記事を参照。 擬似分散モード:http://qiita.com/uryyyyyyy/items/a7ac8dc088b6fc2d115d 完全分散モード:http://qiita.com/uryyyyyyy/items/ebd732d3935ee404f4e7 ここではResourceManagerとnameNodeは同じhostにあると
SparkでHDFS上のデータを分析し結果を再度HDFS上に保存するまでの備忘録です。 環境 HDFSはCDH5.3.2 SparkはHDFSクラスタとは別で用意 StandAloneモードでインストールしました。 サンプルデータ Generate Test Data - Amazon Elastic MapReduceから作成 こういうデータ(抜粋) 0|Christopher WOOD|1954-10-15|F|NC|christopher.wood.1954@hotmail.com|412-850-6209 1|Scarlett YOUNG|1998-10-24|M|OK|scarlett.young.1998@live.com|151-447-8098 2|Ian ADAMS|1982-02-12|F|CT|ian.adams.1982@hotmail.com|768-213-49
先ほど、こんなエントリを書きました。 Apache Sparkで、HDFS上のファイルを読み書きする http://d.hatena.ne.jp/Kazuhira/20150802/1438499631 ここで使ったプログラムを、YARN上で動かしてみたいと思います。 SparkをYARN上で動かす時は、yarn-clientとyarn-clusterという2種類の起動方法があるみたいです。 Running Spark on YARN http://spark.apache.org/docs/latest/running-on-yarn.html 参考) Spark on YARN http://kzky.hatenablog.com/entry/2015/01/12/Spark_on_YARN Apache Spark Resource Management and YARN App M
Hadoop 大規模な分散処理を支えるJavaフレームワーク HadoopはGoogleのMapReduce、GFS(Google File System)の技術をベースとして作られた HadoopではMapReduceはそのまま「MapReduce(Hadoop/MapReduce)」、GFSは「HDFS(Hadoop Distributed File System)」という名前でそれぞれ開発・公開されている MapReduce データを「Map処理」、「Reduce処理」の2つの処理で処理するモデル 以下、Hadoop/MapReduceの機能 複数のマシン上にデータとデータを処理するためのプログラムモジュールを配置し、プログラムを並列実行する 複数マシン上で分散実行される処理の順序や優先度の制御 障害時の自動リカバリ 処理状況のステータス管理や監視機能 処理全体のパフォーマンスを向上
こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く