[B! spark][hadoop] hohoho_ho2005のブックマーク

decode17

分散並列処理の基本に関する解説と，分散並列処理のオープンソース界隈で最近起こっていることをまとめた資料です．

hohoho_ho2005 2017/05/28

リンク

Hadoop Summit 2016 Tokyo参加レポート | DevelopersIO

こんにちは、小澤です。今回は10月26, 27日に行われたHadoop Summit 2016 Tokyoの参加レポートを書かせていただきます。参加セッション 1日目 Opening Keynote Moving towards enterprise ready Hadoop clusters on the cloud Hivemall: Scala ble machine learning library for Apache Hive/Spark/Pig Hadoop 3.0 in a Nutshell The truth about SQL and Data Warehousing on Hadoop Using Hadoop to build a Data Quality Service for both real-time and batch data 2日目 Opening

hohoho_ho2005 2016/11/09

hadoop
spark

リンク

Big Data Use Cases - MetiStream

A Collection of Real-World Use Cases Big Data has changed the way organizations, capture, analyze and utilize data in many industries. Are you planning or starting a big data project? Whether it’s your first project or you have completed several, you may benefit from the experiences of others. By reading real-world examples, you can more easily capitalize on the promises of big data and avoid some

hohoho_ho2005 2016/10/19

リンク

Apache Spark超入門（Hadoop / Spark Conference Japan 2016 講演資料）

Hadoop / Spark Conference Japan 2016 (2016/02/08) ■Apache Spark超入門猿田浩輔（NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス）イベントページ http://hadoop.apache.jp/hcj2016-program/ Read less

hohoho_ho2005 2016/02/13

spark
hadoop

リンク

Hadoop / Spark Conference Japan 2016に行ってきました | DevelopersIO

Hadoop / Spark Conference Japan 2016に行ってきましたので、その内容についてレポートします。最近は機械学習とSparkに興味があるためランチはB会場のライトニングトークを聞き、午後はD会場のセッションに参加しました。なお、スライドは順次Hadoop / Spark Conference Japan 2016（2月8日、東京）の講演・LTのプログラム | 日本Hadoopユーザー会に公開されるそうなので、そちらも合わせてご覧下さい。 Keynote まずは午前中のKeynoteです。他にもKeynoteに関する記事を見つけたのこちらも合わせてご覧下さい。 #hcj2016 Hadoop/Spark Conference Japan 2016 午前キーノートのメモ - #garagekidztweetz Hadoop / Spark Conference Ja

hohoho_ho2005 2016/02/13

hadoop
spark

リンク

Hadoop / Spark Conference Japan 2016（2月8日、東京）講演・LTのプログラム・講演資料 | 日本Hadoopユーザー会

日本Hadoopユーザー会主催イベント「Hadoop Conference Japan 2016」「Spark Conference Japan 2016」を2月8日に東京・品川区内で開催しました。今回は、Spark Conference Japanをはじめて併催しました。Apache Sparkの主要開発者である Xin Reynold 氏（Databricks）をお招きして、次期バージョンSpark 2.0の最新情報をご紹介頂きました。様々な講演者が集結し、技術トピックはもちろんのこと、Yahoo! Japan、さくらインターネット、niconico、ソフトバンク、ローソン、リクルートライフスタイル、IHI等によるHadoop / Sparkの事例・取り組みも紹介されました。また、皆様に投票にご協力頂いたライトニングトーク選定の結果にもとづき魅力的な22件に発表頂きました。このほ

hohoho_ho2005 2016/02/09

hadoop
spark

リンク

Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます年々拡大するビッグデータ市場。IDC Japanの予測によれば、国内のビッグデータソフトウェア市場の規模は2014～2019年にかけて年間平均成長率33.5％で拡大し、2019年には470億6100万円に達する。ビッグデータを分散処理・管理するためのソフトウェア基盤としてメジャーなOSSに「Apache Hadoop」がある。Hadoop上のデータ処理には、従来から「Hadoop MapReduce」や、MapReduce上で動作するクエリ処理技術である「Apache Hive」が利用されてきた。しかし、MapReduceとHiveには、大規模データの処理に活用する上での課題がある。 MapReduceはスループット重視の設計であるた

hohoho_ho2005 2016/01/28

spark

リンク

GitHub - alexholmes/vagrant-hadoop-spark-hive: Vagrant project to spin up a single virtual machine running current versions of Hadoop, Hive and Spark

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

hohoho_ho2005 2015/12/17

リンク

ディスク容量が貧弱なYARNクラスタでSparkを動かす際の注意点 - Qiita

Apache SparkをYARN上で動かしていて、気づいたことのメモ。ディスク容量が非常に小さいサーバをスレーブにしていた時に、ある程度Sparkアプリケーションを実行していると、NodeManagerのUnhealthy化が起きたので調査しました。 NodeManagerのUnhealthyとは YARNでは、各スレーブサーバで動作しているNodeManagerは自身のサーバでYARNコンテナの動作に利用するディスク領域のチェックを定期的に実行しています。パーミッションが適切か、ディスクの空き容量が十分余っているかを確認しており、デフォルトでは90%以上容量を使ってしまっていると、UNHEALTHYという状態であることをResourceManagerに通知し、新しいYARNコンテナの割り当てがされないようにします。このあたりの仕様はHadoopのドキュメントに書いてあります。 ht

hohoho_ho2005 2015/11/26

spark
hadoop

リンク

Hadoopビッグデータ基盤の歴史を振り返る #cwt2015

Cloudera World Tokyo 2015 で発表した資料です。 https://clouderaworld.tokyo/ 概要かつてHadoopによるビッグデータ基盤は HiveやPig、MapReduce、そしてHDFSだけで構成されるシンプルなシステムでした。しかし現在では、SparkやImpalaを始めとして、Kafka、HBase、Parquet、そしてKuduなどの新しいコンポーネントを組み合わせた複雑なシステムが次々に本番環境で稼働し始めています。このセッションでは、データの取得、加工、提供までの流れがどのように変わっていったか、そして現在ではどのような基盤が主流なのか、最新のトレンドについて解説します。Read less

hohoho_ho2005 2015/11/11

リンク

さくらのクラウドでHadoop/Spark/Asakusa環境を構築する（2）～Sparkのセットアップと実行編～ | さくらのナレッジ

はじめに「さくらのクラウドでHadoop/Spark/Asakusa環境を構築する」第2回目です。前回は、さくらのクラウド環境にHadoopディストリビューション Hortonworks Data Platform (HDP) を使ってHadoopクラスタを構築しました。今回は、Apache Spark を紹介します。前回構築したHadoopクラスタにSparkをセットアップして、HadoopとSparkを連携するための設定を行います。 SparkがHadoopと連携して動作することを確認できたら、いくつかのSparkアプリケーションを実行してみます。また、Sparkが提供するSQL実行エンジン Spark SQLや、ストリーム処理エンジン Spark Streaming 、 Sparkが提供する管理画面などを紹介します。インストール構成これからHadoopクラスタにSpa

hohoho_ho2005 2015/11/08

spark
hadoop

リンク

G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006

Global Knowledge Network社主催、「G-Tech 2015」でのHadoop/Sparkに関する講演資料です。Read less

hohoho_ho2005 2015/10/21

Hadoop
Spark

リンク

MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演）

hohoho_ho2005 2015/10/07

spark
hadoop

リンク

さくらのクラウドでHadoop/Spark/Asakusa環境を構築する（1）～Hadoopインストール編～ | さくらのナレッジ

はじめにさくらのナレッジをご覧の皆様、はじめまして。株式会社ノーチラス・テクノロジーズの川口と申します。この連載では、さくらのクラウド上に分散処理基盤用のフレームワーク Hadoop、Spark の環境を構築して、この環境上でいくつかのアプリケーションを実行する方法を紹介します。また、HadoopやSpark上で動作し、複雑なバッチ処理の開発に向いているバッチアプリケーション開発フレームワーク Asakusa Framework の使い方を紹介します。 HadoopやSparkがどのようなものかは、インターネット上に豊富な情報があるのでそちらを見て頂くとして、この連載ではこれらのプロダクトを使い始めるまでの具体的な手順を中心に書いていきたいと思います。 HadoopやSpark、Asakusa Frameworkをよく知らない方や始めてさわってみる、という方にでもわかりやす

hohoho_ho2005 2015/10/03

hadoop
spark

リンク

YARN上でジョブを走らせてみる（Spark編） - Qiita

Outline HadoopのYARN上で色々なアプリを動かすことになったのでテスト環境を作ってみた。今回はYARN上でSparkのjarを走らせてみる。走らせるjarは、sparkパッケージに入ってるexampleと、自分で作ったやつ。環境メインマシン実際に動かしているハード。 WebUIなどの動作確認に使う。 Client OS: Ubuntu14.04 （AWS EC2） Hadoop: 2.5.2 Java: 8 Hadoopクラスタ別記事を参照。擬似分散モード：http://qiita.com/uryyyyyyy/it ems/a7ac8dc088b6fc2d115d 完全分散モード：http://qiita.com/uryyyyyyy/it ems/ebd732d3935ee404f4e7 ここではResourceManagerとnameNodeは同じhostにあると

hohoho_ho2005 2015/09/25

hadoop
spark

リンク

HDFSとSparkの連携 - すだちっこのOrdinary Days

SparkでHDFS上のデータを分析し結果を再度HDFS上に保存するまでの備忘録です。環境 HDFSはCDH5.3.2 SparkはHDFSクラスタとは別で用意 StandAloneモードでインストールしました。サンプルデータ Generate Test Data - Amazon Elastic MapReduceから作成こういうデータ（抜粋) 0|Christopher WOOD|1954-10-15|F|NC|christopher.wood.1954@hotmail.com|412-850-6209 1|Scarlett YOUNG|1998-10-24|M|OK|scarlett.young.1998@live.com|151-447-8098 2|Ian ADAMS|1982-02-12|F|CT|ian.adams.1982@hotmail.com|768-213-49

hohoho_ho2005 2015/09/12

spark
hadoop

リンク

Apache SparkをYARN上で動かしてみる - CLOVER🍀

先ほど、こんなエントリを書きました。 Apache Sparkで、HDFS上のファイルを読み書きする http://d.hatena.ne.jp/Kazuhira/20150802/1438499631 ここで使ったプログラムを、YARN上で動かしてみたいと思います。 SparkをYARN上で動かす時は、yarn-clientとyarn-clusterという2種類の起動方法があるみたいです。 Running Spark on YARN http://spark.apache.org/docs/latest/running-on-yarn.html 参考） Spark on YARN http://kzky.hatena blog.com/entry/2015/01/12/Spark_on_YARN Apache Spark Resource Management and YARN App M

hohoho_ho2005 2015/08/10

Hadoop
spark

リンク

ビッグデータを支える技術 - Qiita

Hadoop 大規模な分散処理を支えるJavaフレームワーク HadoopはGoogleのMapReduce、GFS(Google File System)の技術をベースとして作られた HadoopではMapReduceはそのまま「MapReduce(Hadoop/MapReduce)」、GFSは「HDFS(Hadoop Distributed File System)」という名前でそれぞれ開発・公開されている MapReduce データを「Map処理」、「Reduce処理」の2つの処理で処理するモデル以下、Hadoop/MapReduceの機能複数のマシン上にデータとデータを処理するためのプログラムモジュールを配置し、プログラムを並列実行する複数マシン上で分散実行される処理の順序や優先度の制御障害時の自動リカバリ処理状況のステータス管理や監視機能処理全体のパフォーマンスを向上

hohoho_ho2005 2015/06/15

リンク

Hadoop、Spark、ビッグデータ関連書籍 | Tech Blog

2021夏：ページアップデート中 2021/8/13 発売予定の書籍も含めたビッグデータ関連（Hadoop、Spark、Kafka、機械学習系など）関連書籍のまとめです。日本語で提供されている書籍を中心に掲載していますが、読んだことがある／手元にある／買おうかなと思っている書籍を中心にまとめているので、全てを網羅しているわけではありません。当初はブログで公開していましたが、更新が多いので独立したページとしました。（コメントは私見です。素晴らしい書籍ばかりです）書籍名（原書）出版日コメント

hohoho_ho2005 2015/02/11

spark
hadoop

リンク

分散処理に入門してみた（Hadoop + Spark） | Casley Deep Innovations株式会社技術ブログ

こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式：MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。ビッグデータ活用の市場が日々大きくなるに従って、数百テラ～ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要

hohoho_ho2005 2014/11/24

Spark
hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (28)

sparkとhadoopに関するhohoho_ho2005のブックマーク (36)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス