[B! Hadoop] hikazohのブックマーク

hikazoh id:hikazoh

Hadoopに関するhikazohのブックマーク (12)

CDH5 | Tech Blog
hikazoh 2016/12/11
hadoop
リンク
Asakusa Frameworkのセットアップと実行編～さくらのクラウドでHadoop/Spark/Asakusa環境を構築する（3） | さくらのナレッジ
hikazoh 2016/02/14
hadoop

spark

framework
リンク
さくらのクラウドでHadoop/Spark/Asakusa環境を構築する（2）～Sparkのセットアップと実行編～ | さくらのナレッジ
はじめに「さくらのクラウドでHadoop/Spark/Asakusa環境を構築する」第2回目です。前回は、さくらのクラウド環境にHadoopディストリビューション Hortonworks Data Platform (HDP) を使ってHadoopクラスタを構築しました。今回は、Apache Spark を紹介します。前回構築したHadoopクラスタにSparkをセットアップして、HadoopとSparkを連携するための設定を行います。 SparkがHadoopと連携して動作することを確認できたら、いくつかのSparkアプリケーションを実行してみます。また、Sparkが提供するSQL実行エンジン Spark SQLや、ストリーム処理エンジン Spark Streaming 、 Sparkが提供する管理画面などを紹介します。インストール構成これからHadoopクラスタにSpa
hikazoh 2015/12/13
spark

hadoop

Cluster
リンク
2015年版 Hadoopを10分で試す〜Docker編〜
今年は死ぬほど忙しいので、アドベントカレンダー全部俺は断念しました。。。 Hadoopを10分で(Dockerで）試すが、例年「Hadoopを10分で試す」というブログを書いてきたので、今年も書いておきましょう。ちょうどいいタイミングでDockerのブログが公開されていたので、今年はDockerで試してみます。 MacOSにDocker環境を準備する WindowsやMacでDockerを使う場合、Docker Toolboxを利用することができます。 Docker Toolbox 今回はMacOSに環境を作成し、その上でHadoopを動かします。 Docker Toolboxのインストールパッケージをダウンロードしてインストールを開始します。「続ける」をクリック概要を読んだら「続ける」をクリックインストール先を選択し、「続ける」をクリックインストールの種類もデフォルトのままイ
hikazoh 2015/12/03
HTTP

hadoop

Docker
リンク
Hadoopで使っているポート番号の確認、設定
Cloudera Manager Advent Calendar 2015の2日目です Apache Hadoop、やエコシステムではさまざまなポートを使用してネットワーク通信を行います。それぞれ別のプロジェクトで開発されているので、横断的にポート番号の確認をしたい場合、プロパティを調べるのは結構面倒です。そんな時に役立つページが下記のリンクで、例えばCDH5で利用しているポート番号の一覧を見ることができます。 http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cdh_ig_ports_cdh5.html ＃Googleなどで「CDH5 ports」というキーワードで検索すれば（おそらく）ヒットするので便利ですよ。 Cloudera Managerによるポート番号の一覧、設定
hikazoh 2015/12/03
Apache

Cloudera

hadoop
リンク
メモ Java8 Stream APIとApache SparkとAsakusa Frameworkの類似点・相違点 #jjug_ccc - by shigemk2
前提 JJUGのみなさまならばJava8 Stream APIは知っているだろう Java8 StreamAPIとApache SparkとAsakusa FrameworkのコーディングはDAGの点から似ている Asakusa Frameworkの紹介自己紹介 Scalaですっごいお世話になっています年表 2006 Apache Hadoop 2010 Hadoopを知る 2010 Spark OSS化 2011/3 Asakusa Framework公開 2014/2 Apache Sparkトップレベル昇格 2014/3 Java8リリースバッチ処理を早くしたいという同期 2,3倍の速度なんて無理だろうと思っていたらHadoopで簡単にできるよ！ってなったので勉強しはじめた勉強会も超人気なるべく早くHadoopの情報を知りたいという理由からTwitterを始める Spark
hikazoh 2015/11/29
hadoop

spark
リンク
DMMゲームのログ解析~ログ収集と解析の概要~ - DMM.comラボエンジニアブログ
現在オンラインゲームのバックエンド、KPIシステムを担当していますマサヨシです。今回のブログでは【DMMオンラインゲームで実際に実装しているログとKPI】に関して3回にわたってご紹介致します。 DMMオンラインゲームでは、これまではオンラインゲームのプロジェクトごとに行っていたログの収集方法を統一し、プロジェクトに依存しない基本KPI機能とゲーム独自のKPI機能を実装するためのフレームワークを開発しましたのでその事例をもとにご紹介します。ログ収集、解析の概要まず、オンラインゲームのログ収集の全体像をご紹介します。オンラインゲームのログ収集ではApacheやnginx、PHPのログをfluentdで収集しています。 fluentdに集めたログをHadoopの分散処理システムに保存し、HiveやImpalaで解析をする流れになっています。ご存知の方も多いと思いますが、HiveとはHD
hikazoh 2015/10/11
hadoop

fluentd

ログ

ログ解析
リンク
さくらのクラウドでHadoop/Spark/Asakusa環境を構築する（1）～Hadoopインストール編～ | さくらのナレッジ
はじめにさくらのナレッジをご覧の皆様、はじめまして。株式会社ノーチラス・テクノロジーズの川口と申します。この連載では、さくらのクラウド上に分散処理基盤用のフレームワーク Hadoop、Spark の環境を構築して、この環境上でいくつかのアプリケーションを実行する方法を紹介します。また、HadoopやSpark上で動作し、複雑なバッチ処理の開発に向いているバッチアプリケーション開発フレームワーク Asakusa Framework の使い方を紹介します。 HadoopやSparkがどのようなものかは、インターネット上に豊富な情報があるのでそちらを見て頂くとして、この連載ではこれらのプロダクトを使い始めるまでの具体的な手順を中心に書いていきたいと思います。 HadoopやSpark、Asakusa Frameworkをよく知らない方や始めてさわってみる、という方にでもわかりやす
hikazoh 2015/10/02
hadoop

spark
リンク
Twitterのリアルタイム分散処理システム「Storm」入門
鈴木貴典＋木村宗太郎 TwitterのNathan Marz氏が開発している「Storm」。 2011年9月に、オープンソースとして公開されましたが、まだまだ日本で得られる情報は少なく、詳細は不明なところも多いです。そこで、日本初（たぶん）の「Storm」セッションを行います。「Storm」は、CEP（Complex Event Processing＝複合イベント処理）に属するプロダクトであり、分散リアルタイム処理を行うための基本セットを提供しています。今回のセッションでは、その概念や特性などについて解説してみます。Read less
hikazoh 2015/07/12
Storm

Twitter

hadoop
リンク
Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社
バッチを高速にした後はリアルタイムの世界へ！現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、直近10秒間のトラフィックを集計したい。直近10分間で自社商品がTwitterで話題になった回数を知りたい。直近10時間での全店舗での来客数を集計したい。といったリアルタイムなモニタリングを実現したくなるのではないだろうか？こういったモニタリング用の集計は、技術的には「ウインドウ集計（Time-Window Operation）」と呼ばれる。そこで本コラムでは、近頃、「ポストHadoop」として話題のApac
hikazoh 2015/07/09
あとで読む

apache

Hadoop

spark

Apache Spark

Scala

Streaming
リンク
Apache HBaseが1.0に
Spring BootによるAPIバックエンド構築実践ガイド第2版何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。この本では、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...
hikazoh 2015/04/21
あとで読む

Hadoop

HBase
リンク
第1回　なぜ、Hadoopはどのように動くのか、を学ぶのか | gihyo.jp
はじめにビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア（データ処理系）が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“⁠明確に⁠”わからない。このような問題を解決するには、
hikazoh 2015/04/01
あとで読む

Hadoop

algorithm
リンク
1