タグ

ApacheとHadoopに関するhikazohのブックマーク (2)

  • Hadoopで使っているポート番号の確認、設定

    Cloudera Manager Advent Calendar 2015の2日目です Apache Hadoop、やエコシステムではさまざまなポートを使用してネットワーク通信を行います。それぞれ別のプロジェクトで開発されているので、横断的にポート番号の確認をしたい場合、プロパティを調べるのは結構面倒です。 そんな時に役立つページが下記のリンクで、例えばCDH5で利用しているポート番号の一覧を見ることができます。 http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cdh_ig_ports_cdh5.htmlGoogleなどで「CDH5 ports」というキーワードで検索すれば(おそらく)ヒットするので便利ですよ。 Cloudera Managerによるポート番号の一覧、設定

    Hadoopで使っているポート番号の確認、設定
  • Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社

    バッチを高速にした後はリアルタイムの世界へ! 現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、 直近10秒間のトラフィックを集計したい。 直近10分間で自社商品がTwitterで話題になった回数を知りたい。 直近10時間での全店舗での来客数を集計したい。 といったリアルタイムなモニタリングを実現したくなるのではないだろうか?こういったモニタリング用の集計は、技術的には「ウインドウ集計(Time-Window Operation)」と呼ばれる。そこでコラムでは、近頃、「ポストHadoop」として話題のApac

    Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社
  • 1