タグ

Hadoopとhadoopに関するnobusueのブックマーク (212)

  • Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮

    最近流行りのディスク容量があふれたときの挙動、Hadoop編を書こうと思ったらwyukawaさんが既に書いてくださったのでやめました。 ……と思ったのですが、せっかくなので id:wyukawa さんが書いてない箇所を補足してみようと思います。 ( この記事は @kernel023 にレビューしてもらっています。ありがとうございます ) wyukawaさんの記事へのコメント まずHBaseを使っている場合はcompactionがある関係上Disk使用率は50%以内に抑えておくのが無難だと思います。この辺はCassandraと同じですね。 全データを同時にコンパクションするケースはまずないので無理に50%以下に抑えなくていいとは思いますが、意識はしておいた方がいいですね。 私は60%での警告を推奨しますが、この辺はケースバイケースです。 MapReduce の出力結果など、いきなり容量増える

    Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮
  • Hadoopのシステム設計・運用のポイント

    This document discusses messaging queues and platforms. It begins with an introduction to messaging queues and their core components. It then provides a table comparing 8 popular open source messaging platforms: Apache Kafka, ActiveMQ, RabbitMQ, NATS, NSQ, Redis, ZeroMQ, and Nanomsg. The document discusses using Apache Kafka for streaming and integration with Google Pub/Sub, Dataflow, and BigQuery

    Hadoopのシステム設計・運用のポイント
  • Cloudera Blog

    The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

    Cloudera Blog
  • HDFSネームノードのHAについて #hcj13w

    Hadoop Conference Japan 2013 Winter で発表した、ネームノードHA についての資料です。10分だったのでかなり限定的な説明に終わっています。Read less

    HDFSネームノードのHAについて #hcj13w
  • hdfs log file is too huge

    nobusue
    nobusue 2015/01/20
    CDH5.2.1でこのbugにヒット。DataNodeを停止してdncp_block_verification.log.currと.prevを削除後に起動すればよい模様。根本解決はHadoop2.6なのでCDHでは未対応。
  • Cloudera Blog

  • HadoopからMongoDBのデータ(BSON)にアクセスする

    米国を中心に、オンライン処理はMongoDB、バッチ処理はHadoopという組み合わせが非常にポピュラーになってきている印象である。従来からMongoDB Connector for Hadoopを使うことでHadoopからMongoDBに直接アクセスすることは可能だったが、つい先日、単なる MongoDBのデータ(BSONフォーマットのファイル)がHadoopから読み込めるようになった(また、HadoopのoutputとしてBSON 形式のファイルを使用することも同時に可能になった)。 これはMongoDBのデータベースファイルではなく、mongodumpを使ってダンプされる純粋なBSONファイルであることに注意が必要だ。つまり、HadoopがBSONファイルを読むときには、MongoDBで設定したインデックス等は使用されない。単にデータの塊があり、そのフォーマットがBSONである場合で

    HadoopからMongoDBのデータ(BSON)にアクセスする
  • Hadoop on docker 後編 - White scenery @showyou, hatena

    前回は既存のコードからHadoopのコンテナを動かすところまで書きましたが、今回はそれに手を加えて複数ノードで動くようにしました。 少し試行錯誤してたので、ソースだけ置いて要点だけ書いて行きます。 showyou/hadoop-docker at multinode · GitHub まずDockerのパッケージを作るのは、Dockerfileになります。なのでいつも共通の設定とか初期設定はここに書いて行きます。bootstrap.shは毎回起動する度に呼ばれるファイルになっています(ただしbootstrap.shは今回指定して読んでいるだけで、dockerの決まりでは無いと思います)。また今回はNameNode/ResourceManager側とDataNode/NodeManager側でディレクトリを分けました。 作っていった手順ですが、まずsequenceiq/hadoop-dock

    Hadoop on docker 後編 - White scenery @showyou, hatena
  • Hadoop on docker 前編 - White scenery @showyou, hatena

    後半書きました( Hadoop on docker 後編 - White scenery @showyou, hatena ) 書き忘れていましたが、この記事 Spark, SQL on Hadoop etc. Advent Calendar 2014 - Qiita の23日目になります。 はじめはPivotal社の商用SQL on HadoopであるHAWQの話でもしようかと思いましたが、先日掲載したスライドに大体書いているので読んで頂ければと思います。 今回はHadoop on Dockerについてでも話します。 最近はHadoopを動かすのにdockerを使う動きが出ています。 dockerで組み上げるメリットとしては、 1. VMに比べると速度が速い(と考えられる) 2. 各社配布しているVMと違いDockerfile辺りを見れば何やってるか理解できる 3. imageを管理すれ

    Hadoop on docker 前編 - White scenery @showyou, hatena
  • Hadoop YARN覚え書き | OpenGroove

    Hadoop YARNの仕様とか設計について過去記事に書いたことがあるんだけど、も一回まとめ、というか覚え書き。 YARNではスロット数を制御するプロパティがなくなった、とドキュメントや参考書にある。これはMRv1でのmapred.tasktracker.map.tasks.maximum ,mapred.tasktracker.reduce.tasks.maximum のことだろう。実際にはMRv2に対応するmapreduce.tasktracker.map.tasks.maximum ,mapreduce.tasktracker.reduce.tasks.maximumというプロパティが存在しているが書いても無視されるらしく、何故これらが残っているのか謎。ともあれYARNではスロットの概念が消滅した代わりにコンテナという概念が採用され、ジョブのプロセスはコンテナ内で実行される。コンテナ

  • ネスト構造のJSONデータにApache Drillで直接SQLクエリをかける - nagix

    この記事は Spark, SQL on Hadoop etc. Advent Calendar 2014 の18日目の記事です。 Drill のここがすごい 先日 Apache Drill も晴れて Apache Software Foundation のトップレベルプロジェクトになりまして、来年初頭のバージョン1.0リリースに向けて機能が追加され品質も徐々に高まってきています。さて、Drillとはどういうものかについては去年のHadoopアドベントカレンダーの記事でも触れました。 が、改めてDrillの特徴と他のSQL-on-Hadoopプロジェクトとどういうところが違うのかについて説明しましょう。 速攻使える (Agility) リレーショナルデータベースの世界でも、データウェアハウスの世界でも、そして近年のHadoopのような分散処理プラットフォームの世界でも、データ分析を行う上での

  • Cloudera Manager API を使ったクラスタ構築 - Qiita

    なにはともあれCloudera Managerのインストールです。 sudo 可能なユーザで下記を実行すればインストールされます。sudoできない場合は最後はsuしてrootで実行してください。 $ curl -O http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin $ chmod 755 cloudera-manager-installer.bin $ sudo ./cloudera-manager-installer.bin --i-agree-to-all-licenses --noprompt --noreadme これが終ればブラウザから http://<nodename>:7180 にアクセスすることで Cloudera Manager にアクセスできるようになるはずです

    Cloudera Manager API を使ったクラスタ構築 - Qiita
  • elliptium.net - elliptium リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

  • Hiveのパフォーマンスチューニングで試した7つのこと - Qiita

    Spark, SQL on Hadoop etc. Advent Calendar 2014 - Qiita 10日目の記事です。 とあるプロジェクトにて、パフォーマンスチューニングのために実施した7つのことをまとめました。 この内容はCloudera World Tokyo 2014でお話しさせていただいた内容を再編したものです。 登壇資料 - Hadoopで作る広告分析プラットフォーム 登壇の様子 - 国内最大級のHadoop関連カンファレンスに登壇してきました! 1.YARNが利用可能なリソースの変更 YARNではMR1と異なりスロットではなくコンテナという概念でリソースが管理されます。 以下のパラメータでノードマネージャがコンテナに利用可能なメモリ量、CPU数を変更しました。 yarn.nodemanager.resource.memory-mb yarn.nodemanager.

    Hiveのパフォーマンスチューニングで試した7つのこと - Qiita
  • Japan.R参加報告と質問への解答 - White scenery @showyou, hatena

    先週土曜日、Japan.Rでパネルディスカッションの一人として参加しました。割とトークグダグダでしたが、みなさんから山ほどの反応を頂いて感謝しております。 japan.R始まったばかりの頃は学術系もしくは広告系の人が多かった気がしますが、今回は思いの外エンジニアが多くてびっくりしました。もうちょい"私はR使いだし、pythonに乗り換える理由なんてない"とかDisってもらってもよかったのですが。 いくつか面白い質問を頂きましたが、時間の都合答えられなかった部分もあるのでここで答えます。 Q: 今Rエンジニアだが、今後他の言語覚えていかないとえなくなると思っている。どの言語を覚えていけばよいか? その場ではpigとかhiveとか答えましたが、実際はその都度必要になった言語覚えればいいと思います。ビッグデータ処理基盤ならJava*1とかScala*2とかpython*3とか、高速に大量のリク

    Japan.R参加報告と質問への解答 - White scenery @showyou, hatena
  • Hadoop関連(全部俺) Advent Calendar 2014 - Adventar

    Hadoop、Hadoopエコシステム、Impala、Hue、HBase、Sparkなど、Hadoopに関連するアドベントカレンダーです。 (今年は例年より忙しいので、どこまで続くか不安) -> 2014.12.25 無事完走しました (^o^)/(が、十分時間が取れず、内容が薄くてすみません) 2013年のアドベントカレンダー: http://www.adventar.org/calendars/310 Tech Blog: http://linux.wwing.net/WordPress/

    Hadoop関連(全部俺) Advent Calendar 2014 - Adventar
    nobusue
    nobusue 2014/12/07
    CDH関連ならここは必見
  • 2014年版 Hadoopを10分で試す(1)

    Hadoop関連(全部俺) Advent Calendar 2014:7日目 先週の研修中に、「Hadoopをこれから試してみたいけど、どこから始めたらいいでしょうか?」という質問がありました。 構築の勉強をしたいのであれば、今ならパブリッククラウドや仮想化環境を使えるので、実際に構築してみるのが良いでしょう。パッケージを手作業でインストールしても良いですし、Cloudera Managerを使えば簡単です。 MapReduceやSparkのジョブの開発方法を学びたいのであれば、環境を用意した上で、先日紹介したO’Reillyなどの書籍を利用したり、あるいはセミナーや研修を受講するのが良いかもしれません。 MapRediuceやSparkを試すための簡単な方法のひとつは、「Hadoop入門:Hadoopを10分で理解する」 シリーズで紹介したCloudera Managerであり、Clou

    2014年版 Hadoopを10分で試す(1)
    nobusue
    nobusue 2014/12/07
    QuickStart VMのデフォルトでCloudera Managerが起動しなくなったのは妥当かと。(メモリ食い過ぎなんで。。) Cloudera Managerは自力でインストールしてもそれほど手間かからないですし。
  • HDFSの拡張属性 xattr

    HDFSの権限 HDFSにはパーミッション(権限)の設定ができます。権限の設定により、誤ってファイルの削除を回避したり、権限のないユーザーがファイルを読めないようにするなどができます。(が、権限を指定しても悪意のあるユーザーのファイル操作からの保護はできないので、強固なセキュリティのためにはKerberos認証などと組み合わせる必要があります)。 また、HDFSに追加されたアクセス制御リスト(ACL)により、より柔軟な設定を行うことができます。 HDFSで権限や所有者を変更するには、 hdfs dfs コマンド(またはhadoop fsコマンド)から、chmod / chown / chgrp などのサブコマンドを使用します。いくつかの変更を行ってみました(一部のコマンドの出力が右側に隠れています) ※権限を有効にするにはdfs.permissions をtrueに設定します。 [shel

    HDFSの拡張属性 xattr
  • Hadoop関連本リリース予定 (2014/12版)

    4日目です。 2015/1/1: 最新情報を別ページにまとめました O’Reillyのサイバーセールで洋書を買いまくった皆様、いかがお過ごしでしょうか?前回のブログからだいぶ時間が過ぎてしまったので、今後出版される予定のHadoop関連のまとめを更新してみました。(一部O’Reillyじゃないものも含まれています) しかし象4版は来年秋かぁ、、、まだまだ先ですね 🙂 Early Releaseと見間違いました。ご指摘ありがとうございました> @tamagawa_ryuji  さん m(__)m #日語版楽しみにしてますw NoTitleRelease date和書名出版日雑感

    Hadoop関連本リリース予定 (2014/12版)
  • The Hadoop Ecosystem Table

    The Hadoop Distributed File System (HDFS) offers a way to store large files across multiple machines. Hadoop and HDFS was derived from Google File System (GFS) paper. Prior to Hadoop 2.0.0, the NameNode was a single point of failure (SPOF) in an HDFS cluster. With Zookeeper the HDFS High Availability feature addresses this problem by providing the option of running two redundant NameNodes in the s

    nobusue
    nobusue 2014/12/07
    分類が微妙なのもあるが、どんなものがあるのか一覧するには便利