[B! Hadoop][hadoop] [3ページ] nobusueのブックマーク

Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮

最近流行りのディスク容量があふれたときの挙動、Hadoop編を書こうと思ったらwyukawaさんが既に書いてくださったのでやめました。 ……と思ったのですが、せっかくなので id:wyukawa さんが書いてない箇所を補足してみようと思います。 ( この記事は @kernel023 にレビューしてもらっています。ありがとうございます ) wyukawaさんの記事へのコメントまずHBaseを使っている場合はcompactionがある関係上Disk使用率は50%以内に抑えておくのが無難だと思います。この辺はCassandraと同じですね。全データを同時にコンパクションするケースはまずないので無理に50%以下に抑えなくていいとは思いますが、意識はしておいた方がいいですね。私は60%での警告を推奨しますが、この辺はケースバイケースです。 MapReduce の出力結果など、いきなり容量増える

nobusue 2015/01/23

hadoop

リンク

Hadoopのシステム設計・運用のポイント

This document discusses messaging queues and platforms. It begins with an introduction to messaging queues and their core components. It then provides a table comparing 8 popular open source messaging platforms: Apache Kafka, ActiveMQ, RabbitMQ, NATS, NSQ, Redis, ZeroMQ, and Nanomsg. The document discusses using Apache Kafka for streaming and integration with Google Pub/Sub, Dataflow, and BigQuery

nobusue 2015/01/23

hadoop
CDH

リンク

Cloudera Blog

The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post

nobusue 2015/01/23

hadoop
HDFS

リンク

HDFSネームノードのHAについて #hcj13w

Hadoop Conference Japan 2013 Winter で発表した、ネームノードHA についての資料です。10分だったのでかなり限定的な説明に終わっています。Read less

nobusue 2015/01/23

hadoop
HDFS

リンク

hdfs log file is too huge

nobusue 2015/01/20

CDH5.2.1でこのbugにヒット。DataNodeを停止してdncp_block_verification.log.currと.prevを削除後に起動すればよい模様。根本解決はHadoop2.6なのでCDHでは未対応。

hadoop
HDFS

リンク

Cloudera Blog

nobusue 2015/01/20

hadoop
HDFS

リンク

HadoopからMongoDBのデータ(BSON)にアクセスする

米国を中心に、オンライン処理はMongo DB、バッチ処理はHadoopという組み合わせが非常にポピュラーになってきている印象である。従来からMongo DB Connector for Hadoopを使うことでHadoopからMongo DBに直接アクセスすることは可能だったが、つい先日、単なる Mongo DBのデータ(BSONフォーマットのファイル)がHadoopから読み込めるようになった(また、HadoopのoutputとしてBSON 形式のファイルを使用することも同時に可能になった)。これはMongo DBのデータベースファイルではなく、mongodumpを使ってダンプされる純粋なBSONファイルであることに注意が必要だ。つまり、HadoopがBSONファイルを読むときには、Mongo DBで設定したインデックス等は使用されない。単にデータの塊があり、そのフォーマットがBSONである場合で

nobusue 2015/01/05

リンク

Hadoop on docker 後編 - White scenery @showyou, hatena

前回は既存のコードからHadoopのコンテナを動かすところまで書きましたが、今回はそれに手を加えて複数ノードで動くようにしました。少し試行錯誤してたので、ソースだけ置いて要点だけ書いて行きます。 showyou/hadoop-docker at multinode · GitHub まずDockerのパッケージを作るのは、Dockerfileになります。なのでいつも共通の設定とか初期設定はここに書いて行きます。bootstrap.shは毎回起動する度に呼ばれるファイルになっています(ただしbootstrap.shは今回指定して読んでいるだけで、dockerの決まりでは無いと思います)。また今回はNameNode/ResourceManager側とDataNode/NodeManager側でディレクトリを分けました。作っていった手順ですが、まずsequenceiq/hadoop-dock

nobusue 2014/12/23

リンク

Hadoop on docker 前編 - White scenery @showyou, hatena

後半書きました( Hadoop on docker 後編 - White scenery @showyou, hatena ) 書き忘れていましたが、この記事 Spark, SQL on Hadoop etc. Advent Calendar 2014 - Qiita の23日目になります。はじめはPivotal社の商用SQL on HadoopであるHAWQの話でもしようかと思いましたが、先日掲載したスライドに大体書いているので読んで頂ければと思います。今回はHadoop on Dockerについてでも話します。最近はHadoopを動かすのにdockerを使う動きが出ています。 dockerで組み上げるメリットとしては、 1. VMに比べると速度が速い(と考えられる) 2. 各社配布しているVMと違いDockerfile辺りを見れば何やってるか理解できる 3. imageを管理すれ

nobusue 2014/12/23

リンク

Hadoop YARN覚え書き | OpenGroove

Hadoop YARNの仕様とか設計について過去記事に書いたことがあるんだけど、も一回まとめ、というか覚え書き。 YARNではスロット数を制御するプロパティがなくなった、とドキュメントや参考書にある。これはMRv1でのmapred.tasktracker.map.tasks.maximum ,mapred.tasktracker.reduce.tasks.maximum のことだろう。実際にはMRv2に対応するmapreduce.tasktracker.map.tasks.maximum ,mapreduce.tasktracker.reduce.tasks.maximumというプロパティが存在しているが書いても無視されるらしく、何故これらが残っているのか謎。ともあれYARNではスロットの概念が消滅した代わりにコンテナという概念が採用され、ジョブのプロセスはコンテナ内で実行される。コンテナ

nobusue 2014/12/22

YARN
hadoop

リンク

ネスト構造のJSONデータにApache Drillで直接SQLクエリをかける - nagix

この記事は Spark, SQL on Hadoop etc. Advent Calendar 2014 の18日目の記事です。 Drill のここがすごい先日 Apache Drill も晴れて Apache Software Foundation のトップレベルプロジェクトになりまして、来年初頭のバージョン1.0リリースに向けて機能が追加され品質も徐々に高まってきています。さて、Drillとはどういうものかについては去年のHadoopアドベントカレンダーの記事でも触れました。が、改めてDrillの特徴と他のSQL-on-Hadoopプロジェクトとどういうところが違うのかについて説明しましょう。速攻使える (Agility) リレーショナルデータベースの世界でも、データウェアハウスの世界でも、そして近年のHadoopのような分散処理プラットフォームの世界でも、データ分析を行う上での

nobusue 2014/12/21

Drill
hadoop

リンク

Cloudera Manager API を使ったクラスタ構築 - Qiita

なにはともあれCloudera Managerのインストールです。 sudo 可能なユーザで下記を実行すればインストールされます。sudoできない場合は最後はsuしてrootで実行してください。 $ curl -O http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin $ chmod 755 cloudera-manager-installer.bin $ sudo ./cloudera-manager-installer.bin --i-agree-to-all-licenses --noprompt --noreadme これが終ればブラウザから http://<nodename>:7180 にアクセスすることで Cloudera Manager にアクセスできるようになるはずです

nobusue 2014/12/11

リンク

elliptium.net - elliptium リソースおよび情報

This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

nobusue 2014/12/10

リンク

Hiveのパフォーマンスチューニングで試した７つのこと - Qiita

Spark, SQL on Hadoop etc. Advent Calendar 2014 - Qiita 10日目の記事です。とあるプロジェクトにて、パフォーマンスチューニングのために実施した７つのことをまとめました。この内容はCloudera World Tokyo 2014でお話しさせていただいた内容を再編したものです。登壇資料 - Hadoopで作る広告分析プラットフォーム登壇の様子 - 国内最大級のHadoop関連カンファレンスに登壇してきました！ 1.YARNが利用可能なリソースの変更 YARNではMR1と異なりスロットではなくコンテナという概念でリソースが管理されます。以下のパラメータでノードマネージャがコンテナに利用可能なメモリ量、CPU数を変更しました。 yarn.nodemanager.resource.memory-mb yarn.nodemanager.

nobusue 2014/12/10

hive
hadoop

リンク

Japan.R参加報告と質問への解答 - White scenery @showyou, hatena

先週土曜日、Japan.Rでパネルディスカッションの一人として参加しました。割とトークグダグダでしたが、みなさんから山ほどの反応を頂いて感謝しております。 japan.R始まったばかりの頃は学術系もしくは広告系の人が多かった気がしますが、今回は思いの外エンジニアが多くてびっくりしました。もうちょい"私はR使いだし、pythonに乗り換える理由なんてない"とかDisってもらってもよかったのですが。いくつか面白い質問を頂きましたが、時間の都合答えられなかった部分もあるのでここで答えます。 Q: 今Rエンジニアだが、今後他の言語覚えていかないと食えなくなると思っている。どの言語を覚えていけばよいか？その場ではpigとかhiveとか答えましたが、実際はその都度必要になった言語覚えればいいと思います。ビッグデータ処理基盤ならJava*1とかScala*2とかpython*3とか、高速に大量のリク

nobusue 2014/12/09

R
hadoop

リンク

Hadoop関連（全部俺） Advent Calendar 2014 - Adventar

Hadoop、Hadoopエコシステム、Impala、Hue、HBase、Sparkなど、Hadoopに関連するアドベントカレンダーです。（今年は例年より忙しいので、どこまで続くか不安） -> 2014.12.25 無事完走しました (^o^)/（が、十分時間が取れず、内容が薄くてすみません） 2013年のアドベントカレンダー: http://www.adventar.org/calendars/310 Tech Blog: http://linux.wwing.net/WordPress/

nobusue 2014/12/07

CDH関連ならここは必見

hadoop

リンク

2014年版 Hadoopを10分で試す(1)

Hadoop関連（全部俺） Advent Calendar 2014:7日目先週の研修中に、「Hadoopをこれから試してみたいけど、どこから始めたらいいでしょうか？」という質問がありました。構築の勉強をしたいのであれば、今ならパブリッククラウドや仮想化環境を使えるので、実際に構築してみるのが良いでしょう。パッケージを手作業でインストールしても良いですし、Cloudera Managerを使えば簡単です。 MapReduceやSparkのジョブの開発方法を学びたいのであれば、環境を用意した上で、先日紹介したO’Reillyなどの書籍を利用したり、あるいはセミナーや研修を受講するのが良いかもしれません。 MapRediuceやSparkを試すための簡単な方法のひとつは、「Hadoop入門：Hadoopを10分で理解する」シリーズで紹介したCloudera Managerであり、Clou

nobusue 2014/12/07

QuickStart VMのデフォルトでCloudera Managerが起動しなくなったのは妥当かと。(メモリ食い過ぎなんで。。) Cloudera Managerは自力でインストールしてもそれほど手間かからないですし。

CDH
hadoop

リンク

HDFSの拡張属性 xattr

HDFSの権限 HDFSにはパーミッション（権限）の設定ができます。権限の設定により、誤ってファイルの削除を回避したり、権限のないユーザーがファイルを読めないようにするなどができます。（が、権限を指定しても悪意のあるユーザーのファイル操作からの保護はできないので、強固なセキュリティのためにはKerberos認証などと組み合わせる必要があります）。また、HDFSに追加されたアクセス制御リスト（ACL）により、より柔軟な設定を行うことができます。 HDFSで権限や所有者を変更するには、 hdfs dfs コマンド（またはhadoop fsコマンド）から、chmod / chown / chgrp などのサブコマンドを使用します。いくつかの変更を行ってみました（一部のコマンドの出力が右側に隠れています） ※権限を有効にするにはdfs.permissions をtrueに設定します。 [shel

nobusue 2014/12/07

hadoop
HDFS

リンク

Hadoop関連本リリース予定 (2014/12版)

４日目です。 2015/1/1: 最新情報を別ページにまとめました O’Reillyのサイバーセールで洋書を買いまくった皆様、いかがお過ごしでしょうか？前回のブログからだいぶ時間が過ぎてしまったので、今後出版される予定のHadoop関連本のまとめを更新してみました。（一部O’Reillyじゃないものも含まれています）しかし象本４版は来年秋かぁ、、、まだまだ先ですね 🙂 Early Releaseと見間違いました。ご指摘ありがとうございました＞ @tamagawa_ryuji さん m(__)m ＃日本語版楽しみにしてますw NoTitleRelease date和書名出版日雑感

nobusue 2014/12/07

hadoop
Spark

リンク

The Hadoop Ecosystem Table

The Hadoop Distributed File System (HDFS) offers a way to store large files across multiple machines. Hadoop and HDFS was derived from Google File System (GFS) paper. Prior to Hadoop 2.0.0, the NameNode was a single point of failure (SPOF) in an HDFS cluster. With Zookeeper the HDFS High Availability feature addresses this probl em by providing the option of running two redundant NameNodes in the s

nobusue 2014/12/07

分類が微妙なのもあるが、どんなものがあるのか一覧するには便利

hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (89)

Hadoopとhadoopに関するnobusueのブックマーク (212)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス