daisukebeのブックマーク - はてなブックマーク

Hadoop、Spark、ビッグデータ関連書籍 | Tech Blog

2021夏：ページアップデート中 2021/8/13 発売予定の書籍も含めたビッグデータ関連（Hadoop、Spark、Kafka、機械学習系など）関連書籍のまとめです。日本語で提供されている書籍を中心に掲載していますが、読んだことがある／手元にある／買おうかなと思っている書籍を中心にまとめているので、全てを網羅しているわけではありません。当初はブログで公開していましたが、更新が多いので独立したページとしました。（コメントは私見です。素晴らしい書籍ばかりです）書籍名（原書）出版日コメント

daisukebe 2018/07/25

リンク

HBase 2.0 のシェルコマンド

メモ：HBase 2.0 の HBase シェルのヘルプ。以前のバージョンと比べて使えるコマンドが増えている。 hbase(main):001:0> help HBase Shell, version 2.0.0-cdh6.xxxxxxxxx Type 'help "COMMAND"', (e.g. 'help "get"' -- the quotes are necessary) for help on a specific command. Commands are grouped. Type 'help "COMMAND_GROUP"', (e.g. 'help "general"') for help on a command group. COMMAND GROUPS: Group name: general Commands: processlist, status, tabl

daisukebe 2018/07/04

“procedures” 周りがどれぐらい使えるか、楽しみです

リンク

Cloudera Enterprise 6 beta で Erasure Coding を試してみる

Hadoop 3.0 で導入された HDFS Erasure Coding を Cloudera Enterprise 6.0 beta の環境で試してみました。 HDFSのErasure Coding は、HDFSのブロックの複製とは異なり、大規模環境においてはストレージに必要なコストを削減できる可能性がある技術です。しかし、小さいデータを格納する際は不利になり、ラック障害やImpala、Spark/MapReduceのようなジョブから利用する場合のパフォーマンス面でも注意が必要です。 Erasure Codingについては過去の投稿やClouderaのブログ、公式ページのドキュメントをご覧ください。整理できたら近いうちに何か書くかもしれません。 C6 Beta版でのErasure Coding Cloudera Managerで、右上の検索ボックスで Erasure Coding を

daisukebe 2018/06/28

リンク

Cloudera Enterprise 6 (beta) インストール

Cloudera Enteprise 6 beta 先月検証したまま放置していましたが、Cloudera Enteprise 6 public beta をインストールしたのでメモ書きです。 Cloudera Enterprise 6 のページからβプログラムに参加すると、ダウンロードのリンクなどが送られてきます。日本語版もあるのでそれに従ってインストーラをダウンロードしてください。検証環境下記のように、個人用のGoogle Cloud Platform (GCP)の環境に以下の構成で構築しました。（最終的にワーカーノードは５台に増設）ノードの種類とインスタンス Cloudera Manager 6 x 1　（n1-highmem em-2）マスター x 1　（n1-standard-4）ワーカー x 3　（n1-standard-2） OS等 CentoOS 7 firewall

daisukebe 2018/06/26

リンク

HDFSの新しい機能３つ

HDFSは分散ファイルシステムとして確固たる地位を築きましたが、NFSのサポートやスナップショットなど、多くの機能が追加されています。その中で、今後 Hadoop 3 で重要となる「HDFSのイレイジャーコーディング」を含めたClouderaのHDFSに関するブログ記事を日本語に翻訳しました。全３回にわたって掲載する予定なので、興味があればご覧ください。第１弾：Apache HadoopのHDFS Erasure Codingの紹介第２弾：How-to: Apache Hadoopで新しいHDFS DataNodeディスク間バランサを使用する第３弾：HDFSのメンテナンスステート

daisukebe 2017/05/20

第２弾：まだナイショ第３弾：まだナイショ

リンク

HDFSの新しい機能を確認 (3) – HDFSスナップショット | Tech Blog

現在、Hadoop 2.x系では HDFSのスナップショット機能が含まれています [1]。CDH5からこの機能がサポートされました。 HDFSスナップショットとは？ HDFSでのスナップショットとは、HDFSサービスを停止せず、特定の時点での「状態」を保持するための機能です。従来のHDFSには、削除したファイルの復旧ができない（HDFSにゴミ箱機能はありますが、、）ある時点でのリカバリができない定期的なスナップショットを取る仕組みがないという課題がありました。たとえば、ある時点でHDFSの一貫性があるバックアップを取りたい場合、厳密に一貫性を確保するためにはネームノードを一旦セーフモードにするなどの操作の必要がありました。が、この際にダウンタイムが生じてしまいます。HDFSスナップショットにより、HDFSを停止せずに、特定の時点でのバックアップを取得することが可能になります。 H

daisukebe 2017/03/22

スナップショットにより、ユーザーのオペミスによる大規模データロストから生還した例を見た

リンク

SparkのWeb UIを調べてみた

SparkのWeb UIに記載されている項目の意味について（日本語で）まとまっている情報がなかったのでまとめてみました。(Spark 1.6ベース） Spark 2.xへの対応と、SparkSQL、SparkStreamingは別途記載する予定。間違いを見つけたらコメントお願いします。m(__)m

daisukebe 2017/01/05

高機能ですよねえ

リンク

HUEについてのまとめ 2016年版

2016年現在、HadoopやHadoopエコシステムを使っているほとんどの方はHue（ヒュー）をご存知でしょう。しかし、過去にHadoopを使っていた方、あるいはこれからHadoopを使おうという方の中にはご存知ない方がいらっしゃるかもしれません。この記事ではHueについて改めて簡単に紹介します。 Hueとは？ Hueは Hadoop User Experience の略称で、Hadoopやエコシステム(Hive、Impala、HDFS、Sentry、Solr、Oozie….など）のためのユーザーインタフェースを提供しています。Apache HadoopのためのウェブベースのUIです。コマンドラインを使わずにHadoop上のデータを対話的にクエリしたり、ビジュアライズできる、超便利でクールなUIを提供しています。（日本語化されています！）例えば、HDFSにファイルをアップロードする場合

daisukebe 2016/12/25

"現在はS3用のファイルブラウザが利用できます"

リンク

HBase 1.2で導入されたSimpleRegionNormalizerを試してみる

「Distributed computing (Apache Hadoop, Spark, …) Advent Calendar 2016」の@d1ce_氏による「HBase 1.2で導入されたSimpleRegionNormalizerについて」で紹介されていたRegionNormalizerの機能を試してみました。 HBaseはテーブルを「リージョン」という範囲に分けて管理します。例えば以下の図では４つのリージョンに分かれていますが、図Aはほぼ均等になっているのに対し、図Bは不均等になっています。このように不均衡が生じると、リージョンが割り当てられているサーバーに負荷が集中してしまったり、特定リージョンへの書き込みが集中することで、リージョンサイズ（デフォルト10GB）を超えてしまい、分割が頻繁に発生する（split storm）など、パフォーマンスの問題の原因にもなります。リー

daisukebe 2016/12/07

記事書いたら同僚が試してくれた

リンク

2016年の象(Hadoop)四方山話

最近Hadoopってどうなのよ？数年前のビッグデータブームは去りましたが、データ量が増え続けていることには変わりありません。IoTが普及し、GPSやヘルスケア、または工場などでセンサーなどのデータを広く集め、リアルタイムで処理、またはオフラインで分析などビジネスに生かす機会が増えています。ビッグデータの基盤はHadoopだけではありませんが、海外や先進的なウェブ企業での利用から遅れること数年、今年は日本国内でもかなりビジネスでの利用が増えていると感じます。（事例が少ないと思う方も多いかもしれませんが、公開されてないだけですよ！）まだHadoopを知らないという方や間違って理解している人も多いですが、この辺りは別途アドベントカレンダーでまとめてみるかも！？ Hadoop関連の書籍も（特に英語版は）順調に増えているので、興味がある方はこちらのリストもどうぞ -> Hadoop、Spar

daisukebe 2016/12/02

なんか始まってる

リンク

HDFSスナップショットのメモ

HDFSのスナップショットを取得して削除する現時点のディレクトリは下記の通り [code] $ hdfs dfs -ls -R /user/training/ drwxrwxrwx – training supergroup 0 2016-07-12 19:12 /user/training/.Trash drwxrwxrwx – training supergroup 0 2016-08-09 01:40 /user/training/hoge drwxrwxrwx – training supergroup 0 2016-08-09 01:40 /user/training/hoge/fuga -rw-rw-rw- 1 training supergroup 158 2016-08-09 01:40

daisukebe 2016/08/10

リンク

セキュアなHadoopクラスタ：Cloudera ManagerでのKerberos化

前回はCloudera Managerを使ってCloudera Quickstart VMを利用できるようにしました。今回はKerberosを使用してセキュアなクラスタ化を行います。セキュア化の背景 Hadoopのメリットの一つはデータを一箇所に溜めておき、そのデータに対して様々なアプローチができることです。（データレイク、と呼ばれることも多い）ちょっと遅れたマーケ担当SQL話へのアンサーソングです / “データを一箇所に集めることでデータ活用の民主化が進んだ話 – once upon a time,” https://t.co/oPQAynvBks — Aki Ariga (@chezou) May 5, 2016 参考リンク：データを一箇所に集めることで「データ活用の民主化」が進んだという話データを一箇所に集めることによってデータの民主化は進みますが、その一方、セキュリティについ

daisukebe 2016/05/10

リンク

Apache Arrowとは

2月にApadheのトップレベルプロジェクトになったApache Arrowに注目しています。一言で言えば「インメモリで列指向データを扱うための標準」を目指しているものです。 Introducing Apache Arrow: A Fast, Interoperable In-Memory Columnar Data Structure Standard The Apache® Software Foundation Announces Apache Arrow™ as a Top-Level Project インメモリビッグデータシステムをつなぐ「Apache Arrow」 [Slideshare] Apache Arrow (Strata-Hadoop World San Jose 2016) 注目度の高い理由の一つとしては、多くの主要OSSの開発者が関わっており、今後多くのプロジェ

daisukebe 2016/04/26

リンク

Hadoopで使っているポート番号の確認、設定

Cloudera Manager Advent Calendar 2015の2日目です Apache Hadoop、やエコシステムではさまざまなポートを使用してネットワーク通信を行います。それぞれ別のプロジェクトで開発されているので、横断的にポート番号の確認をしたい場合、プロパティを調べるのは結構面倒です。そんな時に役立つページが下記のリンクで、例えばCDH5で利用しているポート番号の一覧を見ることができます。 http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cdh_ig_ports_cdh5.html ＃Googleなどで「CDH5 ports」というキーワードで検索すれば（おそらく）ヒットするので便利ですよ。 Cloudera Managerによるポート番号の一覧、設定

daisukebe 2015/12/03

Cloudera Manager を使うと日本語で読めるのが嬉しい

リンク

Kudu情報

Kudu情報まとめ (Photo by freepik) Clouderaが開発した新しいストレージエンジン、Kudu（クドゥ）に関する情報のまとめページです。徐々に拡充させる予定です。 2017/2/10 [Blog]: Qiita: Cloudera Enterprise 5.10でApache Kuduを使う Qiitaに寄稿したので興味があれば是非 2017/2/7 [News]: Cloudera Enterprise 5.10でApache Kuduがサポート対象に！ Cloudera Enterprise 5.10がGAに [blog]: Apache Kudu: リアルタイム分析のトップユースケース 2016/9/26 [News]: Kudu 1.0 リリース！ついに1.0が登場 Apache Kudu 1.0.0 released [Blog]: Apache Kudu

daisukebe 2015/09/29

“KuduはHDFSとHBaseを補完する、Hadoopの新しいストレージエンジン”

リンク

Kuduを仮想化環境で動かしてみる

KuduにはQuickstartが用意されており、実機がなくてもVirtualBoxの仮想マシン上で動かしてみることができるようです。 Kudu Quickstart：http://getkudu.io/docs/quickstart.html 早速手元の環境で実行してみました。ダウンロード時間を含めて一通り実行しても３０分もかからないので、興味のある方は是非。（ダウンロード時間次第） ※VirtualBoxのインストールについては割愛します。事前に準備しておいてください。ダウンロードは下記から行えます。 https://www.virtualbox.org/wiki/Downloads 余談：なぜか手元の環境では、VirtualBoxのホストオンリーネットワーク(vboxnet3)へのルーティングが正しく行われず、インストール後にホストからゲストへのネットワークが接続できないという問題が

daisukebe 2015/09/29

試すのめっちゃ簡単だ

リンク

HDFSのイレイジャーコーディング (Erasure Coding)

2017/5/19追記: ClouderaのHDFS Erasure Codingのブログ翻訳しました -> Apache HadoopのHDFS Erasure Codingの紹介以前紹介したHDFSのイレイジャーコーディング「HDFSが変わる？HDFSのイレイジャーコーディング対応」について詳しく書かれたブログがClouderaから公開されました。Hadoop 3.0をターゲットにして開発されているようです。 http://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 背景から設計の方針、評価まで幅広くかなり詳しく網羅されており読み応えがあります。しかし、日本語訳が出るかわからないので、自分用にまとめてみました。間違いを発見したらご指摘下さい。 ※Erasure

daisukebe 2015/09/25

リンク

「初めてのSpark」が発売されます！

Big Data, Analytics, Hadoop, Linux and other techno logies

daisukebe 2015/08/20

リンク

Ibisを使ってみた（２）

前回セットアップしたIbisを使ってみましょう。前回の最後の手順で起動したノートブックにはIbisのチュートリアルが用意されています。まずはbasic tutorialから試してみましょう。チュートリアル1: Intro and Setup In[数字]: にカーソルを合わせ、三角のアイコンをクリックして実行すると、結果が Out[数字]: に戻ってきます。 Intro and Setupでは、VirtualBox で起動した仮想マシン（のImpala）に接続しています。ここではImplyaと同じパラメータが利用でき、HDFSにはWebHDFS経由で接続できています。チュートリアル2: Basics Aggregate Filter Limit チュートリアル2では、事前に用意されている functional_alltypes というテーブルに接続して処理を行います。 [code]

daisukebe 2015/07/21

ほほほう

リンク

Ibisを使ってみた（１）

Ibisリリース本日、Ibis （アイビス＝トキ）という、100%オープンソースのPythonのプロジェクトが公開されました。どうやら Cloudera が、Python 製のビッグデータ分析フレームワークというのを出したらしいぞ！Pandas の人が作ったらしいぞ！名前は「Ibis(アイビス)」、つまり「トキ」らしいぞ！ https://t.co/3VRrNYnMTj — Sho Shimauchi (@shiumachi) July 20, 2015 IbisはPython用の新しい分析フレームワークです。また、実行エンジンにはImpalaなど利用することができます。PandasなどのPython用の分析フレームワークは便利に使うことができますが、大規模にスケールしないという問題がありました。Ibisを使うことで、ユーザーはHadoopのような大規模スケールの環境で利用できるように

daisukebe 2015/07/21

なんじゃこりゃああ

リンク

はてなブックマーク

タグ

ブックマーク / linux.wwing.net (53)

お知らせ

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス