タグ

ブックマーク / linux.wwing.net (53)

  • Hadoop、Spark、ビッグデータ関連書籍 | Tech Blog

    2021夏:ページアップデート中 2021/8/13 発売予定の書籍も含めたビッグデータ関連(Hadoop、Spark、Kafka、機械学習系など)関連書籍のまとめです。 日語で提供されている書籍を中心に掲載していますが、読んだことがある/手元にある/買おうかなと思っている書籍を中心にまとめているので、全てを網羅しているわけではありません。 当初はブログで公開していましたが、更新が多いので独立したページとしました。(コメントは私見です。素晴らしい書籍ばかりです) 書籍名 (原書) 出版日 コメント

    Hadoop、Spark、ビッグデータ関連書籍 | Tech Blog
    daisukebe
    daisukebe 2018/07/25
  • HBase 2.0 のシェルコマンド

    メモ:HBase 2.0 の HBase シェルのヘルプ。以前のバージョンと比べて使えるコマンドが増えている。 hbase(main):001:0> help HBase Shell, version 2.0.0-cdh6.xxxxxxxxx Type 'help "COMMAND"', (e.g. 'help "get"' -- the quotes are necessary) for help on a specific command. Commands are grouped. Type 'help "COMMAND_GROUP"', (e.g. 'help "general"') for help on a command group. COMMAND GROUPS: Group name: general Commands: processlist, status, tabl

    HBase 2.0 のシェルコマンド
    daisukebe
    daisukebe 2018/07/04
    “procedures” 周りがどれぐらい使えるか、楽しみです
  • Cloudera Enterprise 6 beta で Erasure Coding を試してみる

    Hadoop 3.0 で導入された HDFS  Erasure Coding を Cloudera Enterprise 6.0 beta の環境で試してみました。 HDFSのErasure Coding は、HDFSのブロックの複製とは異なり、大規模環境においてはストレージに必要なコストを削減できる可能性がある技術です。しかし、小さいデータを格納する際は不利になり、ラック障害やImpala、Spark/MapReduceのようなジョブから利用する場合のパフォーマンス面でも注意が必要です。 Erasure Codingについては過去の投稿やClouderaのブログ、公式ページのドキュメントをご覧ください。整理できたら近いうちに何か書くかもしれません。 C6 Beta版でのErasure Coding Cloudera Managerで、右上の検索ボックスで Erasure Coding を

    Cloudera Enterprise 6 beta で Erasure Coding を試してみる
    daisukebe
    daisukebe 2018/06/28
  • Cloudera Enterprise 6 (beta) インストール

    Cloudera Enteprise 6 beta 先月検証したまま放置していましたが、Cloudera Enteprise 6 public beta をインストールしたのでメモ書きです。 Cloudera Enterprise 6 のページからβプログラムに参加すると、ダウンロードのリンクなどが送られてきます。日語版もあるのでそれに従ってインストーラをダウンロードしてください。 検証環境 下記のように、個人用のGoogle Cloud Platform (GCP)の環境に以下の構成で構築しました。(最終的にワーカーノードは5台に増設) ノードの種類とインスタンス Cloudera Manager 6 x 1 (n1-highmemem-2) マスター x 1 (n1-standard-4) ワーカー x 3 (n1-standard-2) OS等 CentoOS 7 firewall

    Cloudera Enterprise 6 (beta) インストール
    daisukebe
    daisukebe 2018/06/26
  • HDFSの新しい機能3つ

    HDFSは分散ファイルシステムとして確固たる地位を築きましたが、NFSのサポートやスナップショットなど、多くの機能が追加されています。 その中で、今後 Hadoop 3 で重要となる「HDFSのイレイジャーコーディング」を含めたClouderaのHDFSに関するブログ記事を日語に翻訳しました。 全3回にわたって掲載する予定なので、興味があればご覧ください。 第1弾:Apache HadoopのHDFS Erasure Codingの紹介 第2弾:How-to: Apache Hadoopで新しいHDFS DataNodeディスク間バランサを使用する 第3弾:HDFSのメンテナンスステート

    HDFSの新しい機能3つ
    daisukebe
    daisukebe 2017/05/20
    第2弾:まだナイショ 第3弾:まだナイショ
  • HDFSの新しい機能を確認 (3) – HDFSスナップショット | Tech Blog

    現在、Hadoop 2.x系では HDFSのスナップショット機能が含まれています [1]。CDH5からこの機能がサポートされました。 HDFSスナップショットとは? HDFSでのスナップショットとは、HDFSサービスを停止せず、特定の時点での「状態」を保持するための機能です。従来のHDFSには、 削除したファイルの復旧ができない(HDFSにゴミ箱機能はありますが、、) ある時点でのリカバリができない 定期的なスナップショットを取る仕組みがない という課題がありました。 たとえば、ある時点でHDFSの一貫性があるバックアップを取りたい場合、厳密に一貫性を確保するためにはネームノードを一旦セーフモードにするなどの操作の必要がありました。が、この際にダウンタイムが生じてしまいます。HDFSスナップショットにより、HDFSを停止せずに、特定の時点でのバックアップを取得することが可能になります。 H

    HDFSの新しい機能を確認 (3) – HDFSスナップショット | Tech Blog
    daisukebe
    daisukebe 2017/03/22
    スナップショットにより、ユーザーのオペミスによる大規模データロストから生還した例を見た
  • SparkのWeb UIを調べてみた

    SparkのWeb UIに記載されている項目の意味について(日語で)まとまっている情報がなかったのでまとめてみました。(Spark 1.6ベース) Spark 2.xへの対応と、SparkSQL、SparkStreamingは別途記載する予定。 間違いを見つけたらコメントお願いします。m(__)m

    SparkのWeb UIを調べてみた
    daisukebe
    daisukebe 2017/01/05
    高機能ですよねえ
  • HUEについてのまとめ 2016年版

    2016年現在、HadoopやHadoopエコシステムを使っているほとんどの方はHue(ヒュー)をご存知でしょう。しかし、過去にHadoopを使っていた方、あるいはこれからHadoopを使おうという方の中にはご存知ない方がいらっしゃるかもしれません。この記事ではHueについて改めて簡単に紹介します。 Hueとは? Hueは Hadoop User Experience の略称で、Hadoopやエコシステム(Hive、Impala、HDFS、Sentry、Solr、Oozie….など)のためのユーザーインタフェースを提供しています。Apache HadoopのためのウェブベースのUIです。コマンドラインを使わずにHadoop上のデータを対話的にクエリしたり、ビジュアライズできる、超便利でクールなUIを提供しています。(日語化されています!) 例えば、HDFSにファイルをアップロードする場合

    daisukebe
    daisukebe 2016/12/25
    "現在はS3用のファイルブラウザが利用できます"
  • HBase 1.2で導入されたSimpleRegionNormalizerを試してみる

    「Distributed computing (Apache Hadoop, Spark, …) Advent Calendar 2016」 の@d1ce_氏による「HBase 1.2で導入されたSimpleRegionNormalizerについて」で紹介されていたRegionNormalizerの機能を試してみました。 HBaseはテーブルを「リージョン」という範囲に分けて管理します。例えば以下の図では4つのリージョンに分かれていますが、図Aはほぼ均等になっているのに対し、図Bは不均等になっています。 このように不均衡が生じると、リージョンが割り当てられているサーバーに負荷が集中してしまったり、特定リージョンへの書き込みが集中することで、リージョンサイズ(デフォルト10GB)を超えてしまい、分割が頻繁に発生する(split storm)など、パフォーマンスの問題の原因にもなります。 リー

    HBase 1.2で導入されたSimpleRegionNormalizerを試してみる
    daisukebe
    daisukebe 2016/12/07
    記事書いたら同僚が試してくれた
  • 2016年の象(Hadoop)四方山話

    最近Hadoopってどうなのよ? 数年前のビッグデータブームは去りましたが、データ量が増え続けていることには変わりありません。IoTが普及し、GPSやヘルスケア、または工場などでセンサーなどのデータを広く集め、リアルタイムで処理、またはオフラインで分析などビジネスに生かす機会が増えています。 ビッグデータの基盤はHadoopだけではありませんが、海外や先進的なウェブ企業での利用から遅れること数年、今年は日国内でもかなりビジネスでの利用が増えていると感じます。(事例が少ないと思う方も多いかもしれませんが、公開されてないだけですよ!) まだHadoopを知らないという方や間違って理解している人も多いですが、この辺りは別途アドベントカレンダーでまとめてみるかも!? Hadoop関連の書籍も(特に英語版は)順調に増えているので、興味がある方はこちらのリストもどうぞ ->  Hadoop、Spar

    2016年の象(Hadoop)四方山話
    daisukebe
    daisukebe 2016/12/02
    なんか始まってる
  • HDFSスナップショットのメモ

    HDFSのスナップショットを取得して削除する 現時点のディレクトリは下記の通り [code] $ hdfs dfs -ls -R /user/training/ drwxrwxrwx   – training supergroup          0 2016-07-12 19:12 /user/training/.Trash drwxrwxrwx   – training supergroup          0 2016-08-09 01:40 /user/training/hoge drwxrwxrwx   – training supergroup          0 2016-08-09 01:40 /user/training/hoge/fuga -rw-rw-rw-   1 training supergroup        158 2016-08-09 01:40

    HDFSスナップショットのメモ
    daisukebe
    daisukebe 2016/08/10
  • セキュアなHadoopクラスタ:Cloudera ManagerでのKerberos化

    前回はCloudera Managerを使ってCloudera Quickstart VMを利用できるようにしました。今回はKerberosを使用してセキュアなクラスタ化を行います。 セキュア化の背景 Hadoopのメリットの一つはデータを一箇所に溜めておき、そのデータに対して様々なアプローチができることです。(データレイク、と呼ばれることも多い) ちょっと遅れたマーケ担当SQL話へのアンサーソングです / “データを一箇所に集めることでデータ活用の民主化が進んだ話 – once upon a time,” https://t.co/oPQAynvBks — Aki Ariga (@chezou) May 5, 2016 参考リンク:データを一箇所に集めることで「データ活用の民主化」が進んだという話 データを一箇所に集めることによってデータの民主化は進みますが、その一方、セキュリティについ

    セキュアなHadoopクラスタ:Cloudera ManagerでのKerberos化
    daisukebe
    daisukebe 2016/05/10
  • Apache Arrowとは

    2月にApadheのトップレベルプロジェクトになったApache Arrowに注目しています。 一言で言えば「インメモリで列指向データを扱うための標準」を目指しているものです。 Introducing Apache Arrow: A Fast, Interoperable In-Memory Columnar Data Structure Standard The Apache® Software Foundation Announces Apache Arrow™ as a Top-Level Project インメモリビッグデータシステムをつなぐ「Apache Arrow」 [Slideshare] Apache Arrow (Strata-Hadoop World San Jose 2016) 注目度の高い理由の一つとしては、多くの主要OSSの開発者が関わっており、今後多くのプロジェ

    Apache Arrowとは
    daisukebe
    daisukebe 2016/04/26
  • Hadoopで使っているポート番号の確認、設定

    Cloudera Manager Advent Calendar 2015の2日目です Apache Hadoop、やエコシステムではさまざまなポートを使用してネットワーク通信を行います。それぞれ別のプロジェクトで開発されているので、横断的にポート番号の確認をしたい場合、プロパティを調べるのは結構面倒です。 そんな時に役立つページが下記のリンクで、例えばCDH5で利用しているポート番号の一覧を見ることができます。 http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cdh_ig_ports_cdh5.htmlGoogleなどで「CDH5 ports」というキーワードで検索すれば(おそらく)ヒットするので便利ですよ。 Cloudera Managerによるポート番号の一覧、設定

    Hadoopで使っているポート番号の確認、設定
    daisukebe
    daisukebe 2015/12/03
    Cloudera Manager を使うと日本語で読めるのが嬉しい
  • Kudu情報

    Kudu情報まとめ (Photo by freepik) Clouderaが開発した新しいストレージエンジン、Kudu(クドゥ)に関する情報のまとめページです。徐々に拡充させる予定です。 2017/2/10 [Blog]: Qiita: Cloudera Enterprise 5.10でApache Kuduを使う Qiitaに寄稿したので興味があれば是非 2017/2/7 [News]: Cloudera Enterprise 5.10でApache Kuduがサポート対象に! Cloudera Enterprise 5.10がGAに [blog]: Apache Kudu: リアルタイム分析のトップユースケース 2016/9/26 [News]: Kudu 1.0 リリース!ついに1.0が登場 Apache Kudu 1.0.0 released [Blog]: Apache Kudu

    Kudu情報
    daisukebe
    daisukebe 2015/09/29
    “KuduはHDFSとHBaseを補完する、Hadoopの新しいストレージエンジン”
  • Kuduを仮想化環境で動かしてみる

    KuduにはQuickstartが用意されており、実機がなくてもVirtualBoxの仮想マシン上で動かしてみることができるようです。 Kudu Quickstart:http://getkudu.io/docs/quickstart.html 早速手元の環境で実行してみました。ダウンロード時間を含めて一通り実行しても30分もかからないので、興味のある方は是非。(ダウンロード時間次第) ※VirtualBoxのインストールについては割愛します。事前に準備しておいてください。ダウンロードは下記から行えます。 https://www.virtualbox.org/wiki/Downloads 余談:なぜか手元の環境では、VirtualBoxのホストオンリーネットワーク(vboxnet3)へのルーティングが正しく行われず、インストール後にホストからゲストへのネットワークが接続できないという問題が

    Kuduを仮想化環境で動かしてみる
    daisukebe
    daisukebe 2015/09/29
    試すのめっちゃ簡単だ
  • HDFSのイレイジャーコーディング (Erasure Coding)

    2017/5/19追記: ClouderaのHDFS Erasure Codingのブログ翻訳しました -> Apache HadoopのHDFS Erasure Codingの紹介 以前紹介したHDFSのイレイジャーコーディング「HDFSが変わる?HDFSのイレイジャーコーディング対応」について詳しく書かれたブログがClouderaから公開されました。Hadoop 3.0をターゲットにして開発されているようです。 http://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 背景から設計の方針、評価まで幅広くかなり詳しく網羅されており読み応えがあります。しかし、日語訳が出るかわからないので、自分用にまとめてみました。間違いを発見したらご指摘下さい。 ※Erasure

    HDFSのイレイジャーコーディング (Erasure Coding)
    daisukebe
    daisukebe 2015/09/25
  • 「初めてのSpark」が発売されます!

    Big Data, Analytics, Hadoop, Linux and other technologies

    「初めてのSpark」が発売されます!
    daisukebe
    daisukebe 2015/08/20
  • Ibisを使ってみた(2)

    前回セットアップしたIbisを使ってみましょう。 前回の最後の手順で起動したノートブックにはIbisのチュートリアルが用意されています。 まずはbasic tutorialから試してみましょう。 チュートリアル1: Intro and Setup In[数字]: にカーソルを合わせ、三角のアイコンをクリックして実行すると、結果が Out[数字]: に戻ってきます。 Intro and Setupでは、VirtualBox で起動した仮想マシン(のImpala)に接続しています。ここではImplyaと同じパラメータが利用でき、HDFSにはWebHDFS経由で接続できています。 チュートリアル2: Basics Aggregate Filter Limit チュートリアル2では、事前に用意されている functional_alltypes というテーブルに接続して処理を行います。 [code]

    Ibisを使ってみた(2)
    daisukebe
    daisukebe 2015/07/21
    ほほほう
  • Ibisを使ってみた(1)

    Ibisリリース 日、Ibis (アイビス=トキ)という、100%オープンソースのPythonプロジェクトが公開されました。 どうやら Cloudera が、Python 製のビッグデータ分析フレームワークというのを出したらしいぞ!Pandas の人が作ったらしいぞ!名前は「Ibis(アイビス)」、つまり「トキ」らしいぞ! https://t.co/3VRrNYnMTj — Sho Shimauchi (@shiumachi) July 20, 2015 IbisはPython用の新しい分析フレームワークです。また、実行エンジンにはImpalaなど利用することができます。PandasなどのPython用の分析フレームワークは便利に使うことができますが、大規模にスケールしないという問題がありました。Ibisを使うことで、ユーザーはHadoopのような大規模スケールの環境で利用できるように

    Ibisを使ってみた(1)
    daisukebe
    daisukebe 2015/07/21
    なんじゃこりゃああ