サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
linux.wwing.net
数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフトウェアなのでしょうか? @shiumachiの「Hadoopの時代は終わった」を正しく理解するの記事は、Hadoopを取り巻く環境の変化について書かれています。データ基盤の歴史に始まり、時代とともに変化し、現代におけるデータ基盤になっているという考察があり必見です。 Hadoop is Dead. Long live Hadoop. Arun C Murthy (Hortonworksの創業者であり、現在ClouderaのCPO)が本日公開したブログ、「Hadoop is Dead. Long live Hadoop」では、Hadoopは哲学(”Hadoop
(2017/12/15更新) 本日 Apache Hadoop v3.0.0 が GA になりました! https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces26 ハイライトは下記の通り(上記サイトから抜粋して翻訳) HDFS のイレイジャーコーディング — データの耐久性を向上させながらHDFSのストレージコストを軽減 YARN Timeline Service v.2 (プレビュー) —タイムラインサービスのスケーラビリティ、信頼性、ユーザービリティを向上 YARN リソースタイプ —機械学習やコンテナワークロードとのより良い統合を行うため、ディスクとGPUなどの追加リソースのスケジューリングを有効に。(訳注:今まではCPUとメモリのみ) YARN と HFDS サブクラスター
SparkのWeb UIに記載されている項目の意味について(日本語で)まとまっている情報がなかったのでまとめてみました。(Spark 1.6ベース) Spark 2.xへの対応と、SparkSQL、SparkStreamingは別途記載する予定。 間違いを見つけたらコメントお願いします。m(__)m
2016年現在、HadoopやHadoopエコシステムを使っているほとんどの方はHue(ヒュー)をご存知でしょう。しかし、過去にHadoopを使っていた方、あるいはこれからHadoopを使おうという方の中にはご存知ない方がいらっしゃるかもしれません。この記事ではHueについて改めて簡単に紹介します。 Hueとは? Hueは Hadoop User Experience の略称で、Hadoopやエコシステム(Hive、Impala、HDFS、Sentry、Solr、Oozie….など)のためのユーザーインタフェースを提供しています。Apache HadoopのためのウェブベースのUIです。コマンドラインを使わずにHadoop上のデータを対話的にクエリしたり、ビジュアライズできる、超便利でクールなUIを提供しています。(日本語化されています!) 例えば、HDFSにファイルをアップロードする場合
HDFSには、DataNode間でディスク使用量の再バランスを行う balaner 機能があります。また、Hadoop3.xで導入される予定の、DataNode内のディスク間のリバランス機能(Disk Balancer)もあります。(この機能はCDH5.8.2以降でも利用できます) 今回はノード間の再バランスについて、次回は新しいディスク間のバランス機能について紹介する予定です。 再バランスの必要性 HDFSはデータを分散して保存します。長期間に渡ってデータの追加や削除が行われると、徐々にノード間でディスク使用量の偏りが生じていきます。また、新しいノードを追加すれば、明らかに偏りが生じる原因となります。 再バランス前 このような場合、管理者は負荷の低い時間帯などに、明示的にノード間での再バランスを行う必要があります。(注: HDFSには自動で再バランスする機能はありません) 再バランス後
以前に公開し、一番アクセスされている hdfs dfs のサブコマンドページの情報が古かったので、Hadoop3系で検証して全面的に書き直しました。 HDFS FSshell (hdfs dfs) コマンドのチートシートのPDFファイルです。(Hadoop 3.1.1)。 ダウンロードも可能です。 View Fullscreen 余力があれば、管理系のコマンド(hdfs dfsadmin等)も追って作成するかもしれません。
最近Hadoopってどうなのよ? 数年前のビッグデータブームは去りましたが、データ量が増え続けていることには変わりありません。IoTが普及し、GPSやヘルスケア、または工場などでセンサーなどのデータを広く集め、リアルタイムで処理、またはオフラインで分析などビジネスに生かす機会が増えています。 ビッグデータの基盤はHadoopだけではありませんが、海外や先進的なウェブ企業での利用から遅れること数年、今年は日本国内でもかなりビジネスでの利用が増えていると感じます。(事例が少ないと思う方も多いかもしれませんが、公開されてないだけですよ!) まだHadoopを知らないという方や間違って理解している人も多いですが、この辺りは別途アドベントカレンダーでまとめてみるかも!? Hadoop関連の書籍も(特に英語版は)順調に増えているので、興味がある方はこちらのリストもどうぞ -> Hadoop、Spar
Cloudera Manager Advent Calendar 2015の2日目です Apache Hadoop、やエコシステムではさまざまなポートを使用してネットワーク通信を行います。それぞれ別のプロジェクトで開発されているので、横断的にポート番号の確認をしたい場合、プロパティを調べるのは結構面倒です。 そんな時に役立つページが下記のリンクで、例えばCDH5で利用しているポート番号の一覧を見ることができます。 http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cdh_ig_ports_cdh5.html #Googleなどで「CDH5 ports」というキーワードで検索すれば(おそらく)ヒットするので便利ですよ。 Cloudera Managerによるポート番号の一覧、設定
今年は死ぬほど忙しいので、アドベントカレンダー全部俺は断念しました。。。 Hadoopを10分で(Dockerで)試す が、例年「Hadoopを10分で試す」というブログを書いてきたので、今年も書いておきましょう。ちょうどいいタイミングでDockerのブログが公開されていたので、今年はDockerで試してみます。 MacOSにDocker環境を準備する WindowsやMacでDockerを使う場合、Docker Toolboxを利用することができます。 Docker Toolbox 今回はMacOSに環境を作成し、その上でHadoopを動かします。 Docker Toolboxのインストール パッケージをダウンロードしてインストールを開始します。 「続ける」をクリック 概要を読んだら「続ける」をクリック インストール先を選択し、「続ける」をクリック インストールの種類もデフォルトのままイ
Twitterを見ていたところ、Cloudera ManagerのDockerイメージがあるとのツイートが! RT @davidgreco: For anyone interested I put together a Docker image w/ Cloudera Manager and a couple services set up http://t.co/LlMc8mLq6P — Cloudera Engineering (@ClouderaEng) 2014, 9月 18 これは試さねばと思い、最近調子の悪いMBP(ロジックボードが怪しいんですよ、、)で動かしてみました。 Dockerの環境を構築する @ueshinさんの情報を参考にセットアップします。 [code] brew tap caskroom/cask brew install brew-cask brew cask
Kudu情報まとめ (Photo by freepik) Clouderaが開発した新しいストレージエンジン、Kudu(クドゥ)に関する情報のまとめページです。徐々に拡充させる予定です。 2017/2/10 [Blog]: Qiita: Cloudera Enterprise 5.10でApache Kuduを使う Qiitaに寄稿したので興味があれば是非 2017/2/7 [News]: Cloudera Enterprise 5.10でApache Kuduがサポート対象に! Cloudera Enterprise 5.10がGAに [blog]: Apache Kudu: リアルタイム分析のトップユースケース 2016/9/26 [News]: Kudu 1.0 リリース!ついに1.0が登場 Apache Kudu 1.0.0 released [Blog]: Apache Kudu
オープンソースの新しいストレージエンジン、Kudu ついに本日アナウンスされた Kudu (クドゥ)、次世代ハードウェアにも対応するオープンソースのストレージエンジンです。まだベータ版ですが、3年もの開発期間を経てついに公開されました! Super excited to finally talk about what I've been working on the last 3 years: Kudu! http://t.co/1W4sqFBcyH http://t.co/1mZCwgdOO5 — Todd Lipcon (@tlipcon) September 28, 2015 数日前にリークされた記事に「KuduはHDFSやHBaseを置き換えるものだ」と書かれていましたが、それは間違いです。詳細はFAQなどにも書かれていますが、HDFSとHBaseを補う新しいストレージエンジンです
2017/5/19追記: ClouderaのHDFS Erasure Codingのブログ翻訳しました -> Apache HadoopのHDFS Erasure Codingの紹介 以前紹介したHDFSのイレイジャーコーディング「HDFSが変わる?HDFSのイレイジャーコーディング対応」について詳しく書かれたブログがClouderaから公開されました。Hadoop 3.0をターゲットにして開発されているようです。 http://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 背景から設計の方針、評価まで幅広くかなり詳しく網羅されており読み応えがあります。しかし、日本語訳が出るかわからないので、自分用にまとめてみました。間違いを発見したらご指摘下さい。 ※Erasure
前回セットアップしたIbisを使ってみましょう。 前回の最後の手順で起動したノートブックにはIbisのチュートリアルが用意されています。 まずはbasic tutorialから試してみましょう。 チュートリアル1: Intro and Setup In[数字]: にカーソルを合わせ、三角のアイコンをクリックして実行すると、結果が Out[数字]: に戻ってきます。 Intro and Setupでは、VirtualBox で起動した仮想マシン(のImpala)に接続しています。ここではImplyaと同じパラメータが利用でき、HDFSにはWebHDFS経由で接続できています。 チュートリアル2: Basics Aggregate Filter Limit チュートリアル2では、事前に用意されている functional_alltypes というテーブルに接続して処理を行います。 [code]
Ibisリリース 本日、Ibis (アイビス=トキ)という、100%オープンソースのPythonのプロジェクトが公開されました。 どうやら Cloudera が、Python 製のビッグデータ分析フレームワークというのを出したらしいぞ!Pandas の人が作ったらしいぞ!名前は「Ibis(アイビス)」、つまり「トキ」らしいぞ! https://t.co/3VRrNYnMTj — Sho Shimauchi (@shiumachi) July 20, 2015 IbisはPython用の新しい分析フレームワークです。また、実行エンジンにはImpalaなど利用することができます。PandasなどのPython用の分析フレームワークは便利に使うことができますが、大規模にスケールしないという問題がありました。Ibisを使うことで、ユーザーはHadoopのような大規模スケールの環境で利用できるように
Cloudera LabsにApache Phoenixが! @shiumachiさんのツイートにもあるように、SQL on HBaseの実相である Apache PhoenixがCloudera Labに追加されました。 HBaseに対してSQLを実行できるApache Phoenixが Cloudera Labs に追加されました! http://t.co/Q9iUXyNrxI — Sho Shimauchi (@shiumachi) May 6, 2015 Apache PhoenixはOSSで開発されている、HBase上のリレーショナルデータベースのレイヤーです。多くの人が慣れているSQLを利用して、低遅延でHBaseのデータにアクセスができます。http://phoenix.apache.org/index.html HBaseはGoogleのBigtableを参考に開発されてい
本日、What’s Next for Impala: More Reliablity, Usability, and Performance at Even Greater Scale というブログが公開されていました。 このブログには2015〜2016にかけてのImpalaのロードマップが記されています。とはいえ、翻訳されるかどうかわからないので、個人的に興味がある部分を抜粋してみました。意訳ですし間違いがあるかもしれないので、詳細は原文を確認してください。 しかし、来年も楽しみな機能が目白押しですね。 Impalaは、金融サービス、小売り業、ヘルスケア、ゲーム会社、政府、広告、電話会社などの業種に渡って広く本番環境で利用されている いくつかの企業では大規模に利用されており、ある広告会社では1000を超えるエンドユーザのウェブのダッシュボードから秒間80クエリ以上を実行し、数秒で結果を得
表記のイベントに参加してきました。(ついでに言うと、司会してきました) 『HBase Meetup Tokyo Summer 2015』#hbasejp http://www.zusaar.com/event/14057003 個人的には大当たりなイベントでした。 200名を超える申し込み、豪華なスピーカー。ツイッターにも書きましたが有償でやってもいいぐらいのクオリティだったと思います。 印象としては セッションの内容がバラエティに富んで幅広い ここで初めて聞くような内容のセッションが多い 技術一辺倒ではなく事例の話も多い 一方、HBaseのテーブル設計や、システムの構成などの技術的に参考になる情報が多い みんな話が上手い。 見習わないと、、、 今回だけじゃなく、次回もやってくれないかな。 セッションのスライド等は追って公開されると思いますが、個人的な雑感などを簡単にまとめてみます。ただ、
Hive on Spark (on CDH5.4) ※Hive on Sparkはテクノロジープレビュー扱いです。現時点ではサポート対象外なのでご注意を。 CDH5.4に含まれているHiveはHive 1.1です。このバージョンのHiveから、Hiveの実行エンジンとしてSparkが利用できるようになりました。(Hive on Spark [1][2]) [1] https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started [2] https://issues.apache.org/jira/browse/HIVE-7292 ドキュメントも発見したので早速試してみます。 http://www.cloudera.com/content/cloudera/en/documentation/co
Hadoopの分散ファイルシステムであるHDFSはビッグデータ用のストレージ用に広く利用され、ビッグデータにおけるファイルシステムのデファクトスタンダードになっていると言っても過言ではありません。最近では暗号化の対応やアクセス制御(ACL)、NFSv3への対応など、セキュリティの強化や利便性の向上なども進化しています。 このように進化を続けているHDFSですが、現在開発が進んでいる機能のひとつにイレージャーコーディングへの対応というものがあります。 HDFS-7285:Erasure Coding Support inside HDFS イレージャーコーディングとはソフトウェアエンジニアには耳慣れない言葉ですが、興味深かったのでまとめてみました。 HDFSの耐障害性 HDFSはスレーブノードであるデータノードでデータ(ブロック)の複製を行う(通常は3複製:設定可能)ことにより、ノードやディ
Tuning the Cluster for MapReduce v2 (YARN) 良いYARN/MapReduce v2のチューニングドキュメントがあったので共有。 http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_yarn_tuning.html 抜粋すると、24core/256GBのワーカーノードを例にして、HDFSやMapReduce/YARN、HBase、ImpalaやSolr、各種エコシステムのデーモンを実行する場合の それぞれのデーモンへのリソースの配分 ノードマネージャーのプロパティと計算式(!) リソースマネージャーのプロパティとサイジングと計算式(!) ゲートウェイとクライアントの設定 コンテナのプロパティとサイジングと計算式(!) 比較的シンプルなM
先日のImpala Cookbookの非公式日本語版の続きです。先日は「クラスタのサイジングと推奨ハードウェアImpalaのメモリ使用量」でした。本日は「Impalaのベンチマーク」です。 ベンチマークも取り方によっては全く意味がありません。また、本番環境で動作させるのと全く違うワークロードのベンチマークも、本来期待しているのとはかけ離れた結果がでるかもしれませんね。 例によって駆け足で日本語化してるので、間違いがあればコメントに書き込むかTwitterでメンションしてください。 原文: [1] The Impala Cookbook http://www.slideshare.net/cloudera/the-impala-cookbook-42530186 どのようにImpalaが機能し、どうスケールし、現在のシステムとどう比較するのかを理解する クエリのスループットと同様にクエリのレ
The Impala Cookbook 概要 Part 1 – 基本 物理設計とスキーマ設計 Impalaでのメモリ使用量 Part 2 – 実用上の問題 クラスタのサイジングと推奨ハードウェア Impalaでのベンチマーク マルチテナントのベストプラクティス クエリのチューニングの基本 Part 3 – Impalaの外部 Apache Hive, Apache Sentry, Apache Parquetとのやり取り 物理設計とスキーマ設計 – 概要 スキーマ設計のベストプラクティス データ型 パーティション設計 一般的な質問 物理設計 ファイルフォーマット: いつ何を使うか ブロックサイズ(オプション) 物理設計とスキーマ設計 – データ型 数値(Numeric)型を使用する(Stringではなく) 可能であればString型を避ける String => 多くのメモリ消費、多くのディ
Hadoop関連(全部俺) Advent Calendar 2014:11日目の記事です Cloudera Quickstart VMによりHadoopの環境が用意できました。HadoopのコアはHDFS(Hadoop分散ファイルシステム)とMapReduce(分散処理)ですが、今回はHadoopに関するところは無視して、まずは10分(ぐらい)で Hiveとはどんなものか、使いながら把握していきましょう。かなり大雑把なので、正確な情報は書籍やウェブでご確認下さい。 HDFSやMapReduceについては以前書いた記事などを参考にして下さい(めざせ!hadoopエンジニア(開発者編)、Hadoopを40分で理解する) Hiveとは です。愛くるしい(笑)。見れば見るほど愛着がわいてきます(笑)。なお、こんな非売品&限定のHiveTシャツもあります。 SQLを知っている人は多い HiveはAp
2021夏:ページアップデート中 2021/8/13 発売予定の書籍も含めたビッグデータ関連(Hadoop、Spark、Kafka、機械学習系など)関連書籍のまとめです。 日本語で提供されている書籍を中心に掲載していますが、読んだことがある/手元にある/買おうかなと思っている書籍を中心にまとめているので、全てを網羅しているわけではありません。 当初はブログで公開していましたが、更新が多いので独立したページとしました。(コメントは私見です。素晴らしい書籍ばかりです) 書籍名 (原書) 出版日 コメント
なぜかtwitterのTLでOOM Killer が空前の盛り上がり。 #OOM Killerたんって、、、何?(笑 その中にOOM Killerの解説についてのツイートがあったので少し紹介。 http://lwn.net/Articles/104179/ An aircraft company discovered that it was cheaper to fly its planes with less fuel on board. The planes would be lighter and use less fuel and money was saved. On rare occasions however the amount of fuel was insufficient, and the plane would crash. This problem was sol
本日、Apache Hive 1.0.0 がリリースされました。ダウンロードはこちら -> https://hive.apache.org/downloads.html 下記のブログからいくつか抜粋してみます http://blog.cloudera.com/blog/2015/02/apache-hive-1-0-0-has-been-released/ 1.0.0というバージョン番号だが、実際のところは 0.14.1 相当。 1.0.0にしたのはマーケティングの都合[1]でしょうね。。。きっと) HiveServer1が取り除かれた (HIVE-6977) 公開APIのドキュメント化 (HIVE-3280、今後HIVE-9363) 今後、従来のバージョニングでの0.15が1.1.0としてリリースされる予定とのことです。このバージョンには Hive on Spark が含まれる予定とのこ
“Apache Impalaは、Apache Hadoop向けの最新の高性能分析データベースです。 MPP(Massively Parallel Processing)SQLクエリエンジンにより、データセットを特定のシステムまたは専用フォーマットに移行することなく、オンプレミス(HDFSまたはApache Kuduの場合)またはSQL、またはビジネスインテリジェンスツールを使用して、Cloudオブジェクトストレージに格納されたデータの分析クエリが可能になります “:Apache Impala リリース記事より抄訳:) 注意:このページの内容はやや古くなっているので、日付にご注意ください。また、ブログに書いている場合があります。 (photo by freepik) 2018/7/26 追記 パフォーマンスの最適化に役立つスライド Performance Optimizations in A
Hadoop関連(全部俺) Advent Calendar 2014:7日目 先週の研修中に、「Hadoopをこれから試してみたいけど、どこから始めたらいいでしょうか?」という質問がありました。 構築の勉強をしたいのであれば、今ならパブリッククラウドや仮想化環境を使えるので、実際に構築してみるのが良いでしょう。パッケージを手作業でインストールしても良いですし、Cloudera Managerを使えば簡単です。 MapReduceやSparkのジョブの開発方法を学びたいのであれば、環境を用意した上で、先日紹介したO’Reillyなどの書籍を利用したり、あるいはセミナーや研修を受講するのが良いかもしれません。 MapRediuceやSparkを試すための簡単な方法のひとつは、「Hadoop入門:Hadoopを10分で理解する」 シリーズで紹介したCloudera Managerであり、Clou
次のページ
このページを最初にブックマークしてみませんか?
『linux.wwing.net』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く