kawamonのブックマーク (13)

  • HDFSのイレイジャーコーディング (Erasure Coding)

    2017/5/19追記: ClouderaのHDFS Erasure Codingのブログ翻訳しました -> Apache HadoopのHDFS Erasure Codingの紹介 以前紹介したHDFSのイレイジャーコーディング「HDFSが変わる?HDFSのイレイジャーコーディング対応」について詳しく書かれたブログがClouderaから公開されました。Hadoop 3.0をターゲットにして開発されているようです。 http://blog.cloudera.com/blog/2015/09/introduction-to-hdfs-erasure-coding-in-apache-hadoop/ 背景から設計の方針、評価まで幅広くかなり詳しく網羅されており読み応えがあります。しかし、日語訳が出るかわからないので、自分用にまとめてみました。間違いを発見したらご指摘下さい。 ※Erasure

    HDFSのイレイジャーコーディング (Erasure Coding)
  • Ibisを使ってみた(2)

    前回セットアップしたIbisを使ってみましょう。 前回の最後の手順で起動したノートブックにはIbisのチュートリアルが用意されています。 まずはbasic tutorialから試してみましょう。 チュートリアル1: Intro and Setup In[数字]: にカーソルを合わせ、三角のアイコンをクリックして実行すると、結果が Out[数字]: に戻ってきます。 Intro and Setupでは、VirtualBox で起動した仮想マシン(のImpala)に接続しています。ここではImplyaと同じパラメータが利用でき、HDFSにはWebHDFS経由で接続できています。 チュートリアル2: Basics Aggregate Filter Limit チュートリアル2では、事前に用意されている functional_alltypes というテーブルに接続して処理を行います。 [code]

    Ibisを使ってみた(2)
    kawamon
    kawamon 2015/07/21
    Impala上でPandasのようにPythonで分析を行えるというIbis(アイビス)を試してみました(2)#cloudera #impala #ibis
  • Ibisを使ってみた(1)

    Ibisリリース 日、Ibis (アイビス=トキ)という、100%オープンソースのPythonプロジェクトが公開されました。 どうやら Cloudera が、Python 製のビッグデータ分析フレームワークというのを出したらしいぞ!Pandas の人が作ったらしいぞ!名前は「Ibis(アイビス)」、つまり「トキ」らしいぞ! https://t.co/3VRrNYnMTj — Sho Shimauchi (@shiumachi) July 20, 2015 IbisはPython用の新しい分析フレームワークです。また、実行エンジンにはImpalaなど利用することができます。PandasなどのPython用の分析フレームワークは便利に使うことができますが、大規模にスケールしないという問題がありました。Ibisを使うことで、ユーザーはHadoopのような大規模スケールの環境で利用できるように

    Ibisを使ってみた(1)
    kawamon
    kawamon 2015/07/21
    Impala上でPandasのようにPythonで分析を行えるというIbis(アイビス)を試してみました(1)
  • SearchとSpark Streamingでリアルタイムの分析ダッシュボードを構築する | Hue - Hadoop User Experience - The Apache Hadoop UI

    Searchは、対話的にデータを探索するための素晴らしい方法です。Searchアプリは継続的に改善されており、今ではリアルタイム用のより良い対応が付属しています! このビデオではSpark Streamingでツイートを収集し、それらをSpark...Searchは対話的にデータを探索するための素晴らしい方法です。Searchアプリは継続的に改善されており、今ではリアルタイム用のより良い対応が付属しています! このビデオではSpark Streamingでツイートを収集し、それらをSpark SolrアプリでSolrに直接インデキシングしています。私たちが多くのツイート情報を付与する、わずかに変更したバージョンを使用していることにご注意ください。 あなたはツイートがローリングするのを見ることができるでしょう!以前のバージョンと比較すると: ダッシュボードは任意のページにジャンプすることなく

    SearchとSpark Streamingでリアルタイムの分析ダッシュボードを構築する | Hue - Hadoop User Experience - The Apache Hadoop UI
    kawamon
    kawamon 2015/05/22
    HueとSpark Streamingの組み合わせかー。デモ動画の3分40秒ぐらいから見ごたえがある
  • YARN/MapReduce v2のチューニング

    Tuning the Cluster for MapReduce v2 (YARN) 良いYARN/MapReduce v2のチューニングドキュメントがあったので共有。 http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_yarn_tuning.html 抜粋すると、24core/256GBのワーカーノードを例にして、HDFSやMapReduce/YARN、HBase、ImpalaやSolr、各種エコシステムのデーモンを実行する場合の それぞれのデーモンへのリソースの配分 ノードマネージャーのプロパティと計算式(!) リソースマネージャーのプロパティとサイジングと計算式(!) ゲートウェイとクライアントの設定 コンテナのプロパティとサイジングと計算式(!) 比較的シンプルなM

    YARN/MapReduce v2のチューニング
    kawamon
    kawamon 2015/03/10
    Tuning the Cluster for MapReduce v2 (YARN)
  • Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan

    データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

    Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan
    kawamon
    kawamon 2015/03/03
    Apacheプロジェクトのエコシステムは支配的ではない
  • Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan

    データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

    Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan
    kawamon
    kawamon 2015/03/03
  • Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan

    データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

    Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan
    kawamon
    kawamon 2015/02/23
    Openwashingってあまり馴染みがない言葉だけど、「俺らがオープンソースだぜぃ」って言うようなマーケティングメッセージかな?http://www.linuxtoday.com/upload/openwashing-adopter-beware-141203080509.html
  • DMM inside

    なぜDMMがweb3に参入したのか。Seamoon Protocolが目指す新たなエンタメ体験の未来とは

    DMM inside
    kawamon
    kawamon 2015/01/07
    トレーニングにご参加いただきありがとうございました。他のコースも是非!
  • #oreilly0724 100人が100人かわいらしいと感じるロゴが有名な Hiveの「プログラミング Hive 」と700p 越えで鈍器と化した Hadoop「象本」の第三版の刊行記念 Hadoop セミナーにいってきた - #garagekidztweetz

    ツイート去年のHBase の刊行セミナーにひき続いて、100人が100人かわいらしいと感じるロゴが有名な Hiveの「プログラミング Hive 」と700p 越えで鈍器と化した Hadoop「象」の第三版の刊行記念 Hadoop セミナーに行ってきました。 Hadoop 第3版posted with カエレバTom White オライリージャパン 2013-07-26 Amazon楽天市場プログラミング Hiveposted with カエレバEdward Capriolo,Dean Wampler,Jason Rutherglen オライリージャパン 2013-06-15 Amazon楽天市場実は、 O'Reilly Media - Technology Books, Tech Conferences, IT Courses, News でいずれの書籍も原著を買っているので、翻訳

    #oreilly0724 100人が100人かわいらしいと感じるロゴが有名な Hiveの「プログラミング Hive 」と700p 越えで鈍器と化した Hadoop「象本」の第三版の刊行記念 Hadoop セミナーにいってきた - #garagekidztweetz
    kawamon
    kawamon 2013/07/25
    あれ、翻訳本お買いにならないんですか? (^^
  • Introducing Lipstick on A(pache) Pig

    by Jeff Magnusson, Charles Smith, John Lee, and Nathan Bates We’re pleased to announce Lipstick (our Pig workflow visualization tool) as the latest addition to the suite of Netflix Open Source Software. At Netflix, Apache Pig is used heavily amongst developers when productionizing complex data transformations and workflows against our big data. Pig provides good facilities for code reuse in the fo

    Introducing Lipstick on A(pache) Pig
    kawamon
    kawamon 2013/06/29
    Apache Pig workflow Visualization Tool。なかなか良さそう。ロゴも素敵w
  • Hadoopアプリ開発キット「Cloudera Development kit」を公開

    Hadoop環境用のアプリケーション開発やデータ操作を容易にする開発キットをClouderaが公開。「いまどき」のアプリケーション開発者に扱いやすい環境を整備する。 米Clouderaは、2013年5月7日、Hadoop用アプリケーション開発キット「Cloudera Development kit(CDK)」をGitHub上で公開した(リンク)。現在のバージョンは0.2.0。ライセンスはApache License V2を採用している。 CDKには、Clouderaの提供するHadoopディストリビューション用のアプリケーション開発を容易にするライブラリ群、ツール類、サンプルコード、ドキュメントが含まれる。 現リリースにはHDFSやローカルのファイルシステムに含まれるデータセットに対して「徹底的にシンプルに動作する」APIセットである「CDK Data module」が含まれる。 OSSで

    Hadoopアプリ開発キット「Cloudera Development kit」を公開
  • Hadoop運用管理の今

    Hadoopの最新状況 2006年、Hadoopはウェブのインデックス処理を行うために開発されました。その後さまざまな用途に利用されるようになり、それに伴いパフォーマンスの改善、セキュリティの強化、Hadoopを効率よく利用するためのエコシステムも多く誕生しました。今回は、そのうちのいくつかについて紹介します。 1) マスターノード単一障害点の解消 2) Impala - Hadoopの高速クエリエンジン 3) Hadoop運用管理ツール、Cloudera Manager 単一障害点(SPOF)の解消 Hadoopには単一障害点があるから怖くて使えない、という印象をお持ちの方はいらっしゃるのではないでしょうか?以前のバージョンのHadoopにはそのような問題がありました。(前回のコラムを参照)。単一障害点を解消するためにLinuxのクラスタソフトウェア(PacemakerやRed Hat

    Hadoop運用管理の今
  • 1