タグ

hadoopに関するkorinのブックマーク (28)

  • Hadoopの派生関係

    Hadoop in Practiceを読んでからお絵かき上手になりたいと思い、テーマとしてよさげだったので、ベンダー勢も含めて派生関係をお絵かきしてみました。というのと、Hadoopまわりの派生関係はあきらかにややこしく、一度真面目に調べてみたかったのもあります。 前者の目的についてはそれなりにシャレオツ感があるのでよしとして、派生関係の把握についてですが、これはあきらめてだいぶいろいろ簡略化しています。 http://svn.apache.org/viewvc/hadoop/common/ この辺から既存のブランチとタグを追いかけるとわかるのですが、どのバージョンからどのバージョンが派生しているのか調べるのはわりと大変そうだったので、Hadoop Opertions とClouderaのブログ  http://www.cloudera.co.jp/hadoop/column/apache

    Hadoopの派生関係
    korin
    korin 2013/01/08
  • https://jp.techcrunch.com/2012/10/31/20121027big-data-right-now-five-trendy-open-source-technologies/

    https://jp.techcrunch.com/2012/10/31/20121027big-data-right-now-five-trendy-open-source-technologies/
  • Cloudera Impala:Apache Hadoopで実現する、真のリアルタイムクエリ | Cloudera Japan

    データを信頼し、AI を信頼する 信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

    Cloudera Impala:Apache Hadoopで実現する、真のリアルタイムクエリ | Cloudera Japan
  • リアルタイム分散処理の常識をApache S4で身につける

    リアルタイム分散処理の常識をApache S4で身につける:ビッグデータ処理の常識をJavaで身につける(6)(1/2 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 Hadoopの弱点「リアルタイム分散処理」とは 「ビッグデータ」処理のためにHadoopを用いると、「複数のマシンに大量データ処理を分散して飛躍的に性能を向上する」ことが容易にできます。 ところがHadoopの弱点として、ビッグデータをいったん蓄積し、バッチで一括処理する形態で処理するので、処理データが発生してから、それに対する処理結果が得られるまで、必ずタイムラグが発生します。このため、クレジットカードの不正アクセス検知、センサデータなどでの異常値検出のようなリアルタイムな

    リアルタイム分散処理の常識をApache S4で身につける
  • https://www.neclearning.jp/event/pdf/oss_special_hands-on_Hadoop_startup.pdf

    Hadoop スタートアップセミナー Hadoopスタートアップセミナー NECラーニング テクノロジー研修事業部 土井 正宏 OSS 体験セミナー Hadoopの概要 ▌高スケーラブルな分散管理基盤 ▌2つのコア機能 ▌分散ファイルシステム(HDFS) ▌分散処理フレームワーク(Map/Reduce) ▌BigDataの管理基盤として注目 NEC Group Internal Use Only OS OS Hadoop分散ファイルシステム(HDFS) OS 分散処理基盤(Map/Reduce) Apache Hadoop(以下 Hadoop)は高い拡張性を持つ分散処理基盤ソフトウェアで、 BigData の管理基盤として注目されています。Hadoop は以下の機能を提供します。  分散ファイルシステム(HDFS) 複数サーバーの HDD を束ねて仮想的なファイルシステムを構成する機能

  • Hadoopを使うメリットを2つ挙げてみる - (゚∀゚)o彡 sasata299's blog

    2010年09月29日19:34 Hadoop Hadoopを使うメリットを2つ挙げてみる 最近では、Hadoop を使ってるよー、という声もちらほら聞こえてきました。しかし、名前ばかりが先行していて、「一体何が凄いのかよくわからない」、「Hadoop を使うと何が嬉しいの?」という人も多いのではないでしょうか。そこで Hadoop を使うメリットとは一体なんなのかを改めて書いてみようかと思います。 Hadoop を使うメリット、僕は2つあると思っています。 (1) たくさんのサーバを使って分散処理できる これは多分ほとんどの方がご存知なのではないでしょうか?というかこれぞまさに Hadoop を使うメリットでしょ?って感じですね。大規模なデータを扱う際に、1台ではなく10台とか20台とか使えばそりゃあ早くなるよねって話です :-D とは言っても Hadoop 登場以前は、特定のサーバが壊

  • Hapyrusで気軽にHadoop MapReduceを試す - 愛と勇気と缶ビール

    日の社内勉強会で、id:a_bicky先生にHadoop + MapReduceの話をしてもらった。面白かった。その時に、気軽にMapReduce処理を試せるHapyrus (https://www.hapyrus.com/) というサービスを教えてもらったので、試しにHapyrusに登録して(現在Beta版らしい)アプリケーション作ってみた。 登録とかについては特に難しいこともなんもないので、割愛。 アプリを作成した後、こちらから (1) データソースとなるtextファイル(4000文字まで) or Amazon S3のデータ, (2) map用スクリプト/reduce用スクリプト の計3つを登録してやれば、雲のむこうのHadoopでMapReduce処理をしてもらえるらしい。 現在利用出来る言語はPerl/Ruby/Python(裏はHadoop Streamingなのかしら?)。今

    Hapyrusで気軽にHadoop MapReduceを試す - 愛と勇気と缶ビール
  • HadoopIsNot - HADOOP2 - Apache Software Foundation

    What Hadoop is Not We see a lot of emails where people hear about Hadoop, and think it will be the silver bullet to solve all their application/datacentre problems. It is not. It solves some specific problems for some companies and organisations, but only after they have understood the technology and where it is appropriate. If you start using Hadoop in the belief it is a drop-in replacement for y

  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

  • HudsonクラスタをHadoopクラスタに - 川口耕介の日記

    仕事では30-40ノード位のHudsonクラスタを運用しているのですが、常々、このクラスタをもっと多用途に使えたら便利だと思っていました。 HadoopをHadoop推奨の方法でインストールしてもよいのですが、ネットワークの情報等をHudsonとHadoopに別々に教えないといけないのは不便です。そこで、週末を2つ使って、HudsonクラスタにHadoopを展開するためのプラグインを書きました。Hadoopのコードを読むのに少し手間取りましたが、一度肝を掴んでからは比較的簡単でした。 このプラグインをインストールすると、Hudsonのクラスタ全域でHadoopノードが実行され、またネットワークの設定に関する情報が自動的にHudsonからHadoopへ伝えられます。ユーザーは、HadoopプラグインをHudsonにインストールする以外にはやることはなにもありません。いわゆる「zero con

  • 大規模インフラ個人運用:AWS+Hadoopの成功例 | wrong, rogue and log

    これは西村さんからTwitterで教えてもらったことなのであるが、AWS+Hadoopの幸せな成功例である: Self-service, Prorated Super Computing Fun! NY Timesが過去のアーカイブを含めてすべて無料化したわけだが、そのシステム的な移行措置として過去のスキャンしたTIFF画像をPDFに変換する必要があったのだ。TIFFのサイズは合わせて4TBという巨大さ。 これを行うのに次の構成をとったそうだ:PDF変換にiTextを用いる。変換するマシンはAWS上の100インスタンスをHadoopでMapReduce構成をとることで並列化した。これによりすべてのPDF変換(なんと成果物は1.5TB)が、24時間未満の時間で終了したのだ。そして作業をしたのは、一人のプログラマだけである。 だから言ったでしょ。もう時代は一人大規模サービスの時代なんですよ。そ

    大規模インフラ個人運用:AWS+Hadoopの成功例 | wrong, rogue and log
  • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

    今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo!Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

    Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
    korin
    korin 2010/05/23
  • Hadoop Streaming で外部ファイルを扱う方法のまとめ - (゚∀゚)o彡 sasata299's blog

    2010年05月06日09:21 Hadoop Hadoop Streaming で外部ファイルを扱う方法のまとめ Hadoop Streaming での外部ファイルの扱いもだいぶ固まってきました。発表資料のスライドではこの辺の話を書いたことがあるんですが、ブログには書いてなかったので一度きっちりまとめておこうかなーっと。というわけで今回は Hadoop Streaming での外部ファイルの読み込みについてまとめますよ!(*゚Д゚)=3 ムハー そもそも外部ファイルの読み込みと言っても、この二つのパターンがあります。 1) 外部ファイルが master 上にある(つまりローカルディスクにある)場合 2) 外部ファイルが別ファイルシステム(S3 だったり HDFS だったり)にある場合 外部ファイルが master 上にある場合 まず、この場合はとても簡単です。例えば hoge.txt と

  • BASH:Born again AudioSwitcH  Debian GNU/Linux に Hadoop をインストール

    大学の研究室に余っていた PC を集めて Hadoop をインストールしてみました。 Cloudera 社が配布しているパッケージを利用すると簡単にできます。 ちなみに研究室の Debian は lenny でした。 1.Javaをインストールする Hadoop の実行には Java が必要になるのでインストールします。 Sun(今は Oracle ですか)の Java を使いたいのでリポジトリを若干修正します。 $ sudo vi /etc/apt/sources.list ... #deb http://ftp.jp.debian.org/debian/ lenny main dep http://ftp.jp.debian.org/debian/ lenny main non-free ... $ sudo apt-get update JDK をインストールして優先度を与えておきま

  • Hadoop プログラムの単純なデバッグ方法について - takahi-iの日記

    最近 Hadoop ライブラリを用いて書かれたプログラムをデバッグする方法について調べてました。標準エラー出力を使用する方法と Context オブジェクトを利用する方法が簡単なようです。 標準エラー出力に Hadoop プログラムから出力すると、プロンプトには出力されないのですが、とあるログファイルには出力されます。また、オブジェクト Context (昔は Reporter オブジェクトを使用していましたが 0.2 以降は Context を使用する方が良いらしいです) を利用して、別の場所に出力することもできます。 以下デバッグ用の文を含む単語カウントプログラムを書きました。このプログラムは通常の単語カウントプログラムなのですが、'invalid' という単語の場合だけはカウントを行わず、不正な入力として警告します (人工的なサンプルで申し訳ございません)。また入力ファイルに入ってい

    Hadoop プログラムの単純なデバッグ方法について - takahi-iの日記
  • Hadoopの罠 - 今動いてるジョブって本当にそれだけですか? - (゚∀゚)o彡 sasata299's blog

    2010年02月04日13:18 Hadoop Hadoopの罠 - 今動いてるジョブって当にそれだけですか? こんにちは (*・ω・)ノ 日々 Hadoop の扱いに悪戦苦闘しているささたつです。 今日は Hadoop を扱う上でのちょっとした注意点です。あ、僕は Hadoop Streaming を使っているのでひょっとすると Hadoop Streaming 固有の問題かもしれません。 例えば、Hadoop を使って何かしらのジョブを行ったとします。でも何か問題があって処理を途中で止めることってありますよね?そのような場合は Ctrl + C で終了させると思いますがここで注意が必要です。 あなたが殺したと思っていたジョブは実は裏で生きてます。 そしてマシンのリソースをってます ((((;゚Д゚)))ガクガクブルブル " これは困ります(ほんとに!!)。 今現在、Hado

  • Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第一回 - (゚∀゚)o彡 sasata299's blog

    2009年11月15日00:03 Hadoop Cloudera を使って CentOS に Hadoop on EC2 な環境を整える 第一回 Hadoop のことをもっと知るために、Cloudera を使って Hadoop 環境を整えてみようと思います。Cloudera のインストールガイド を参考に進めてみます。OS は CentOS 5.2 です。 Cloudera's Distribution for Hadoop (CDH) まず、yum のリポジトリに cloudera-stable.repos と cloudera-testing.repos を追加します。これで yum から Hadoop のインストールが出来るようになります。便利ですね〜。 ちなみに、cloudera-stable の方は Hadoop-0.18 が、cloudera-testing の方は Hadoo

  • Runtime error - Meta Search

    Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL

  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
  • http://agilecatcloud.com/2009/05/21/hadoop-dfs_2-2/