タグ

Hadoopに関するhirokistのブックマーク (4)

  • Hadoopメモ(Hishidama's Hadoop Memo)

    S-JIS[2010-02-21/2021-05-17] 変更履歴 Apache Hadoop Apache Hadoop(ハドゥープ)は、分散コンピューティングの為のオープンソースのソフトウェア(フレームワーク)。 Hadoopというのは、製作者の子供のぬいぐるみの象の名前なんだそうだ。 公式ページの上の方に描かれている黄色い象がそれか?^^; (ぬいぐるみの写真→@ITの記事や工藤さんのブログの下の方) リンク集 インストール Windowsへのインストール Hadoop0.20 [2010-08-29] Hadoop0.21 [2010-08-29] HDInsight [/2013-02-26] HDP [/2013-05-26] Hadoop 2.1 [2013-08-31] CDH3のインストール [/2012-05-10] CDH4のインストール [2012-06-08] H

  • Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary

    大規模データを処理する必要が出て来たので、Hadoopを導入してみることになりました。 以下、導入メモです。 セットアップ 以下のような構成で試してみます。環境はCentOSです。 マスター(host001) ━┳ スレーブ(host002) ┣ スレーブ(host003) ┣ スレーブ(host004) ┗ スレーブ(host005) まずは各マシンにJavaをインストール。JDK1.6を落として来てrpmでインストールするか、yum install java-1.6.0*などとたたけばOKです。(rpmでインストールする場合は http://java.sun.com/javase/ja/6/download.html から jdk-6u18-linux-i586-rpm.binをダウンロードして、実行権限を与えてルートで実行すればインストールできます。) 続いてマスターノードにHado

    Hadoopに入門してみた - セットアップからHadoop Streaming まで - - download_takeshi’s diary
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
    hirokist
    hirokist 2011/12/26
    OSS機械学習
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • 1