タグ

Hadoopに関するmaecchiのブックマーク (8)

  • Sign in - Google Accounts

  • Hadoop Hacks

    TOPICS Hacks , Database , Java 発行年月日 2012年04月 PRINT LENGTH 434 ISBN 978-4-87311-546-7 FORMAT PDF 書は、Hadoopの概要を理解した読者を対象に、Hadoopを実際に使いこなすためのテクニックとTipsをまとめた書籍です。システム構築/運用、アプリケーション開発など、Hadoopならではの特徴を使いこなすための方法から、HBase、Hive、Pig、Mahout、ZooKeeperなどサブプロジェクトについてのHackまで、幅広い内容をカバーしています。Hadoopの力を引き出すのに必要なツールとその使い方、また内部の動きを知るための方法、さらに先進的なテクニックなど、開発の現場で必要とされる74のテクニックを掲載しています。早くからHadoopに注目し、実際に活用してきた技術者によって執筆さ

    Hadoop Hacks
  • Hadoopでレコメンドシステムを作ろう 記事一覧 | gihyo.jp

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    Hadoopでレコメンドシステムを作ろう 記事一覧 | gihyo.jp
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 1台でHBase, Hive, Pig, HUE(旧Cloudera Desktop)を試してみる(Ubuntu + Cloudera)

    必要なもの ・Linux(Ubuntu)+Cloudera版Hadoop環境(1台)→ 構築方法はこちら ・インターネット接続 ・Cloudera社のCDH3のHBase, Hive, Pig, HUEのパッケージ(aptでインターネットからインストール) 作業手順 以下の、1. HBase, 2. Pig, 3. Hive, 4. HUEの手順は、独立して試すことができますし、一つの環境でまとめて試すこともできます。(それぞれデータの管理は別々です。) 1. HBase 1-1. インストール: Linux環境にて、rootで作業します。 1-1-1. HBaseをインストールします。 apt-get -y install hadoop-hbase apt-get -y install hadoop-hbase-master apt-get -y install hadoop-hbase

    1台でHBase, Hive, Pig, HUE(旧Cloudera Desktop)を試してみる(Ubuntu + Cloudera)
  • Hadoopを使いこなす(2)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、 前回のHadoopの記事 に引き続き、MapReduceのカスタマイズポイントを解説していきます。 前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。 古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。 デフォルトのrun関数は以下の通りです。 public vo

    Hadoopを使いこなす(2)
  • Amazonクラウドが大規模分散処理の機能を強化。SQLライクな検索ができるHiveを搭載へ

    Amazon Web Services Blog: New Elastic MapReduce Goodies: Apache Hive, Karmasphere Studio for Hadoop, Cloudera's Hadoop Distribution クラウドのサービスを提供するAmazon Web Servicesは10月2日、新機能として「Apache Hive」をサポートするとブログで明らかにしました。 Hiveは、もともとFacebookが開発した、MapReduceによる大規模分散処理のオープンソースフレームワーク「Hadoop」と組み合わせて利用するフロントエンドアプリケーションです。Hive QLというSQLに似た言語でHadoop上のデータを操作できるため、柔軟でアドホックな問い合わせを簡単に実現できるようになり、Hadoopを基盤としたデータウェアハウス的な処

    Amazonクラウドが大規模分散処理の機能を強化。SQLライクな検索ができるHiveを搭載へ
  • 1