タグ

O'Reillyとhadoopに関するbeth321のブックマーク (9)

  • Cloudera Impala

    大規模並列処理(MPP)エンジンであり、Hadoopのデータに対してSQLを用いてクエリを実行できるソフトウェアImpalaについて紹介する書籍です。ビッグデータのワークフロー全体から、またRDBMS、OS、そしてHadoopといった読者の背景知識を元にして、Impalaが実現する機能や役割を紹介します。なお書はEbook版のみのリリースとなります。 イントロダクション 1章 ビッグデータのエコシステムにおけるImpalaの立ち位置 2章 ビッグデータのワークフローにおけるImpalaの場所 柔軟性 パフォーマンス 3章 RDBMSの背景知識から見たImpala 標準的なSQL ストレージ、ストレージ、ストレージ 数十億行に及ぶデータ Impalaとデータウェアハウスの相似点 Impalaでの初めてのクエリ Impalaのテーブルへのデータの取り込み 4章 UnixあるいはLinuxの背

    Cloudera Impala
  • HBase

    ビッグデータのランダムアクセス系処理に欠かせないHBaseについて、基礎から応用までを詳細に解説。クライアントAPI(高度な機能・管理機能)、Hadoopとの結合、アーキテクチャといった開発に関わる事項や、クラスタのモニタリング、パフォーマンスチューニング、管理といった運用の方法を、豊富なサンプルとともに解説します。日語版ではAWS Elastic MapReduceについての付録を追加。ビッグデータに関心あるすべてのエンジニアに必携の一冊です。 序文 訳者まえがき はじめに 1章 HBaseの紹介 1.1 ビッグデータの夜明け 1.2 リレーショナルデータベースシステムの問題 1.3 非リレーショナルデータベースシステム、Not-Only SQLあるいはNoSQL? 1.3.1 観点 1.3.2 スケーラビリティ 1.3.3 データベースの(非)正規化 1.4 構成要素 1.4.1 背

    HBase
  • Hadoop 第3版

    の名前で親しまれる『Hadoop』の第3版の登場です。今回の改訂では、Hadoop 0.22系、2.x系の記述を大幅加筆。次世代Hadoopの特徴であるYARN(Hadoop 2.x系におけるジョブ実行フレームワーク)やMapReduce 2について詳述しました。Hadoop1.x(旧0.20)の情報もカバーしているので、これまでのバージョンを使う新旧のユーザに対応しています。第3版の日語版付録として、Clouderaの小林大輔氏による「最新の高可用性HDFSの紹介」を掲載。Hadoopの基礎から応用までを網羅し、最新の情報をカバーした書は、Hadoopに関心のあるすべての開発者必携の一冊です。 序 文 訳者まえがき はじめに 1章 Hadoop事始め 1.1 データ! 1.2 データの保管と分析 1.3 他のシステムとの比較 1.3.1 リレーショナルデータベース管理システム 1

    Hadoop 第3版
  • Hadoopオペレーション

    書はHadoopの管理と運用に焦点を当てたです。Hadoopのクラスタ計画から、認証、リソース管理、またクラスタのメンテナンス、モニタリング、バックアップとリカバリなど、Hadoopを使う際に必要なトピックについて網羅しています。日語版ではClouderaの川崎達夫氏と小林大輔氏による「Cloudera Manager」、「Hue」、「高可用性ネームノードのアーキテクチャと動作詳細」についての記事を加筆。ビッグデータの根幹を支えるHadoopの管理と運用について網羅した書は、データ技術者必携の一冊です。 目次 はじめに 1章 イントロダクション 2章 HDFS 2.1 ゴールと動機 2.2 設計 2.3 デーモン群 2.4 データの読み書き 2.4.1 読み取りの流れ 2.4.2 書き込みの流れ 2.4.3 ファイルシステムのメタデータの管理 2.5 高可用性ネームノード 2.6 

    Hadoopオペレーション
  • Cassandra

    書は、NoSQLミドルウェアの代表格であるCassandraについて包括的に解説する書籍です。Cassandraの概要、インストール、データモデル、データの読み込みと書き込みなどの基礎から、モニタリングやメンテナンス、パフォーマンスチューニングなど、実践的な事柄までをサンプルコードを多用して詳しく解説します。さらに、Hadoopとの連携や、Cassandra以外の非リレーショナルデータベースについてもカバーしています。日語版では、正式リリースされた1.0の基盤であるバージョン0.8を中心に新機能についても収録。Cassandraに関心のある開発者、運用管理者に必携の一冊です。 目次 序文 はじめに 1章 Cassandraとは 1.1 リレーショナルデータベースの何が問題なのか? 1.2 リレーショナルデータベースの簡単な復習 1.2.1 RDBMS:よい点、よくない点 1.2.2 W

    Cassandra
  • Hadoop Hacks

    TOPICS Hacks , Database , Java 発行年月日 2012年04月 PRINT LENGTH 434 ISBN 978-4-87311-546-7 FORMAT PDF 書は、Hadoopの概要を理解した読者を対象に、Hadoopを実際に使いこなすためのテクニックとTipsをまとめた書籍です。システム構築/運用、アプリケーション開発など、Hadoopならではの特徴を使いこなすための方法から、HBase、Hive、Pig、Mahout、ZooKeeperなどサブプロジェクトについてのHackまで、幅広い内容をカバーしています。Hadoopの力を引き出すのに必要なツールとその使い方、また内部の動きを知るための方法、さらに先進的なテクニックなど、開発の現場で必要とされる74のテクニックを掲載しています。早くからHadoopに注目し、実際に活用してきた技術者によって執筆さ

    Hadoop Hacks
  • Hadoop MapReduce デザインパターン

    TOPICS Database , Java 発行年月日 2011年10月 PRINT LENGTH 210 ISBN 978-4-87311-512-2 原書 Data-Intensive Text Processing with MapReduce FORMAT PDF 大量のデータにアクセスすることによって、商業、科学、コンピューティングといった様々な分野において新たな機会が生み出されています。MapReduceは、巨大なデータセットに対する分散処理を実行するプログラミングモデルであり、安価なサーバーからなるクラスタ上で大規模データの処理を行うためのフレームワークです。 書は、自然言語処理、情報抽出、機械学習などに共通する、テキスト処理のアルゴリズムに重点を置きながら、MapReduceのアルゴリズム設計について解説します。またMapReduceのデザインパターンの概念を説明し、様

    Hadoop MapReduce デザインパターン
  • Mahoutイン・アクション

    Apacheプロジェクトが提供するオープンソースの機械学習ライブラリ、Mahoutについて包括的に解説する書籍です。協調フィルタリングによるレコメンデーションについて、オンメモリ実装からHadoopベースの並列実装までを説明することで、分散環境における機械学習アルゴリズムの全体像を明らかにします。また、データの中で似た者同士をクラスタにグループ化するクラスタリングアルゴリズムに触れ、さらに分類器の構築、サンプルデータを使って「学習」させる方法を説明します。実装例を示しながら実践的に解説する書は、Mahoutをマスターしたいエンジニア必携の一冊です。 訳者による日語版サポートページ 序文 訳者まえがき はじめに 1章 Apache Mahoutへようこそ 1.1 Mahoutものがたり 1.2 Mahoutが扱う機械学習の分野 1.2.1 レコメンデーションエンジン 1.2.2 クラスタ

    Mahoutイン・アクション
  • Hadoop

    TOPICS Database 発行年月日 2010年01月 PRINT LENGTH 568 ISBN 978-4-87311-439-2 原書 Hadoop: The Definitive Guide, First Edition FORMAT 書は、Hadoopの基礎から応用までを包括的に解説する書籍です。はじめに、Hadoopの分散ファイルシステムHDFSやI/Oの効率化の仕組みなど、Hadoopの基礎を説明し、なかでもMapReduceについて詳しく解説します。MapReduceのアプリケーションを開発するために必要なステップを一通り紹介し、さらにユーザの目から見てMapReduceがどう実装されるのかを詳述します。後半ではHadoop管理者のために、HDFSとMapReduceを実行するためのHadoopクラスタの立ち上げと管理の方法を紹介。さらにPig、HBase、ZooK

    Hadoop
  • 1