タグ

oreillyとmapreduceに関するnabinnoのブックマーク (4)

  • プログラミング Hive

    書は、Hadoop上でSQLライクなクエリ操作を可能にするHiveについて、基礎から応用までを詳細に解説した書籍です。データ型とファイルフォーマット、またHiveQLのデータ定義、操作などの基礎的な事柄から、関数、ストリーミング、Thriftサービス、さらにAWSやHCatalogなどの応用まで、Hiveについて必要な事柄を豊富なサンプルとともにわかりやすく解説します。 日語版では、Microsoftの佐藤直生氏による「Windows Azure HDInsight Service」、Clouderaの嶋内翔氏による「Cloudera Impala」、「Hive 0.10 の新機能」、「HiveServer2」を追加。ビッグデータに関心のあるすべてのエンジニア、必携の一冊です。 訳者まえがき はじめに 1章 イントロダクション 1.1 HadoopとMapReduceの概要 1.1.1

    プログラミング Hive
  • Hadoop MapReduce デザインパターン

    TOPICS Database 発行年月日 2011年10月 PRINT LENGTH 210 ISBN 978-4-87311-512-2 原書 Data-Intensive Text Processing with MapReduce FORMAT 大量のデータにアクセスすることによって、商業、科学、コンピューティングといった様々な分野において新たな機会が生み出されています。MapReduceは、巨大なデータセットに対する分散処理を実行するプログラミングモデルであり、安価なサーバーからなるクラスタ上で大規模データの処理を行うためのフレームワークです。 書は、自然言語処理、情報抽出、機械学習などに共通する、テキスト処理のアルゴリズムに重点を置きながら、MapReduceのアルゴリズム設計について解説します。またMapReduceのデザインパターンの概念を説明し、様々な領域に共通して現れ

    Hadoop MapReduce デザインパターン
  • O'Reilly Japan - 入門 PySpark

    PythonからSparkを利用するための機能、PySparkを使いこなすテクニックとノウハウを習得する書籍です。はじめに高速になったSpark 2.0の特徴とアーキテクチャを解説し、次に構造化及び非構造化データの読み取り、PySparkで利用できる基的なデータ型、MLlibとMLパッケージによる機械学習モデルの構築を説明します。さらにGraphFramesを使ったグラフの操作、ストリーミングデータの読み取り、クラウドへのモデルのデプロイなどの方法を豊富なサンプルと一緒に学びます。またローカルでのSpark+Python+Jupyter環境の構築方法も紹介。大規模なデータを処理し、活用したいエンジニア必携の一冊です。 序文 訳者まえがき はじめに 1章 Sparkを理解する 1.1 Apache Sparkとは 1.2 SparkのジョブとAPI 1.2.1 実行のプロセス 1.2.2 

    O'Reilly Japan - 入門 PySpark
  • 初めてのSpark

    Sparkの概要、RDDを使ったプログラミング、キー/値ペアの処理など基礎的な説明から、Sparkの高度なプログラミング、クラスタ上での格的な利用まで解説した、Sparkの総合的な入門書です。日語版の内容にはバージョン1.3/1.4での機能強化も取り入れ、土橋昌氏による「原書発行以降の変更点」、猿田浩輔氏による「Spark SQLについて編の補足」、堀越保徳氏と濱口智大氏による「Spark/MapReduceの機械学習ライブラリ比較検証」を収録。全編にわたりCloudera株式会社エンジニアチームによるテクニカルレビューを実施。Sparkについて包括的に学べる書は、ビッグデータや機械学習に携わる開発者必携の一冊です。 目次 はじめに 日語版まえがき まえがき 1章 Sparkによるデータ分析への招待 1.1 Apache Sparkとは何か? 1.2 統合スタック 1.2.1 S

    初めてのSpark
  • 1