[B! Hive][Hadoop] wlbhiroのブックマーク

wlbhiro id:wlbhiro

HiveとHadoopに関するwlbhiroのブックマーク (10)

Tez on EMRを試してみた
Tez on EMRの検証結果です。EMR、Hive、Tezの概要についても説明しています。Read less
wlbhiro 2017/02/13
AWS

EMR

Hive

Hadoop
リンク
File Format Benchmark - Avro, JSON, ORC & Parquet
This document summarizes a benchmark study of file formats for Hadoop, including Avro, JSON, ORC, and Parquet. It found that ORC with zlib compression generally performed best for full table scans. However, Avro with Snappy compression worked better for datasets with many shared strings. The document recommends experimenting with the benchmarks, as performance can vary based on data characteristic
wlbhiro 2016/12/30
Parquet

JSON

ORC

Avro

format

Hadoop

Spark

Compression

Hive
リンク
Save flume output to hive table with Hive Sink
wlbhiro 2016/11/29
動作確認済(一部設定ミス有り．)

Hadoop

Hive

Hadoop Streaming

Streaming

Flume

HDP

HortonWorks
リンク
Implementing a real-time Hive Streaming example
wlbhiro 2016/11/10
Hadoop

HDFS

Hive

Streaming

Hive Streaming

configuration
リンク
Improving Query Performance Using Partitioning in Apache Hive - Cloudera Blog
Improving Query Performance Using Partitioning in Apache Hive Our thanks to Rakesh Rao of Quaero, for allowing us to re-publish the post below about Quaero’s experiences using partitioning in Apache Hive. In this post, we will talk about how we can use the partitioning features available in Hive to improve performance of Hive queries. Partitions Hive is a good tool for performing queries on large
wlbhiro 2016/09/14
cloudera

Hadoop

Hive

partition
リンク
TEXTFILE/SEQUENCEFILE/RCFILEのサイズ比較
基本的には以下のエントリーを自分なりに再試・咀嚼したものです。 HDFS and Hive storage - comparing file formats and compression methods - Adaltas Hiveテーブルを作成する際、SequenceFileはTextFileに比べてMapReduce時の処理効率は概ね良くなる傾向にありますが、様々なヘッダー情報が付与されるためファイルサイズ的には若干冗長になります。僕もHiveを触り始めてまだ１ヶ月ちょっとなので色々調べている中、RCFileという、HDFS上でHiveテーブルのように構造化されたデータを扱うのに適したデータ構造がある、という事を知ったので、それぞれ以下３種のデータフォーマットについてデータサイズの比較を行いました。 TEXTFILE SEQUENCEFILE RCFILE ◯前提条件今回試験に使
wlbhiro 2016/07/20
Hive

SEQUENCEFILE

RCFile

Hadoop

Compression

Compare
リンク
Hiveのパフォーマンスチューニングで試した７つのこと - Qiita
Spark, SQL on Hadoop etc. Advent Calendar 2014 - Qiita 10日目の記事です。とあるプロジェクトにて、パフォーマンスチューニングのために実施した７つのことをまとめました。この内容はCloudera World Tokyo 2014でお話しさせていただいた内容を再編したものです。登壇資料 - Hadoopで作る広告分析プラットフォーム登壇の様子 - 国内最大級のHadoop関連カンファレンスに登壇してきました！ 1.YARNが利用可能なリソースの変更 YARNではMR1と異なりスロットではなくコンテナという概念でリソースが管理されます。以下のパラメータでノードマネージャがコンテナに利用可能なメモリ量、CPU数を変更しました。 yarn.nodemanager.resource.memory-mb yarn.nodemanager.
wlbhiro 2016/07/19
Hive

Hadoop

type

Avro

SEQUENCEFILE

RCFile

Parquet

YARN
リンク
Hiveのファイル圧縮とSTOREの種類とマージの関係
Hiveの設定項目に「hive.merge.size.per.task」という項目があります。マージ処理が有効になっている（hive.merge.mapredfiles=true）上で、上述の項目で指定した所定のファイルサイズにHiveの計算結果ファイル（MapReduceの結果ファイル）のサイズが満たない場合、所定のサイズを超えるようにマージ処理が行われます。用途としては、結果ファイルとしてあまりに細かいファイルが大量に作られHDFSのブロックが有効活用出来ない状況を回避するため、と認識しています。（できるだけ１ファイルをHDFSのブロックサイズに一致するようなサイズにマージしたい。）もしくは解析時に大量のMapタスクを生成したくない、という目的もあると思います。ただ、こちらのパラメータはケースによっては有効にならないようです。 ◯有効になるケース計算結果ファイルを非圧縮にし
wlbhiro 2016/07/19
hive

SEQUENCEFILE

Hive

table

hadoop

圧縮

compression
リンク
Hadoop + HiveからExcelへの帳票出力 (How to fetch data from Hadoop via Hive)
今回はHadoopおよびHiveを用いて抽出したデータを、Apache POIを使用してExcelシート上に出力します。 HiveはHiveQLというSQLに近い言語で開発が可能であり、JDBCドライバも提供されています。過去の記事（Apache POI によるエクセルファイルの出力その1）のソースコードを流用することで、極めて簡単にHadoopとExcelを連携させることができます。 Figure 1: Overall image 【バージョン】 HadoopおよびHiveはそれぞれ現時点で入手可能な最新の安定版を使用します。 Hadoop: Release 1.0.4 (12 October, 2012) Hive: Release 0.9.0 (30 April, 2012) ※Hive 0.9.0から、Hadoop1.xでの動作をサポートした様です。また、HiveのJDB
wlbhiro 2016/06/07
帳票自動作成

Hive

Hadoop

Excel
リンク
https://docs.cloudera.com/documentation/enterprise/latest.html
wlbhiro 2015/04/13
sudo -u hdfs hdfs balancer -threshold 5 等で閾値を変更することが可能。

HDFS

Hadoop
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx