nobusueのブックマーク / 2015年1月6日

nobusue id:nobusue

2015年1月6日のブックマーク (8件)

Cloudera Blog
Enterprises see embracing AI as a strategic imperative that will enable them to stay relevant in increasingly competitive markets. However, it rem ains difficult to quickly build these capabilities given the challenges with finding readily available talent and resources to get started rapidly on the AI journey. Cloudera recently signed a strategic collaboration agreement with Amazon […] Read blog p
nobusue 2015/01/06
Spark

Streaming
リンク
Hadoop – Hive演習をさらす – OpenGroove
前回の続きで、セットアップ後のHive演習記録。参考書の通りにやっただけなんだが… 前提として、演習に使うサンプルデータは以下からダウンロードし、Hadoopマシンに転送。解凍後必要なデータをhiveユーザのホームディレクトリ配下に配置している。 http://gihyo.jp/book/2012/978-4-7741-5389-6 こんな感じ。 $ ls -l /home/hive/sales_sample -rw-r--r-- 1 hive hive 7500 Sep 5 19:20 it emlist.tsv -rw-r--r-- 1 hive hive 405179 Sep 5 19:20 sales_detail.tsv -rw-r--r-- 1 hive hive 95769 Sep 5 19:20 sales.tsv -rw-r--r-- 1 hive hive 3428 S
nobusue 2015/01/06
hive
リンク
今日からはじめるお手軽 Hive データ移行 - mixi engineer blog
こんにちは．昨年知人のオーケストラ演奏会で聴いたメンデルスゾーン交響曲第４番「イタリア」が大好きな，技術部の石川有です．そんな「イタリア」大好きな私ですが Hive のデータ移行も大好きという体で，今回の記事ではオンプレミスで Hive を頑張って運用している方たちに向けて，どうしてもというときの Hive のデータ移行方法を紹介したいと思います．弊社では最近，Cloudera's Distribution including Apache Hadoop 3 update 2 (CDH3u2) から CDH 4.1.2 にバージョンアップを行なっています．このようにオンプレミスで Hive を運用している方たちの中には，すでに持っているデータをうまく移行したいという方も多いかと思います． Hive には現状 MySQL の mysqldump のような機能が提供されていないのでバ
nobusue 2015/01/06
hive
リンク
HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ
ひとことで言うと「通常必要なパーティション階層の更に下にもうひとつパーティションを掘っておけ」だけ。普通のパーティション設計仮にWebサーバのアクセスログを投入するためのテーブル accesslog があるとする。このテーブルを、まずサービス名 service カラムでパーティショニングし、さらに日毎にパーティショニングするとしよう。データは外部でタブ区切りにparseしておき、それを毎日LOADする。このようなテーブルになる。 CREATE TABLE accesslog ( rhost STRING, time STRING, method STRING, path STRING, status SMALLINT, bytes BIGINT, referer STRING, useragent STRING ) PARTITIONED BY (service STRING, yy
nobusue 2015/01/06
hive
リンク
Hive dynamic partition insertsにまつわるいくつかの問題と対処について - たごもりすメモ
だいぶ前のHiveの機能準拠で作ってたクラスタを大幅に作り直したので、ついでにETL処理をdynamic partition inserts一発でやればMapReduce 1ジョブで済んで超効率的に！やった！と思ったらいくつかハマったのでメモ。なおdynamic partition insertsについては説明が面倒なので公式Wikiの該当ページを読むとよい、が、簡単に言うとHiveでパーティションにINSERTするときにINSERT先のパーティション指定をSELECTクエリの出力により行う、というもの。なお断りがない限りは HDP2.1 with Hive 0.13 の環境で試したものとする。(移行元はCDH4) クエリの書き方単純に言うと、パーティションとして指定したいカラムは SELECT 句の最後に置かなければならない。簡単に言うと year=INT/month=INT
nobusue 2015/01/06
hive
リンク
HiveでJSON形式のデータを扱うようにして変更に強くする話 - wyukawa's diary
Hiveでは常識の部類に入る話なのかもしれませんが、僕が最近やったことなのでメモっておきます。たとば以下のCSVファイルがあったとします。なお今回の例はタムタムの日記 - HiveでJSON形式のログを構造化するからいただきました。m( )m name,exam1,exam2,exam3 Irma,58,73,85 Doroty,50,39,11 Echo,95,47,96 Ina,50,68,38 Kay,15,11,46この場合に単純に以下のようなHiveのテーブルを用意してデータをロードするやり方だとカラム追加がおきたときに対応しなければなりません。 CREATE TABLE sample( name STRING, exam1 INT, exam2 INT, exam3 INT ) PARTITIONED BY (yyyymmdd STRING) ROW FORMAT DELIM
nobusue 2015/01/06
hive

JSON
リンク
Hive Plays Well with JSON
Hive is an abstraction on Hadoop Map Reduce. It provides a SQL like interface for querying HDFS data, whch accounts for most of it’s popularity. In Hive, table structured data in HDFS is encapsulated with a table as in RDBMS. The DDL for table creation in Hive looks very similar to table creation DDL in RDBMS. In one of my recent projects, I had a need for storing and querying JSON formatted hie
nobusue 2015/01/06
hive

JSON
リンク
Groovyのcall()をプロパティに対して適用するには？ - GeekFactory
TLDR Groovyの call() はローカル変数に対しては機能するが、クラスのプロパティに対しては機能しない。解決法をご存じでしたら教えてください。やりたいこと変数に関数呼び出し演算子を適用した場合の処理を書きたいことがあります。例えば、下記のようにクロージャでプロパティを設定できたら便利です。 def x = new X() x { value = 100 } そんな時は当該クラスに call() メソッドを定義します。 class X { def value = 50 def call(Closure c) { def cloned = closure.clone() as Closure cloned.resolveStrategy = Closure.DELEGATE_FIRST cloned.delegate = this cloned.call() } } def x
nobusue 2015/01/06
Groovy
リンク
- 2015年1月7日
- 2015年1月6日
- 2015年1月5日