タグ

2015年1月6日のブックマーク (8件)

  • Cloudera Blog

    Enterprises see embracing AI as a strategic imperative that will enable them to stay relevant in increasingly competitive markets. However, it remains difficult to quickly build these capabilities given the challenges with finding readily available talent and resources to get started rapidly on the AI journey. Cloudera recently signed a strategic collaboration agreement with Amazon […] Read blog p

    Cloudera Blog
  • Hadoop – Hive演習をさらす – OpenGroove

    前回の続きで、セットアップ後のHive演習記録。参考書の通りにやっただけなんだが… 前提として、演習に使うサンプルデータは以下からダウンロードし、Hadoopマシンに転送。 解凍後必要なデータをhiveユーザのホームディレクトリ配下に配置している。 http://gihyo.jp/book/2012/978-4-7741-5389-6 こんな感じ。 $ ls -l /home/hive/sales_sample -rw-r--r-- 1 hive hive 7500 Sep 5 19:20 itemlist.tsv -rw-r--r-- 1 hive hive 405179 Sep 5 19:20 sales_detail.tsv -rw-r--r-- 1 hive hive 95769 Sep 5 19:20 sales.tsv -rw-r--r-- 1 hive hive 3428 S

    nobusue
    nobusue 2015/01/06
  • 今日からはじめるお手軽 Hive データ移行 - mixi engineer blog

    こんにちは. 昨年知人のオーケストラ演奏会で聴いたメンデルスゾーン交響曲第4番「イタリア」が大好きな,技術部の石川有です. そんな「イタリア」大好きな私ですが Hive のデータ移行も大好きという体で, 今回の記事ではオンプレミスで Hive を頑張って運用している方たちに向けて,どうしてもというときの Hive のデータ移行方法を紹介したいと思います. 弊社では最近,Cloudera's Distribution including Apache Hadoop 3 update 2 (CDH3u2) から CDH 4.1.2 にバージョンアップを行なっています. このようにオンプレミスで Hive を運用している方たちの中には,すでに持っているデータをうまく移行したいという方も多いかと思います. Hive には現状 MySQLmysqldump のような機能が提供されていないのでバ

    今日からはじめるお手軽 Hive データ移行 - mixi engineer blog
    nobusue
    nobusue 2015/01/06
  • HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ

    ひとことで言うと「通常必要なパーティション階層の更に下にもうひとつパーティションを掘っておけ」だけ。 普通のパーティション設計 仮にWebサーバのアクセスログを投入するためのテーブル accesslog があるとする。このテーブルを、まずサービス名 service カラムでパーティショニングし、さらに日毎にパーティショニングするとしよう。データは外部でタブ区切りにparseしておき、それを毎日LOADする。 このようなテーブルになる。 CREATE TABLE accesslog ( rhost STRING, time STRING, method STRING, path STRING, status SMALLINT, bytes BIGINT, referer STRING, useragent STRING ) PARTITIONED BY (service STRING, yy

    HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ
    nobusue
    nobusue 2015/01/06
  • Hive dynamic partition insertsにまつわるいくつかの問題と対処について - たごもりすメモ

    だいぶ前のHiveの機能準拠で作ってたクラスタを大幅に作り直したので、ついでにETL処理をdynamic partition inserts一発でやればMapReduce 1ジョブで済んで超効率的に! やった! と思ったらいくつかハマったのでメモ。 なおdynamic partition insertsについては説明が面倒なので公式Wikiの該当ページを読むとよい、が、簡単に言うとHiveでパーティションにINSERTするときにINSERT先のパーティション指定をSELECTクエリの出力により行う、というもの。 なお断りがない限りは HDP2.1 with Hive 0.13 の環境で試したものとする。(移行元はCDH4) クエリの書き方 単純に言うと、パーティションとして指定したいカラムは SELECT 句の最後に置かなければならない。 簡単に言うと year=INT/month=INT

    Hive dynamic partition insertsにまつわるいくつかの問題と対処について - たごもりすメモ
    nobusue
    nobusue 2015/01/06
  • HiveでJSON形式のデータを扱うようにして変更に強くする話 - wyukawa's diary

    Hiveでは常識の部類に入る話なのかもしれませんが、僕が最近やったことなのでメモっておきます。 たとば以下のCSVファイルがあったとします。なお今回の例はタムタムの日記 - HiveでJSON形式のログを構造化するからいただきました。m( )m name,exam1,exam2,exam3 Irma,58,73,85 Doroty,50,39,11 Echo,95,47,96 Ina,50,68,38 Kay,15,11,46この場合に単純に以下のようなHiveのテーブルを用意してデータをロードするやり方だとカラム追加がおきたときに対応しなければなりません。 CREATE TABLE sample( name STRING, exam1 INT, exam2 INT, exam3 INT ) PARTITIONED BY (yyyymmdd STRING) ROW FORMAT DELIM

    HiveでJSON形式のデータを扱うようにして変更に強くする話 - wyukawa's diary
  • Hive Plays Well with JSON

    Hive is an abstraction on Hadoop Map Reduce. It provides a SQL like interface for querying HDFS data, whch accounts for most of it’s popularity.  In Hive, table structured data in HDFS is encapsulated with a table as in RDBMS.  The DDL for table creation in Hive looks very similar to table creation DDL in RDBMS. In one of my recent projects, I had a need for storing and querying JSON formatted hie

    Hive Plays Well with JSON
  • Groovyのcall()をプロパティに対して適用するには? - GeekFactory

    TLDR Groovyの call() はローカル変数に対しては機能するが、クラスのプロパティに対しては機能しない。解決法をご存じでしたら教えてください。 やりたいこと 変数に関数呼び出し演算子を適用した場合の処理を書きたいことがあります。例えば、下記のようにクロージャでプロパティを設定できたら便利です。 def x = new X() x { value = 100 } そんな時は当該クラスに call() メソッドを定義します。 class X { def value = 50 def call(Closure c) { def cloned = closure.clone() as Closure cloned.resolveStrategy = Closure.DELEGATE_FIRST cloned.delegate = this cloned.call() } } def x

    Groovyのcall()をプロパティに対して適用するには? - GeekFactory