最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。 その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。 最後に、BigQueryとSnowflakeどっちが速いのか?といった疑問に対して、アーキテクチャをもとに考察します。
データの活用が当然のことのようになってエンジニア以外でもSQL書いてデータ抽出するのが一般的になってきました。さらにデータサイエンティストの登場により高度な分析もされるようになってきて、顕在化してきたのがHadoopクラスタの無法地帯化とエンジニアの疲弊なんじゃないかと最近思っております。なおHadoopに限らずElasticsearchでも言えたりします。 これって要はユーザと管理者のバランスの問題で、Hadoopエンジニアを採用するのが難しいというのが背景にあります。 SQL書ける人はそれなりにいるけど、インフラ側の人材不足ですね。この状態でデータの民主化が進むとどうなるかというと、 クエリの数が増える -> なかにも重いクエリも結構ある -> 管理者がそれをチェックするのに疲れて放置するようになる -> クラスタの負荷が増えて障害も出るようになる -> クエリ実行にも時間かかるように
hiveにパーティションを導入すれば、パーツを指定してクエリを発行できるので、余計な読み込みを抑えて効率よく処理することができる。…ということで、チャチャッと演習(といいつつ長い)。 テーブル作成。 以下太字で示しているパーティションのkeyは、データに含まれていない値でかまわない。 hive> CREATE TABLE sales( id INT, shop_id STRING, date_id STRING ) PARTITIONED BY(dt STRING) ← パーティション用のkeyを指定。 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'; hive> LOAD DATA LOCAL INPATH '/home/hiveuser/20130101.tsv' OVERWRITE INT
I am trying to install Hadoop 2.2.0 in pseudo-distributed mode. While I am trying to start the datanode services it is showing the following error, can anyone please tell how to resolve this? **2**014-03-11 08:48:15,916 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool <registering> (storage id unknown) service to localhost/127.0.0.1:9000 starting to offer service 2014-03-11 08:48:1
前回に引き続き、使用するHadoopのバージョンは2.4。1年前の記事をもとに、Eclipseで開発環境を作る。 開発を行うクライアントは、MacBook Pro (OSX 10.9.3)。クライアントのJavaのバージョンは以下。 MacBook-Pro:~ tetsuya$ java -version java version "1.6.0_65" Java(TM) SE Runtime Environment (build 1.6.0_65-b14-462-11M4609) Java HotSpot(TM) 64-Bit Server VM (build 20.65-b04-462, mixed mode) ダウンロード hadoopのダウンロードページから、hadoop-2.4.0.tar.gzをダウンロードする。 クライアントの設定 ダウンロードしたhadoop-2.4.0.ta
Andrew Brust (Special to ZDNET.com) 翻訳校正: 村上雅章 2013-01-11 07:30 ビッグデータを推進する複数の企業が2013年の予想を発表している。こういった予想を紹介しつつ、筆者自らの予想を発表することにしたい。 ことIT業界に関して言えば、新年の予想が花盛りである。これはビッグデータの世界において特に当てはまる。しかし筆者は、ビッグデータを推進する企業が行ったどの予想についても、記事を書こうとは思っていなかった。ところがこの業界の多くの企業から筆者のもとに、2013年に起こるであろうことについてのさまざまな意見が送られてきた。このため、筆者は2013年のビッグデータにまつわるこういった予想のいくつかに自らの知見を追加してまとめてみるのも面白いと思ったわけだ。 「Apache Hadoop」の2013年 ではまず、Apache Hadoop自
14:00 追記 運営担当の櫛井です。 定員に達したため、締め切りました。 たくさんのお申込みありがとうございました。 お申込みいただいた方へは別途メールにてご連絡いたします。 キャンセルが多くなった場合は追加の募集をかけるかも知れませんので ハッシュタグ #nhntech をご覧いただければと思います。 ----- どうも、株式会社データホテルの伊勢です。 先日ご案内した第2回NHNテクノロジーカンファレンスの参加募集を開始いたします。 以下にカンファレンス、及び会場の詳細をご案内いたします。 開催: 第2回 NHNテクノロジーカンファレンス 主催: NHN Japan株式会社 日程: 2012 年 8 月 18 日(土) 時間: 15:00 〜 18:05 (14:30 開場 / 18:15 閉場) 規模: 150人前後 セミナー参加費: 無料 会場: 新宿NSビル 30F NSスカイ
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
Your version of Internet Explorer is not longer supported. Please upgrade your browser.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く