[B! Hadoop] girledのブックマーク

girled id:girled

Hadoopに関するgirledのブックマーク (9)

BigQuery と Snowflake を徹底比較
最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。最後に、BigQueryとSnowflakeどっちが速いのか？といった疑問に対して、アーキテクチャをもとに考察します。
girled 2023/03/16
SFとTDの比較見てたらSFとBQの違いが分からんくなって調べたらこれで読んでる。2人ともDremelの子なんだな。Dremel久しぶりに思い出した

google

Dremel

Hadoop

ビッグデータ

データ基盤

DWH

GCP

データベース

データ分析
リンク
データ民主化の負の側面 - wyukawa's diary
データの活用が当然のことのようになってエンジニア以外でもSQL書いてデータ抽出するのが一般的になってきました。さらにデータサイエンティストの登場により高度な分析もされるようになってきて、顕在化してきたのがHadoopクラスタの無法地帯化とエンジニアの疲弊なんじゃないかと最近思っております。なおHadoopに限らずElasticsearchでも言えたりします。これって要はユーザと管理者のバランスの問題で、Hadoopエンジニアを採用するのが難しいというのが背景にあります。 SQL書ける人はそれなりにいるけど、インフラ側の人材不足ですね。この状態でデータの民主化が進むとどうなるかというと、クエリの数が増える -> なかにも重いクエリも結構ある -> 管理者がそれをチェックするのに疲れて放置するようになる -> クラスタの負荷が増えて障害も出るようになる -> クエリ実行にも時間かかるように
girled 2017/10/01
利活用が進んでるならうれしい悲鳴かもね。結局レポーティングまでデータインフラ部門に丸投げなんてあるあるかも。データレイクなんて綺麗なものじゃ無く「データ沼」になる結末とか

hadoop

データ

hive

bigdata

engineer
リンク
Hiveでパーティションを利用する – OpenGroove
hiveにパーティションを導入すれば、パーツを指定してクエリを発行できるので、余計な読み込みを抑えて効率よく処理することができる。…ということで、チャチャッと演習（といいつつ長い）。テーブル作成。以下太字で示しているパーティションのkeyは、データに含まれていない値でかまわない。 hive> CREATE TABLE sales( id INT, shop_id STRING, date_id STRING ) PARTITIONED BY(dt STRING)　← パーティション用のkeyを指定。 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'; hive> LOAD DATA LOCAL INPATH '/home/hiveuser/20130101.tsv' OVERWRITE INT
girled 2015/03/03
それなりのaccess_logをHiveでselectするとクエリが止まったりDatanode死んだりしてて原因よくわかんなかったけど適度にパーティション切ればいけそうな気がしたのっ今日試す！

hive

data

Hadoop

ビッグデータ

データストア

分散データストア

YARN

Apache
リンク
Datanode not starts correctly
I am trying to install Hadoop 2.2.0 in pseudo-distributed mode. While I am trying to start the datanode services it is showing the following error, can anyone please tell how to resolve this? **2**014-03-11 08:48:15,916 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool <registering> (storage id unknown) service to localhost/127.0.0.1:9000 starting to offer service 2014-03-11 08:48:1
girled 2015/02/18
DatanodeがclusterIdの不一致で起動しなかった時にclusterIdを指定したフォーマットがあることを知って起動できるように回復できた。正常終了させなかったとかで不一致になったっぽい。

Hadoop

datanode

障害

トラブル

ビッグデータ

コマンド

解決

stackoverflow
リンク
EclipseでHadoop2.4の開発環境を作る＆ワードカウントのプログラムを作成する。 - tetsuya_odakaの日記
前回に引き続き、使用するHadoopのバージョンは2.4。１年前の記事をもとに、Eclipseで開発環境を作る。開発を行うクライアントは、MacBook Pro (OSX 10.9.3）。クライアントのJavaのバージョンは以下。 MacBook-Pro:~ tetsuya$ java -version java version "1.6.0_65" Java(TM) SE Runtime Environment (build 1.6.0_65-b14-462-11M4609) Java HotSpot(TM) 64-Bit Server VM (build 20.65-b04-462, mixed mode) ダウンロード hadoopのダウンロードページから、hadoop-2.4.0.tar.gzをダウンロードする。クライアントの設定ダウンロードしたhadoop-2.4.0.ta
girled 2015/02/06
これを参考にHadoopのジョブ開発、デバッグ環境作った。案外サクッと作れたのとJAR作るのにエクスポートだけで作れるの知らなかったというあれ。

hadoop

Java

ビッグデータ

HDFS

プログラミング

開発環境

デバッグ
リンク
2013年、ビッグデータはどうなる？--Hadoopの先にあるもの
Andrew Brust （Special to ZDNET.com）翻訳校正：村上雅章 2013-01-11 07:30 ビッグデータを推進する複数の企業が2013年の予想を発表している。こういった予想を紹介しつつ、筆者自らの予想を発表することにしたい。ことIT業界に関して言えば、新年の予想が花盛りである。これはビッグデータの世界において特に当てはまる。しかし筆者は、ビッグデータを推進する企業が行ったどの予想についても、記事を書こうとは思っていなかった。ところがこの業界の多くの企業から筆者のもとに、2013年に起こるであろうことについてのさまざまな意見が送られてきた。このため、筆者は2013年のビッグデータにまつわるこういった予想のいくつかに自らの知見を追加してまとめてみるのも面白いと思ったわけだ。「Apache Hadoop」の2013年ではまず、Apache Hadoop自
girled 2013/01/11
21日のHadoopカンファレンスが楽しみですね。

hadoop

ビッグデータ

データマイニング

データサイエンス

ビジネス
リンク
livedoor Techブログ : 【締め切りました】第2回NHNテクノロジーカンファレンス参加募集開始！
14:00 追記運営担当の櫛井です。定員に達したため、締め切りました。たくさんのお申込みありがとうございました。お申込みいただいた方へは別途メールにてご連絡いたします。キャンセルが多くなった場合は追加の募集をかけるかも知れませんのでハッシュタグ #nhntech をご覧いただければと思います。 ----- どうも、株式会社データホテルの伊勢です。先日ご案内した第2回NHNテクノロジーカンファレンスの参加募集を開始いたします。以下にカンファレンス、及び会場の詳細をご案内いたします。開催：第2回 NHNテクノロジーカンファレンス主催： NHN Japan株式会社日程： 2012 年 8 月 18 日(土) 時間： 15:00 〜 18:05 (14:30 開場 / 18:15 閉場) 規模： 150人前後セミナー参加費：無料会場：新宿NSビル 30F NSスカイ
girled 2012/07/30
参加したかったけどスケジュールの関係で参加できず。Hadoop盛り沢山なの興味あったのに。

nhn

勉強会

Hadoop

HTML5

LINE
リンク
NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という
girled 2011/11/25
かなりのボリュームなので部分部分でつまみ食いしながら読んでみる。このまま本にしても通用するわ。

hadoop

サーバ

データ

ソフトウェア

クラウド

資料

開発
リンク
Eventbrite
Your version of Internet Explorer is not longer supported. Please upgrade your browser.
girled 2011/08/25
こんな大規模のカンファレンスやるのか。時間作って話聞きに行きたいなあ。

hadoop

カンファレンス

勉強会

システム開発
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx