タグ

ブックマーク / wyukawa.hatenablog.com (2)

  • データ民主化の負の側面 - wyukawa's diary

    データの活用が当然のことのようになってエンジニア以外でもSQL書いてデータ抽出するのが一般的になってきました。さらにデータサイエンティストの登場により高度な分析もされるようになってきて、顕在化してきたのがHadoopクラスタの無法地帯化とエンジニアの疲弊なんじゃないかと最近思っております。なおHadoopに限らずElasticsearchでも言えたりします。 これって要はユーザと管理者のバランスの問題で、Hadoopエンジニアを採用するのが難しいというのが背景にあります。 SQL書ける人はそれなりにいるけど、インフラ側の人材不足ですね。この状態でデータの民主化が進むとどうなるかというと、 クエリの数が増える -> なかにも重いクエリも結構ある -> 管理者がそれをチェックするのに疲れて放置するようになる -> クラスタの負荷が増えて障害も出るようになる -> クエリ実行にも時間かかるように

    データ民主化の負の側面 - wyukawa's diary
    overlast
    overlast 2017/10/01
    いい “データくれっていう人に対して感じ悪く塩対応するエンジニアとか、糞クエリを容赦なくkillするhive/presto警察とか、クエリ実行中だろうがメンテナンスして強引にアップグレードするとか、そういったものが必要”
  • Hiveで大きめの結果ファイルをエクスポートして相手に渡す話 - wyukawa's diary

    いろいろな部署でデータ分析するようになると「うちのデータとおまえんところのデータを結合して解析したいからデータをくれ、もしくはおれのデータをおたくのクラスタにインポートしてくれ」みたいな話が出るようになります、たぶん。 1つのHadoopクラスタにデータが全てあってみんなでそこをいじるのであればこのような話は出ない訳ですが、世の中そう話は単純ではないです。 インポート、エクスポート両方の話があると思いますが、こちらのHadoop上のデータを相手に上げる場合を考えてみます。 データ自体はHiveクエリをちょちょっと投げれば取得できます。 このときHiveクエリの結果が少量なら問題無いですが、10GBとかあったらちょっと面倒です。 というのもhiveでselectした結果をリダイレクトしても遅いですし、ちゃんとリダイレクトできているか怪しいです。 HiveServer経由だとfetchするとき

    Hiveで大きめの結果ファイルをエクスポートして相手に渡す話 - wyukawa's diary
  • 1