wyukawaのブックマーク / 2016年2月19日

wyukawa id:wyukawa

2016年2月19日のブックマーク (5件)

1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
現在、DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集し、データドリブンマーケティングやマーケティングオートメーションに活用しています。しかし、データの規模が増大し、その用途が多様化するにともなって、データ処理のレイテンシが課題となってきました。本発表では、既存のデータ処理に用いられていたHiveの処理をHive on Sparkに置き換えることで、1日あたりのバッチ処理の時間を3分の1まで削減することができた事例を紹介し、Hive on Sparkの導入方法やメリットを具体的に解説します。 Hadoop / Spark Conference Japan 2016 http://www.eventbrite.com/e/hadoop-spark-conference-japan-2016-tickets-2
wyukawa 2016/02/19
Tez

Hadoop

hive
リンク
続・Web系の自分が想像と障害で学んだバッチ処理・設計の基本 - コンポツさん
バッチ処理というのがそれ単体で勉強するのが難しく勉強しようとすると何に手を付けるべきかさっぱりわからないということは、先日のブログで述べたとおり。自分が経験の中で得てきた知見は正しいのかどうか、世間の人に見てもらいたかったというのが書いた動機。そして、新たな視点や指摘をゲットしてより不測の事態を考慮できている最高なバッチを作りたいという目的があったわけだ。で、いろいろな意見をもらったのだけどその中で特に辛いと感じたのはこれ。基幹システムにおけるバッチ処理みたいなものに関する知見については、カジュアルに学ぶ方法はありません。それを体系化した知識として整理した上で、実装できる組織があるんなら、それでメシが食えるんじゃないですかね。— 太一 (@ryushi) 2016, 2月 18 読んでいると「俺達は障害でつらい思いをしてるし当然先人達も障害でつらい思いをしているはずだ。なのに、
wyukawa 2016/02/19
バッチに関してはいくつか思うことはあるけどAzkaban使えば割と解決するんじゃないかな

バッチ
リンク
今日の習慣が明日をつくる～よりよい技術者を目指して～
今日の習慣が明日をつくるよりよい技術者を目指して
wyukawa 2016/02/19
エンジニア

プログラミング
リンク
分散プログラミングモデルおよびデザインパターン - kuenishi's blog
同名の某記事について。僕がタイトルから想像する期待を、なんだか意外な方向に裏切ってくれた記事であった。批判するだけではよくないので、同じタイトルで僕ならどういう話になるか…という話をしよう。絵のない長文だ覚悟して読め(ΦωΦ)ﾌﾌﾌ…。分散プログラミングモデルプログラミングモデルとはなんであろうか。 …CもJavaもMPIも登場していない1972年の論文を持ってこられてそれがオリジナルだみたいなこと言われてもえー…って感じで、Flynnの1972年の論文は並列計算やHPCの方面へ非常に大きな影響を与えていると思う。ただしそれはCPU内の話であって、時代が進むと共にたとえば牧野先生の日記「並列計算機のプログラミングモデル」で書かれているような議論につながるといえば繋がるには繋がるが、このレベルで計算を並列化する議論にしか応用できない。せいぜい、プログラミングモデルとひとくちにいっても様々
wyukawa 2016/02/19
分散

デザインパターン

プログラミング
リンク
HTTPとサーバ技術の最新動向
デブサミ2016登壇資料。サーバ技術の評価軸、HTTP/2、サーバプッシュ、HTTPS化の負荷、Brotli、サーバ内スクリプティングを俯瞰Read less
wyukawa 2016/02/19
HTTP

サーバ
リンク
- 2016年2月20日
- 2016年2月19日
- 2016年2月18日