こんにちは、エンジニアの岡崎(@watermint)です。今回はGREEにおけるJenkinsをつかった品質管理について紹介します。 hourlyビルド 岡崎がGREEに入社したのは1年半前ですが、そのときから感じているのがGREEの開発速度は非常に速いことです。ソースコードレポジトリには多くの優秀なエンジニアが日々数百以上のコミットしています。 GREEのシステムは多くのサブシステムを組み合わせたものですが、手元の些細な変更が全く予想しない別のプロジェクトで問題を起こすことがあります。こういった問題は通常、リリース前の結合テスト等の段階で検出します。 リリース前のテストで問題が発覚すると、当然その修正をして再度修正をリリースプロセスにのせるということになるのですが、これには他のエンジニアの作業を止めてしまったりリリースの順序を調整が必要になることがあります。 こういった事態を防ぐために単
ディレクトリ。辞書順。partition はさらにサブディレクトリ。このへん、どこかにドキュメントはありませんか? Hadoop Hive - Hadoop Hive- Data Manipulation Statements EMR は、最初の入力と最後の出力にだけは、外部のストレージ(普通は S3)を利用せざるを得ないため、HDFS のローカリティが生きません。なるべく Hive の中間データを使わないようにしたいので、以下のようにすれば良いのだと思われます。 サンプルとして、下記の 3 つの入力ファイルを用意します。ここでは、カラムの区切りにはタブを使っています。 input/employees/foo.tsv10 NAKA Kiichiro 100 20 LUCAS Geroge 200 30 KANAME Madoka 100input/employees/bar.tsv40 J
Machine Learning for Hackersposted with amazlet at 12.06.06Drew Conway John Myles White Oreilly & Associates Inc 売り上げランキング: 543 Amazon.co.jp で詳細を見る Bit.lyのチーフサイエンティストの人もカンファレンスで推薦していた本だったのでバケーションやロングウィークエンドを利用して10日ほどで一気読みしました。 この本の良いところは全てのコードサンプルがRで提供されている点。他のマシーンラーニング系の本はPythonなどのスクリプト言語と併用している場合が多いのでRに興味がある人は「Pythonまで勉強するのはめんどくさい」 と思ってしまうので良いかもしれません。あとRの知識も統計学の知識も特に前提としていないので、そういう話題(例えば行列計算など)に
あの『達人に学ぶDB設計 徹底指南書』を書かれたミックさんが講演されると聞いて、Club DB2さんの勉強会に初めてお邪魔してきました。 「第146回 達人が語る こんなデータベース設計はヤダ!」 https://www.ibm.com/developerworks/wikis/display/clubdb2/146 非常に面白く、勉強になりました。せっかくなので、備忘メモをupしておきます。 (内容に誤りがあったり、もし掲載自体に問題があったりしましたら、修正・削除しますのでお知らせください。>関係各位) 本編 (追記)発表資料にリンクしました。 http://d.hatena.ne.jp/mickmack/20120714/1342246442 ミックさんが「これだけは覚えて帰ってください」とおっしゃった3つのポイントを引用します。 トレードオフ うまい話には裏がある。 物理 vs 論
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く