タグ

ブックマーク / wyukawa.hatenablog.com (13)

  • 「Googleのソフトウェアエンジニアリング」を読んだ - wyukawa's diary

    www.oreilly.co.jp 目次はこちら 第1部 主題 1章 ソフトウェアエンジニアリングとは何か 第2部 文化 2章 チームでうまく仕事をするには 3章 知識共有 4章 公正のためのエンジニアリング 5章 チームリーダー入門 6章 スケールするリーダー 7章 エンジニアリング生産性の計測 第3部 プロセス 8章 スタイルガイドとルール 9章 コードレビュー 10章 ドキュメンテーション 11章 テスト概観 12章 ユニットテスト 13章 テストダブル 14章 大規模テスト 15章 廃止 第4部 ツール 16章 バージョンコントロールとブランチ管理 17章 Code Search 18章 ビルドシステムとビルド哲学 19章 GoogleコードレビューツールCritique 20章 静的解析 21章 依存関係管理 22章 大規模変更 23章 継続的インテグレーション 24章 継続的

    「Googleのソフトウェアエンジニアリング」を読んだ - wyukawa's diary
  • データ民主化の負の側面 - wyukawa's diary

    データの活用が当然のことのようになってエンジニア以外でもSQL書いてデータ抽出するのが一般的になってきました。さらにデータサイエンティストの登場により高度な分析もされるようになってきて、顕在化してきたのがHadoopクラスタの無法地帯化とエンジニアの疲弊なんじゃないかと最近思っております。なおHadoopに限らずElasticsearchでも言えたりします。 これって要はユーザと管理者のバランスの問題で、Hadoopエンジニアを採用するのが難しいというのが背景にあります。 SQL書ける人はそれなりにいるけど、インフラ側の人材不足ですね。この状態でデータの民主化が進むとどうなるかというと、 クエリの数が増える -> なかにも重いクエリも結構ある -> 管理者がそれをチェックするのに疲れて放置するようになる -> クラスタの負荷が増えて障害も出るようになる -> クエリ実行にも時間かかるように

    データ民主化の負の側面 - wyukawa's diary
  • fluentdの複数実行 - wyukawa's diary

    最近fluentdを触り始めたwyukawaです。こんにちは。 今回は最近やったことについて書いてみたいと思います。まあ正確にいうと僕がやったというよりほとんど別の人がやったわけですが忘れないうちにメモっておきます。 もともとやっていたことはfluent-plugin-webhdfs経由でHDFSに書くとともにfluent-plugin-flowcounterを使ってトラフィックを計算しfluent-plugin-growthforecast経由でGrowthForecastにリクエストをなげてグラフ化するというものです。黄金パターンですね。 fluentdは内部的にはinput→buffer→outputというふうに処理が分割されています。 buffer溢れが起きると下記のようなエラーを吐きます。今回僕が経験したのはこのエラーです。 emit transaction failed err

    fluentdの複数実行 - wyukawa's diary
    yuiseki
    yuiseki 2014/06/30
  • LinuxのTCPチューニング - wyukawa's diary

    WEB系エンジニア?はLinuxのカーネルパラメータをチューニングして性能を上げたりしているようですが、その辺に興味があったのでメモっときます。正しいかどうかの確証は全くありません。あしからず。ちなみに僕自身はこの手のパフォーマンスチューニングは経験無しです。 カーネルパラメータといってもいじる項目はいろいろあるようでDB周りだと共有メモリのサイズをいじったりするんだと思いますが、今回はTCPの話です。 なおこのエントリを書くにあたってプロのための Linuxシステム構築・運用技術 (Software Design plus)の4章やLinuxカーネル2.6解読室の24章を参考にしました。 TCPチューニング関連でググってみると参考になりそうなのはこの辺。 見落としがちなLinuxのWEBチューニング | Act as Professional Hadoop徹底入門の10章でもtcp_fi

    LinuxのTCPチューニング - wyukawa's diary
  • Coders at Work プログラミングの技をめぐる探求 - wyukawa's diary

    Coders at Work プログラミングの技をめぐる探求 作者: Peter Seibel,青木靖出版社/メーカー: オーム社発売日: 2011/05/25メディア: 単行(ソフトカバー)購入: 11人 クリック: 360回この商品を含むブログ (36件) を見る 以下Amazonから抜粋 プログラマであるピーター・サイベル氏が15人の偉大なプログラマー(コーダー)から その技を聞き出すインタビュー集を、『Joel on Software』訳者の 青木靖氏が翻訳。 XEmacsとNetscapeブラウザの開発で名を馳せた――『ジェイミー・ザウィンスキー』 大学に入る前に遊びでLiveJournalを立ち上げ必要だったからmemcashedも作った――『ブラッド・フィッツパトリック』 影響力あるJavaScriptの論客にしてJSONの生みの親――『ダグラス・クロックフォード』 ごく限

    Coders at Work プログラミングの技をめぐる探求 - wyukawa's diary
    yuiseki
    yuiseki 2013/07/12
  • HBaseについての情報源 - wyukawa's diary

    クレジットカード現金化詐欺【業界人が教える口コミ情報】 の12/2分として書きます。 内容は薄いというかHBaseの情報源についてのまとめエントリです。 ■Top http://hbase.apache.org/ JIRA https://issues.apache.org/jira/browse/HBASE Subversion http://svn.apache.org/repos/asf/hbase/ ■書籍 HBase 作者: Lars George,Sky株式会社玉川竜司出版社/メーカー: オライリージャパン発売日: 2012/07/25メディア: 大型購入: 1人 クリック: 9回この商品を含むブログ (5件) を見る 通称馬。なにはさておきまずはこれ。 序盤はJava APIの解説が多いが8章がアーキテクチャの話でここがメインだと思う。 HBase in Actio

    HBaseについての情報源 - wyukawa's diary
  • 自分の手を動かし自分の頭で考えるということ - wyukawa's diary

    仕事の関係で自分が今までやったことがないことをやることになってしかもそれが新しめのことだったりすると新鮮で面白いわけですね。 で、自分なりにその技術をいろいろ調べたりしているうちにその界隈で著名な人が誰だかわかってきてTwitterでフォローしたりブログをウオッチしたりするようになります。 活発なコミュニティがあるのであれば勉強会にも顔をだして発表を聞いたり場合によっては著名な人と会話する機会もあるかもしれません。 こうしていろいろな情報を得るようになってきます。これはこれで楽しいのですが、ちょっと危うさもあるなあと最近思うようになってきました。 どういうことかというと、著名な人と会話しただけでオレつえー感を味わってしまう可能性があるからです。というか僕がそうでした。 当人はたいしたこと無いのにその著名な人がすごいからその知り合い?であるオレもすげえんだみたいに思ってしまうことです。 言う

    自分の手を動かし自分の頭で考えるということ - wyukawa's diary
    yuiseki
    yuiseki 2012/07/15
  • HadoopのMapReduceジョブのチューニングに関する資料があったのでめもっとく - wyukawa's diary

    Hadoop Summit 2012でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Summit 2012 | Optimizing MapReduce Job Performance View more PowerPoint from Cloudera, Inc. HadoopのMapReduceジョブのチューニングに関するもので、内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 spillとかのシャッフルフェーズをどうチューニングするかについて詳しく書かれていて、record fullってログに出てたらメタデータがspillしてるからよくないよねみたいなことが書かれてます。 徹底入門だと10.2.2の「Map処理でのフレームワークのチューニング」に書かれていますね。ていうかio.sort.reco

    HadoopのMapReduceジョブのチューニングに関する資料があったのでめもっとく - wyukawa's diary
    yuiseki
    yuiseki 2012/07/02
  • fluentdを試してみた - wyukawa's diary

    クレジットカード現金化詐欺【業界人が教える口コミ情報】 僕は行ってないんですがTwitter、Ustream、スライド、ブログなどを見る限りだいぶ盛り上がったようですねー。僕自身が仕事で使う予定は今のところ無いんですがログ解析関連の仕事をしていることもあるので素振りしてみようと思います。 環境はVirtualBox上のCenOS 5.7(x86_64)を使いました。 fluentdはRuby 1.9上で動くんですがCentOS 5.7に入っているのはRuby 1.8.5です。Ruby 1.9のインストールから始めるとはまりそうなのでyumでインストールできるtd-agentを使います。td-agentはfluentdの安定版パッケージという位置付けのようです。 試したのは下記3つです。 fluent-catでログを送る Apacheのアクセスログを収集 ApacheのアクセスログをMong

    fluentdを試してみた - wyukawa's diary
  • ログ解析についてつらつらと考えていること - wyukawa's diary

    ログ解析についてつらつらと考えていることを書いてみたいと思います。 Hadoopを用いたログ解析によってマーケティングを変革し売り上げを向上させようという話はよくあります。 この手の話はたいていBtoCで例としてはメールでレコメンドして商品を買ってもらうとかですね。 ログ解析がどういうフローかというと、ログを埋め込んでログを収集して蓄積して解析してそのレポートを見て何らかの施策を打つ、という感じになります。 図にするとこんな感じ 今話題沸騰中の「Fluentd」はログ収集を担当します。といいつつ僕自身はFluentd使ったことないです。記事を読んだくらいです。 ちなみにどれぐらい話題沸騰中かというとこれぐらい定員オーバーしてます。すごすぎ。 クレジットカード現金化詐欺【業界人が教える口コミ情報】 ログ埋め込みはJavaならLog4j使って埋め込んだりするでしょう。 Apacheのアクセスロ

    ログ解析についてつらつらと考えていること - wyukawa's diary
  • ログ解析飲み会 - wyukawa's diary

    10/19(水)に都内某所でログ解析飲み会なるものを開催した。 ログ解析飲み会なのにログが無いってどういうこと?と某氏に突っ込まれたので酔っぱらいの記憶をたよりに書いてみる。ここには書けないオフレコ話も多々あったように思うが忘れたので書かない。 またここに書くことは僕の脳みそで理解した部分に限るが、誤解が含まれている可能性はもちろんあるので変なことを書いていたら指摘していただけると幸いである。 で、この飲み会を開いた経緯としてはですね、僕自身がHiveを用いたログ解析をするようになって他の人の現場寄りの話を聞きたいなーと思ってTwitterで絡んでいたら大物がきたので開催した次第である。大物が誰かはマル秘事項である。一人じゃないとだけいっておこう。 世の中的にも主にWeb業界でHadoopでのBI案件が広まるにつれて、Hive, Pig, Hadoopストリーミング, 生MapReduce

    ログ解析飲み会 - wyukawa's diary
    yuiseki
    yuiseki 2011/10/21
  • Hadoopとデータサイエンティスト - wyukawa's diary

    次の仕事がHadoop関連かもしれないということで、素振りというかイメトレはじめました。 スライドはこちらがわかりやすいです。 Hadoop入門とクラウド利用 まずは下記の書籍2冊を僕はぱらぱら見ています。 Hadoop 作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2010/01/25メディア: 大型購入: 9人 クリック: 449回この商品を含むブログ (73件) を見るHadoop徹底入門 作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗出版社/メーカー: 翔泳社発売日: 2011/01/28メディア: 大型購入: 14人 クリック: 668回この商品を含むブログ (43件) を見る 違いは下記の通りです。 Hadoopに関して現在日語で読める大きな情報源として有名なのは、オライリーさんから出版されている「Had

    Hadoopとデータサイエンティスト - wyukawa's diary
    yuiseki
    yuiseki 2011/10/04
  • Hadoopの異端さが面白い - wyukawa's diary

    Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。 この分野は日だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH(クロステック) またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。 ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH(クロステック) しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。 富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH(クロステック) 日IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH

    Hadoopの異端さが面白い - wyukawa's diary
    yuiseki
    yuiseki 2011/09/05
  • 1