タグ

ブックマーク / www.cyberagent.co.jp (4)

  • InfluxDBを用いたリアルタイム時系列データ通達システムの開発 | 株式会社サイバーエージェント

    業務経歴: 2013年株式会社サイバーエージェント新卒入社。入社よりサービス向けのストリーミングプロセッシングシステムの改修・保守に従事。現在はリアルタイムログ収集基盤の開発・運用を担当。 概要 ビッグデータが叫ばれている昨今、Webアプリケーションのログから得られた情報を用いてユーザの行動の解析を行う事で知見を得ようとする試みが多くなされている。 また時々刻々と流れるデータに対して従来のバッチ処理だけではなく、ストリーミング処理の需要が高まっている。 ログデータをリアルタイムに転送するソフトウェアとしてApach Flumeがあり、また時系列データベースとしてInfluxDBが注目を集めている。 今回、Apache Flumeを用いてInfluxDBにログデータをリアルタイムに流すモジュールを開発し容易に時系列データを保存することを可能にした。  またZookeeperを用いてデータ

  • PageRankアルゴリズムを使った人事評価実験 | 株式会社サイバーエージェント

    2-2-1.一般的な360度評価による評価方法 問題点 一般的に評価プロセスが公開されていないため、最終評価までのプロセスが不透明である 全員が全員を評価するのは多数の社員がいる場合は不可能である ランダム抽出によるお互いの評価を行うと、まったく違う専門分野を評価したり、まったく関わりあいのない人を評価することになり精度が下がる 2-2-2.専門分野での評価者による評価方法 問題点 *評価者になる人材の不足 高い専門スキル、会社とのビジョンマッチ、メンバーからのその専門分野での高い信頼の全てを備えている人材が専門分野毎に必要。 さらに、評価の納得性を保つためにはメンバーからの信頼がある人材ではないと評価できない。 *評価者によって評価ポイントの違いがある 同じ分野の技術者でも、スキルの価値をどこに置いているかというスタンスの違いから評価ポイントにゆらぎが発生する。 さらに評価者自体

    koemu
    koemu 2013/11/07
    視点は面白いと思う。ただ、概要とまとめはそれとわかるようにもっと簡潔かつ明確に書いて欲しい。特に、概要は今のだとよくわからない。
  • MySQL to HBase Heterogeneous Replication【実装編】 | 株式会社サイバーエージェント

    概要 Hadoopを用いたログ集計基盤は次第に整備されつつあるが,集計にはユーザなどのいわゆるマスタデータ(会員登録情報,プロフィール情報など)とのJOINが必要とされることが多い. しかしながら,(特にAmebaサービスでは)マスタデータはMySQLに保存されていることが多く,さらにHDFSには追記処理しかできない(特定行の削除などができない)ためマスタデータをMySQLからダンプコマンドにより全データ取得し,HDFS上のファイルを置き換えるという非効率な処理に陥りがちである. そこで,MySQLからHadoop(HDFS)をベースとしながら,ランダムリード/ライトが可能なHBaseにデータレプリケーションが可能となれば非常に便利である. 稿では「MySQL to HBase Heterogeneous Replication【第一報】」に続き,実際にMySQLからHBaseへのヘ

  • 【CyberAgent】技術情報/TechReport - テックレポート/FlumeとGrowthForecastを使ったリアルタイムログ解析 | 株式会社サイバーエージェント

    1. 概要 行動ログの分析が日増しに重要度を増していく中で、時間ごとの定期バッチでの処理ではなくリアルタイムな解析が今必要とされている。この要望に対して、リアルタイムログ収集ツールである「Flume」とWebAPIを利用したグラフ化ツール「GrowthForecast」を組み合わせてリアルタイムログ解析システムを構築した。その結果、これらの組み合わせでのシステム導入が容易であることがわかった。また、実際にブログ閲覧のPVを元に、そのアクセスの差分を取ったグラフを作成した結果、急激なアクセス増加の兆候を得られる可能性があることが示した。導入のハードルの低さとカスタマイズの自由度から、将来的に多数のシステムに導入できると私は考える。論文では、これらの詳細をレポートする。 2. 目次 3. 序論 最初に研究の動機となった背景を述べ、解決するために選んだツールについて、その選択した理由と内容に

  • 1