タグ

ブックマーク / wyukawa.hatenablog.com (2)

  • ログ解析における統計値の妥当性 - wyukawa's diary

    ログ解析における統計値の妥当性をどうやって担保するのかは難しい問題だと思っていてぶっちゃけ最終的にはオレを信じろ、でも間違ってたらゴメンの世界な気がする。 社内で閉じていて外に出ない統計値ならまあいいんだけど、世の中そんな統計値ばかりではない。 例えばWebサービスを展開していてそこに広告を出稿してもらって売り上げをたてたいとする。広告を出す方としてはそのサイトにどれぐらいPV/UUがあるか知りたいと思うのは当然ですよね。 広告を出したら出したでインプレッション数が知りたいとかあるかもしれない。 このような統計値はログを集めて集計することによって求めるわけなんだけど、数値が正しいかどうかをどうチェックするかというのは難しい問題ですよね。 来ならいろんなバリエーションのテストデータを作ってテストするんでしょうけど、テストデータ作るの大変だし、このビッグデータ時代?にはどんなデータが来るかわ

    ログ解析における統計値の妥当性 - wyukawa's diary
  • ログ解析についてつらつらと考えていること - wyukawa's diary

    ログ解析についてつらつらと考えていることを書いてみたいと思います。 Hadoopを用いたログ解析によってマーケティングを変革し売り上げを向上させようという話はよくあります。 この手の話はたいていBtoCで例としてはメールでレコメンドして商品を買ってもらうとかですね。 ログ解析がどういうフローかというと、ログを埋め込んでログを収集して蓄積して解析してそのレポートを見て何らかの施策を打つ、という感じになります。 図にするとこんな感じ 今話題沸騰中の「Fluentd」はログ収集を担当します。といいつつ僕自身はFluentd使ったことないです。記事を読んだくらいです。 ちなみにどれぐらい話題沸騰中かというとこれぐらい定員オーバーしてます。すごすぎ。 クレジットカード現金化詐欺【業界人が教える口コミ情報】 ログ埋め込みはJavaならLog4j使って埋め込んだりするでしょう。 Apacheのアクセスロ

    ログ解析についてつらつらと考えていること - wyukawa's diary
    shibacow
    shibacow 2012/01/22
    ビックデータの有効利用
  • 1