タグ

2012年1月22日のブックマーク (2件)

  • ログ解析についてつらつらと考えていること - wyukawa's diary

    ログ解析についてつらつらと考えていることを書いてみたいと思います。 Hadoopを用いたログ解析によってマーケティングを変革し売り上げを向上させようという話はよくあります。 この手の話はたいていBtoCで例としてはメールでレコメンドして商品を買ってもらうとかですね。 ログ解析がどういうフローかというと、ログを埋め込んでログを収集して蓄積して解析してそのレポートを見て何らかの施策を打つ、という感じになります。 図にするとこんな感じ 今話題沸騰中の「Fluentd」はログ収集を担当します。といいつつ僕自身はFluentd使ったことないです。記事を読んだくらいです。 ちなみにどれぐらい話題沸騰中かというとこれぐらい定員オーバーしてます。すごすぎ。 クレジットカード現金化詐欺【業界人が教える口コミ情報】 ログ埋め込みはJavaならLog4j使って埋め込んだりするでしょう。 Apacheのアクセスロ

    ログ解析についてつらつらと考えていること - wyukawa's diary
  • テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

    個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき