タグ

ブックマーク / treasure-data.hateblo.jp (5)

  • データ分析で大切な4つのこと:1. 「当たり前の結果」をたくさん出す事の大切さ - トレジャーデータ(Treasure Data)ブログ

    データ分析で大切な4つのこと トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 ここ数年,データの大量な蓄積とそれに対する分散並列処理が可能な環境が成熟してきました。元々はデータの蓄積やバッチの効率化といった分析バックエンド(プラットフォーム)の方にフォーカスがあてられてきましたが,やっとその先のデータ」「分析」というところ,そしてその役割を果たすデータ分析者の重要性が理解されるようになってきているように感じています。 このブームは分析者にとって非常に喜ばしいことでもあると同時に,大きなプレッシャーにもなっているような気がします。 そのプレッシャーの1つに,企画者や経営者・あるいは顧客といった結果を活用する人々(=意志決定者)の,「これだけ材料(データ)が揃っているのだから多くの課題が解決できるはずだ」という期待に応えないといけないというプレッシャーがあると思いま

    データ分析で大切な4つのこと:1. 「当たり前の結果」をたくさん出す事の大切さ - トレジャーデータ(Treasure Data)ブログ
  • 『Prestoとは何か,Prestoで何ができるか』 - トレジャーデータ(Treasure Data)ブログ

    トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Hadoop Conference Japan 2014 以前に告知したHadoop Conference Japan 2014で,弊社Software Architectの古橋が発表しました。 テーマは,Facebookが公開した新しい分散処理基盤,Presto。実はFacebookが彼らの超大規模なデータセットに対してインタラクティブに結果を返せるようにと開発されたものです。開発が始まってまだ2年も経っておりませんが,今ではトレジャーデータを初めとして多くのハッカー達がコミッターとして参加する活発的なプロジェクトに成長しています。 PrestoはHiveやImpalaと同じ「SQL Query Engine」であり,特に数百GBを超える大規模データに対してもインタラクティブなレスポンスを(コンマ0秒以下,遅くて

    『Prestoとは何か,Prestoで何ができるか』 - トレジャーデータ(Treasure Data)ブログ
  • トレジャーデータ事例集 3.「ECログ分析」 - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 事例で学ぶトレジャーデータ 20140612 from Takahiro Inoue シリーズは,紹介する3つの分野における事例を通してトレジャーデータサービスを深く理解してもらえる事を目的としています。 (事例1)「オンラインゲームソリューション (a) (b)」 (事例2)「モダンWebアナリティクス」 (事例3)「ECログ分析」 大量のデータを分析できるようになったことの大きな恩恵として「パス」や「セグメント」を柔軟に設定できる事が挙げられます。従来パスやセグメントは,その組み合わせが無数にあるために,データ量が多くないと各々のサンプル数が0になってしまい有意な比較が行えませんでした。大量データを現実時間で実行できるトレジャーデータサービスは,これらの分析を可能にしました。 今

    トレジャーデータ事例集 3.「ECログ分析」 - トレジャーデータ(Treasure Data)ブログ
  • Login(アクセス)ログからわかる12の指標 その2 - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 「Login(アクセス)ログからわかる12の指標 シリーズ」 その1,その2,その3,その4 クエリ内のTreasure UDFのリファレンスはこちら。 前回(その1)の続きです。 6. Frequency(リピート回数の分布) 特定期間におけるユーザー当たりの訪問回数の分布を見たものです。 SELECT uid, COUNT(1) AS cnt FROM ( SELECT uid FROM login GROUP BY uid ) T GROUP BY uid ORDER BY cnt 7. 継続期間の分布(単位:週) ユーザー当たりの最初のログインと最後のログインの差をとることで,ユーザーの継続期間の分布を見る事ができます。 SELECT CAST( play_term/7 AS

    Login(アクセス)ログからわかる12の指標 その2 - トレジャーデータ(Treasure Data)ブログ
  • Login(アクセス)ログからわかる12の指標 その1 - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 「Login(アクセス)ログからわかる12の指標 シリーズ」 その1,その2,その3,その4 クエリ内のTreasure UDFのリファレンスはこちら。 シリーズの主張は,例え単純な ”ログイン”(アクセス)の記録のみを取るだけでも,それにユーザーIDが付くことでトレジャーデータ上で遙かにリッチな示唆を得ることができる,ということです。 もしユーザーを識別できるサービスをお持ちでこれから分析を始めたい企業様は,きちんとそれをloginログを残すことから始めましょう。記事では「login(アクセス)ログ」というたった1種類のデータから得られる12の指標を紹介したいと思います。 定義 以下の項目で定義されるログを「loginログ」と定義し,かつ各ユーザーの登録時からこのログデータが取得

    Login(アクセス)ログからわかる12の指標 その1 - トレジャーデータ(Treasure Data)ブログ
  • 1