サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
ドラクエ3
tug.red
本特集では、Treasure Data環境で利用可能な機械学習ライブラリHivemallを利用した機械学習の実践方法を紹介します。世界のデータサイエンティストが腕を競うデータサイエンスコンペティションサイトKaggleの中から、実践的な課題を扱っていきます。 1. はじめに 第一回は小売業の売り上げ予測するタスクであるRossmann Store Salesコンペティションを課題に用います。アルゴリズムとしては、決定木を利用したアンサンブル学習手法の一種であるRandom Forest回帰を利用します*1。 Rossmannはヨーロッパの7カ国で3,000以上の店舗を展開する薬局チェーンです。各店舗のマネージャーは6週間先までの店舗の売り上げを予測することがタスクとして課されています。各店舗の売り上げはプロモーション活動、競合要素、学校の休みや祝日、季節性、地域性など様々な要因に左右されま
トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Hadoop Conference Japan 2014 以前に告知したHadoop Conference Japan 2014で,弊社Software Architectの古橋が発表しました。 テーマは,Facebookが公開した新しい分散処理基盤,Presto。実はFacebookが彼らの超大規模なデータセットに対してインタラクティブに結果を返せるようにと開発されたものです。開発が始まってまだ2年も経っておりませんが,今ではトレジャーデータを初めとして多くのハッカー達がコミッターとして参加する活発的なプロジェクトに成長しています。 PrestoはHiveやImpalaと同じ「SQL Query Engine」であり,特に数百GBを超える大規模データに対してもインタラクティブなレスポンスを(コンマ0秒以下,遅くて
ほとんど全ての会員制サービスには,顧客の「入会」と「退会」という概念があります。そして退会(ここでは離脱と呼びます)における分析は,それを防止するという目的… 6. GA で生データに近いものを取得する 6-1. Custom Dimension,Custom Metric について Custom Dimension,Custom Metric は GA アカウントの既定の Dimension と Metric...
はじめに ほとんど全ての会員制サービスには,顧客の「入会」と「退会」という概念があります。そして退会(ここでは離脱と呼びます)における分析は,それを防止するという目的において非常に重要です。本記事ではいくつかの「離脱分析」の手法を,トレジャーデータ+スプレッドシートだけで完結でき,かつ誰もが実践できる形でご紹介します。 「離脱分析」必要な最低限のデータセット 初めの2回で紹介する手法においては,分析に必要なデータセットはシンプルで汎用的なものです。最低限必要な項目は,「ユーザーID」「入会日時」「退会日時」この3つです。また,分析実行時にサービスを継続しているユーザーは退会日時の値は入っていないことになります。 今回は後々の分析にも備えて上記の項目以外に,もう少し多くの情報を持たせたデータ(これを raw_data と呼ぶことにします)を扱っていきます。本データでは「退会日」ではなく「最終
このページを最初にブックマークしてみませんか?
『テックブログ - Arm Treasure Data』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く