A new crop of early-stage startups — along with some recent VC investments — illustrates a niche emerging in the autonomous vehicle technology sector. Unlike the companies bringing robotaxis to…
Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… (初めに書いておくと、この投稿長いです) 基本原則的なこと。 ●UPDATEは回避する 処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理
はじめに ほとんど全ての会員制サービスには,顧客の「入会」と「退会」という概念があります。そして退会(ここでは離脱と呼びます)における分析は,それを防止するという目的において非常に重要です。本記事ではいくつかの「離脱分析」の手法を,トレジャーデータ+スプレッドシートだけで完結でき,かつ誰もが実践できる形でご紹介します。 「離脱分析」必要な最低限のデータセット 初めの2回で紹介する手法においては,分析に必要なデータセットはシンプルで汎用的なものです。最低限必要な項目は,「ユーザーID」「入会日時」「退会日時」この3つです。また,分析実行時にサービスを継続しているユーザーは退会日時の値は入っていないことになります。 今回は後々の分析にも備えて上記の項目以外に,もう少し多くの情報を持たせたデータ(これを raw_data と呼ぶことにします)を扱っていきます。本データでは「退会日」ではなく「最終
本シリーズではTreasure Client ツールのコマンドラインリファレンスを以下の5つのレイヤーに分解し,各々について解説していくものとします。 No.レイヤーコマンド 1. Data Import one-time import bulk import 2. Data Management db table 3. Data Processing schema query job 4. Data Scheduling sched result 5. Other help status server sample 本日は 1. Data Import を紹介します。本シリーズでは実際にデータを使用して,その分析の流れに沿いながらコマンドラインを紹介していきます。 Treasure Platform の登録および Client Tool のインストール それでは早速サインアップを始めまし
All of Percona’s open-source software products, in one place, to download as much or as little as you need.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く