[B! treasure data] hohoho_ho2005のブックマーク

ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に

はじめにこれはドリコムAdventCalendar の7日目です 6日目は、keiichironaganoさんによる iTunes 使用許諾更新のとき一旦キャンセルしてほしい話です【その2】ドリコム Advent Calendar 2015 もあります自己紹介 @ka_nipan 去年のドリコムを支えるデータ分析基盤に引き続き、今年もドリコムのデータ分析基盤を担当しています。分析基盤をTreasure Dataに移行オンプレ環境の Hadoop からTreasure Data に移行しました。また、ジョブ管理ツールやBIツールといったサーバーもAmazon EC2 に移行しており、徐々にオンプレ環境を離れつつあります。背景オンプレ環境で Hadoop を運用して3年も経つと考えなければならないのが HW の寿命です。さてどうしようかとなった時に、ほぼ迷いなく外部

hohoho_ho2005 2015/12/07

リンク

第1回　ビッグデータ分析を始めよう | gihyo.jp

ビッグデータ分析エンジンを比較してみると、ビッグデータを処理する一般的なインターフェースとしてSQLが提供されていることが主となっています。こうして見ると、最近流行っているビッグデータを使った分析とは、SQLによる分析が主となっていることがわかります。さらに、他の機能を見てみると、スケジューリングや依存関係を考慮したジョブの実行、データの可視化などは分析エンジン自体は備えておらず、別途用意する利用必要があります。このように考えてみると、以下の点が気になってきます。ビッグデータ分析基盤で何をできるようにするのか？ビッグデータ分析基盤と考えたときに他にどういったツールが必要になるのか？ SQLによる集計を基にした分析ではどういったことができるのか？本稿では、ビッグデータ分析基盤を構築するために必要な分析エンジンではなく、主にその周辺のエコシステムについてを中心に紹介し、ビッグデータ分

hohoho_ho2005 2015/09/07

Treasure Data

リンク

Treasure Dataのクエリ結果を直接Amazon Redshiftに投入する | DevelopersIO

良く訓練されたWar Boys、しんやです。夏場以降、例の映画 *1にハマってしまいこれまでに映画館で6回鑑賞(V6)してしまいました。しかし世の中には8回(V8)以上の鑑賞を成し遂げている方々も居るようですのでまだまだ精進せねばならぬと思っている今日この頃です。さて、以前当ブログで Treasure DataからAmazon Redshiftへのデータ投入をtd-agentを使って行うという方法についてご紹介しました。こちらの情報でも充分便利な仕組みとなっているのですが、先日"管理コンソールの設定のみで"直接Treasure DataのデータをAmazon Redshiftに投入する手法について紹介されていましたので、当エントリでその手順を試してみたいと思います。 Treasure Data to Amazon Redshift | Treasure Data Blog 目次 Ama

hohoho_ho2005 2015/08/24

リンク

（2014年総集編2）トレジャー管理コンソールが大幅アップデート：圧倒的支持多数でコマンドライン党を圧倒 - トレジャーデータ（Treasure Data）ブログ

はじめにトレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Treasure Data Service（トレジャーデータサービス）では，サインアップを行ったあとにデータにアクセスするための2種類の手段が得られます。 A. Treasure toolbelt（コマンドライン）からのアクセス toolbeltは，Windows，Mac，Linux にインストールできるコマンドラインツールです。コマンドライン上でTreasure Data Serviceに対するさまざまな操作が可能です。Emacsなどのエディタでクエリーを作成し，td query コマンドで実行します。また，データベースの参照や実行中ジョブの閲覧などのすべての操作が可能で，コマンドラインに慣れたエンジニアなら，手元のノートPCからさくっとデータ処理ができます。sedやawkでの前処理とも連携できるこのコ

hohoho_ho2005 2014/12/27

treasure data

リンク

（2014年総集編3）アドホッククエリーの登場，大規模データセットに対しても高速なレスポンスを実現 - トレジャーデータ（Treasure Data）ブログ

はじめにトレジャーデータはクラウドでデータマネージメントサービスを提供しています。「Treasure Query Accelerator: アドホッククエリー」の登場は「クエリーを実行したその場で結果が返ってくる」という，一見当たり前のような，しかしバッチクエリーでは困難だったことを可能にしました。これによってTreasure Data Service（トレジャーデータサービス）の活用シーンが大きく広がりました。以下のテーブルはバッチ型とアドホック型の比較をしています。ここで重要なことは，双方お互いにメリット・デメリットがあるということで，必ずしもすべてのシーンでアドホック型への置き換えができないということです。バッチ型クエリー（Hive）アドホック型クエリー（Presto）言語・HiveQL (SQL Like) ・SQL-92準拠ケース・大規模な中間処理データの受け渡

hohoho_ho2005 2014/12/27

リンク

（2014年総集編4）トレジャーデータのデータ収集ツールがより多彩に：IoTやモバイル端末にも対応 - トレジャーデータ（Treasure Data）ブログ

はじめにトレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Treasure Data Service（トレジャーデータサービス）は，クラウド上の無尽蔵なカラムナストレージとバッチ型/アドホック型の分散集計クエリーを，運用管理コストを気にすることなく活用できる「データ保管」が根幹となっていますが，その前後：「データ収集」と「データ分析」においてもあらゆるケースに対応できる柔軟な方法を兼ね備えています。今回は，上図でいう「データ収集」レイヤーにおける収集方法についてご紹介します。４種類のデータ収集方法 Treasure Data Serviceの管理コンソールにログインすると，Treasure Data Collectorsの「Collect Data」タブよりアクセスすることができます。 File Upload：ブラウザ上からcsv/tsvファイルをアップロー

hohoho_ho2005 2014/12/27

treasure data

リンク

（2014年総集編1）トレジャーデータとは - トレジャーデータ（Treasure Data）ブログ

はじめにトレジャーデータはクラウドでデータマネージメントサービスを提供しています。 2014年は，トレジャーデータにとって大きな成長の年でした。また，Web，ゲーム，広告，IoT（Internet of Things："モノ"のインターネット）など，非常に多種多様な業種との連携が進みました。また，トレジャーデータの名前が知られれば知られるほど，トレジャーデータはいったいどんな会社なのか，といった疑問や理解の曖昧さも上がっていくのは必然のことです。本シリーズ：「2014年総集編」は，トレジャーデータを再認識し，Treasure Data Service（トレジャーデータサービス）の便利な機能を知り，ビッグデータ業界のトレンドを知ってもらうという意図をもっています。問題定義スマートフォンやソーシャルメディア，各種センサーの普及，拡散に伴って，増え続けるデータはすべての産業が抱える共通

hohoho_ho2005 2014/12/27

treasure data

リンク

Treasure DataのPlazmaDBを理解する - Qiita

こんにちは。Treasure Dataの斉藤です。出張中に時間ができたのでシアトル空港でこの記事を書いています。日本語でブログを書くのはものすごく久しぶりなのですが、Treasure Dataの列志向(columnar)圧縮ストレージであるPlazmaDBについて紹介していきたいと思います。 Treasure Dataでは2014年現在まで5兆(trillion)件を超えるレコードが取り込まれており、一秒あたりでは40万以上(!)のレコードを処理しています。 2013年のTwitterでは１秒あたり5,700 tweets処理していたとのことなので、その処理量の大きさが実感できるのではないでしょうか。この量のレコードをそのまま蓄積するのではストレージ量が膨大になってしまいますので、Treasure Dataではレコードを列分解し、MessagePack形式に変換＋圧縮処理を施すことでデータ

hohoho_ho2005 2014/12/15

treasure data

リンク

大規模データを確実にMySQL/Redshiftに入れる—Treasure Dataのクエリ結果書き出し機能の実装 - Qiita

こんにちは。古橋です。今日はいつものはてなブログから趣向を変えて、QiitaでTDアドベントカレンダー14日目の投稿です。 Hiveのクエリ結果をRDBに書き出したい MapReduceはメモリに収まりきらないデータをJOINしたり集計したりできる信頼性の高いアーキテクチャですが、どうしても1発のクエリを実行するのに時間がかかるので、人間がいじりながら使う可視化ツールに直接繋ぎ込むには向いていません。そこで Prestoを使って集計する方法もありますが、やはりMapReduceの方が向いているケースもあります。例えば、 Webサイトに一度は来てくれたのに、その後１週間アクセスのない人が、最後に見ていったページはどこだろう？過去にアイテムAを買った人が良く買っている別のアイテムは何だろう？（バスケット分析のクエリ例）といった、巨大テーブル同士のJOINや自己結合が必要なケースは、や

hohoho_ho2005 2014/12/14

リンク

TD & AWS連携：Treasure Dataの結果をtd-agent経由でAmazon Redshiftに直接取り込む | DevelopersIO

TD & AWS連携：Treasure Dataの結果をtd-agent経由でAmazon Redshiftに直接取り込む Treasure DataとAWSの連携は非常に注目度も高く、弊社で展開している"顧客理解のためのビッグデータ分析基盤"、『カスタマーストーリー』に於いても、構成要素の中でもTreasure Dataは重要な位置を占めています。カスタマーストーリー｜クラスメソッド株式会社そして、Treasure Data社から提供されているTreasure Agent(td-agent)では実に様々な処理を行う事が出来ます。各所で収集したログをTreasure Dataに集約する際にこのコマンドを用いているというケースが恐らく一番良く利用されている・知られているケースになると思います。 Overview of Streaming Import by Treasure Agen

hohoho_ho2005 2014/11/05

リンク

[Ruby on Rails]Treasure Dataにデータをbulk importする | DevelopersIO

はじめに前回、前々回に引き続き、Ruby on RailsにてTreasure Dataを使用する方法についてです。今回は大量のデータ(100Mを超える位？)をTreasure Dataにインポートするのに適した「bulk import」について書きたいと思います。尚、本来はコマンドラインツールであるTreasure Data ToolbeltのコマンドをRailsから呼び出す形で行います。Rails(やRuby)から実行する理由は、ログの出力やメールの送信などTreasure Data以外の機能を柔軟に実装したい場合を考慮したためです。 bulk importについて bulk importについては以下の公式ページの「Pha ses: Prepare, Upload, Perform and Commit」に分かりやすく説明されています。 Bulk Import Internal b

hohoho_ho2005 2014/07/15

リンク

データサイエンティストのためのHiveQL分析クエリテンプレートその６ - トレジャーデータ（Treasure Data）ブログ

*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。データサイエンティストのためのHiveQL分析クエリテンプレートシリーズ：その１, その２, その３, その４, その５, その６ E. リテンション分析最後はリテンションに関するクエリテンプレートです。パターン E-1：直帰率 ※ ここでは同日内に1回しかログインしなかったユーザーを「直帰」と見なします。 SELECT t2.d AS d, COUNT(1)/SUM(t2.cnt)*100 AS bounce_rate FROM ( SELECT TD_TIME_FORMAT(time, 'yyyy-MM-dd', 'JST') AS d, uid, COUNT(1) AS cnt FROM login GROUP BY TD_TIME_FORMAT(time, 'yyyy-M

hohoho_ho2005 2014/06/11

treasure data

リンク

Treasure Data Service はどのようなケースに向いているか？ - トレジャーデータ（Treasure Data）ブログ

*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。前回は Treasure Data Service が生データストレージにあげられているという前提（つまりTreasure Data Service を利用している前提）で，それとBIなどのフロントエンドをシームレスに繋ぐための中間データベースはどれが良いか，という観点でお話しました。そして TQAがどのようなものかを理解し，Redshiftとは立つレイヤーが違うことをわかって頂く事が目的でした。 Treasure Data Service はどのようなケースに向いているか？ここでは視点を変えて，現在保持しているデータの性質を考慮した上で，どのサービス（データベース）を活用したらよいかを考えます。上図は現在それぞれの企業が持っているデータに対して，データサイズスキーマ変更可能性

hohoho_ho2005 2014/05/14

treasure data

リンク

Treasure Data Service と Redshift のハイブリッドアーキテクチャ - トレジャーデータ（Treasure Data）ブログ

*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 Treasure Data Service はそれ自身がデータの収集から可視化までの一気通貫したサービスですが，他の様々なサービスと連携することによって各々の分析ニーズにマッチしたアーキテクチャを構成することができます。今回は Amazon Redshift とのハイブリッドアーキテクチャ等の具体的なケースを見て，視野を広めていきましょう。バッチ処理 Treasure Data Service は標準ではHiveQLによってクラウドストレージに集計処理を実行することができるのですがこれはいわゆる「バッチ処理」という分類で，スケジューリングされたクエリが定時的にバックエンドで集計されるものです。以前紹介したダッシュボード（上図）：MetricInsights などでは独立したウィジェ

hohoho_ho2005 2014/05/14

treasure data

リンク

Login（アクセス）ログからわかる12の指標その１ - トレジャーデータ（Treasure Data）ブログ

*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。「Login（アクセス）ログからわかる12の指標シリーズ」その１，その２，その３，その４クエリ内のTreasure UDFのリファレンスはこちら。本シリーズの主張は，例え単純な ”ログイン”（アクセス）の記録のみを取るだけでも，それにユーザーIDが付くことでトレジャーデータ上で遙かにリッチな示唆を得ることができる，ということです。もしユーザーを識別できるサービスをお持ちでこれから分析を始めたい企業様は，きちんとそれをloginログを残すことから始めましょう。本記事では「login（アクセス）ログ」というたった1種類のデータから得られる12の指標を紹介したいと思います。定義以下の項目で定義されるログを「loginログ」と定義し，かつ各ユーザーの登録時からこのログデータが取得

hohoho_ho2005 2014/05/09

treasure data

リンク

Treasure Dataでの大容量データベンチマーク - Qiita

あふれるデータ会社で、Treasure Dataを使った分析システムを作っている。ゲーム情報を収集して、ユーザーの体験向上に役立てるためだ。そのため、ユーザーの行動を細かく把握する必要がある。勢いデータ容量は増えてしまう。加えて、オンラインのゲームは、パッケージゲームと違い売って終わりではなく、その後何年にも渡って、サービスを提供する。そのため、ユーザーの行動ログは数億件に達することも珍しくない。 Treasure Dataでのログ分析先に書いたが、大量のログに対応するため、hadoopを利用した問題解決が様々な企業から提供され始めている。タイトルに有るTreasure Dataもその企業の一つだ。こちらからは、ログを送るだけでhadoopやhiveを用いた分析環境を提供してくれる。一方で、こちらが分析機材を用意するわけではないため、どのくらいの速度で分析できるかわからない。特に複雑な

hohoho_ho2005 2013/10/23

リンク

SIOS　ビッグデータ技術ブログ: TreasureDataのtd import:prepare機能の比較検証

まだまだ暑さは続いておりますが、いかがお過ごしでしょうか。 SSTDの高橋です。先日、データサイエンティスト養成読本を個人的に購入しました。まだ読み終わってはいませんが、せっかく購入したので、こちらの「Data Scientist Casual Talk in 白金台」に参加する予定です。参加される方はどうぞよろしくお願い致します。書籍自体はログ収集からログ解析まで幅広い内容をサポートしているので、非常に勉強になりそうです。また、書籍内でも紹介されているfluentdは、過去のブログ記事でも紹介したことがありましたが、リアルタイムログ収集ツールとして非常に有用です。そのため、今後の本ブログでも詳しく紹介していきたいと思います。さて、それではブログの内容に入ります。今回は、tdの0.10.84から実装されたtd import機能について紹介していきます。 td import機能と

hohoho_ho2005 2013/09/04

treasure data

リンク

Treasure Data - naoyaのはてなダイアリー

少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日本人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない･･･ようにも見える。今日はその辺から少し紹介していこうかなと思う。

hohoho_ho2005 2013/08/31

リンク

SIOS　ビッグデータ技術ブログ: Treasure DataにおけるHiveQLのTips

こんにちは、今回のブログ担当高橋です。本題とは逸れますが、ビッグデータに関連するトレンドとして、M2M(Machine to Machine)やIoT(Internet of Things)と呼ばれる技術があります。 SIOSビッグデータチームとしても、これらの技術によって大量に収集されるデータには注目しています。これらの技術を個人で実現可能なプログラマブルデバイスとして、ArduinoやRaspberry Piが普及してきています。特に、Arduinoは、接触センサや赤外センサなど各種センサを実装でき、なおかつBluetoothやZigBeeなどの通信モジュールの実装も可能です。例えば、複数台のArduinoを組み合わせて自宅内センサネットワークを構築し、日常生活の見える化ができたら楽しそうですね。こうしたビッグデータを生み出す様々なアイデアを実現するために、私たちも日々、ビ

hohoho_ho2005 2013/08/22

リンク

SIOS　ビッグデータ技術ブログ: Treasure Data - JDBC Driver

こんにちは、二日連続でSSTDの大村です。昨日は新社屋に舞い上がってビッグデータと何の関係もない記事を出してしまいましたので、今日はこちらのページのJDCB Driverのサンプルを実行してみた様子を紹介します。ダウンロードまずはJDBC Driverをダウンロードします。 JDBC Driver Download(2013/04/12 v0.2.2) 今回はダウンロードしたファイルを「C:\td\」の下に置きます。 treasure-data.propertiesの準備 notepad.exeなどでファイルを作成し、下記の２行をC:\td\treasure-data.propertiesに保存します。 td.logger.agentmode=false td.api.key={td apikey:showで取得できるキー} JDBCSample.javaの準備本家のJDBCSamp

hohoho_ho2005 2013/08/22

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

treasure dataに関するhohoho_ho2005のブックマーク (30)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス