タグ

treasure dataに関するhohoho_ho2005のブックマーク (30)

  • ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に

    はじめに これは ドリコムAdventCalendar の7日目です 6日目は、keiichironaganoさんによる iTunes 使用許諾更新のとき一旦キャンセルしてほしい話 です 【その2】ドリコム Advent Calendar 2015 もあります 自己紹介 @ka_nipan 去年の ドリコムを支えるデータ分析基盤 に引き続き、今年もドリコムのデータ分析基盤を担当しています。 分析基盤をTreasure Dataに移行 オンプレ環境の Hadoop からTreasure Data に移行しました。 また、ジョブ管理ツールやBIツールといったサーバーもAmazon EC2 に移行しており、 徐々にオンプレ環境を離れつつあります。 背景 オンプレ環境で Hadoop を運用して3年も経つと考えなければならないのが HW の寿命です。 さてどうしようかとなった時に、ほぼ迷いなく外部

    ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に
  • 第1回 ビッグデータ分析を始めよう | gihyo.jp

    ビッグデータ分析エンジンを比較してみると、ビッグデータを処理する一般的なインターフェースとしてSQLが提供されていることが主となっています。こうして見ると、最近流行っているビッグデータを使った分析とは、SQLによる分析が主となっていることがわかります。 さらに、他の機能を見てみると、スケジューリングや依存関係を考慮したジョブの実行、データの可視化などは分析エンジン自体は備えておらず、別途用意する利用必要があります。 このように考えてみると、以下の点が気になってきます。 ビッグデータ分析基盤で何をできるようにするのか? ビッグデータ分析基盤と考えたときに他にどういったツールが必要になるのか? SQLによる集計を基にした分析ではどういったことができるのか? 稿では、ビッグデータ分析基盤を構築するために必要な分析エンジンではなく、主にその周辺のエコシステムについてを中心に紹介し、ビッグデータ分

    第1回 ビッグデータ分析を始めよう | gihyo.jp
  • Treasure Dataのクエリ結果を直接Amazon Redshiftに投入する | DevelopersIO

    良く訓練されたWar Boys、しんやです。夏場以降、例の映画 *1にハマってしまいこれまでに映画館で6回鑑賞(V6)してしまいました。しかし世の中には8回(V8)以上の鑑賞を成し遂げている方々も居るようですのでまだまだ精進せねばならぬと思っている今日この頃です。 さて、以前当ブログで Treasure DataからAmazon Redshiftへのデータ投入をtd-agentを使って行う という方法についてご紹介しました。こちらの情報でも充分便利な仕組みとなっているのですが、先日"管理コンソールの設定のみで"直接Treasure DataのデータをAmazon Redshiftに投入する手法について紹介されていましたので、当エントリでその手順を試してみたいと思います。 Treasure Data to Amazon Redshift | Treasure Data Blog 目次 Ama

    Treasure Dataのクエリ結果を直接Amazon Redshiftに投入する | DevelopersIO
  • (2014年総集編2)トレジャー管理コンソールが大幅アップデート:圧倒的支持多数でコマンドライン党を圧倒 - トレジャーデータ(Treasure Data)ブログ

    はじめに トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Treasure Data Service(トレジャーデータサービス)では,サインアップを行ったあとにデータにアクセスするための2種類の手段が得られます。 A. Treasure toolbelt(コマンドライン)からのアクセス toolbeltは,WindowsMacLinux にインストールできるコマンドラインツールです。コマンドライン上でTreasure Data Serviceに対するさまざまな操作が可能です。Emacsなどのエディタでクエリーを作成し,td query コマンドで実行します。また,データベースの参照や実行中ジョブの閲覧などのすべての操作が可能で,コマンドラインに慣れたエンジニアなら,手元のノートPCからさくっとデータ処理ができます。sedやawkでの前処理とも連携できるこのコ

    (2014年総集編2)トレジャー管理コンソールが大幅アップデート:圧倒的支持多数でコマンドライン党を圧倒 - トレジャーデータ(Treasure Data)ブログ
  • (2014年総集編3)アドホッククエリーの登場,大規模データセットに対しても高速なレスポンスを実現 - トレジャーデータ(Treasure Data)ブログ

    はじめに トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 「Treasure Query Accelerator: アドホッククエリー」の登場は「クエリーを実行したその場で結果が返ってくる」という,一見当たり前のような,しかしバッチクエリーでは困難だったことを可能にしました。これによってTreasure Data Service(トレジャーデータサービス)の活用シーンが大きく広がりました。以下のテーブルはバッチ型とアドホック型の比較をしています。ここで重要なことは,双方お互いにメリット・デメリットがあるということで,必ずしもすべてのシーンでアドホック型への置き換えができないということです。 バッチ型クエリー (Hive)アドホック型クエリー (Presto) 言語 ・HiveQL (SQL Like) ・SQL-92準拠 ケース ・大規模な中間処理データの受け渡

    (2014年総集編3)アドホッククエリーの登場,大規模データセットに対しても高速なレスポンスを実現 - トレジャーデータ(Treasure Data)ブログ
  • (2014年総集編4)トレジャーデータのデータ収集ツールがより多彩に:IoTやモバイル端末にも対応 - トレジャーデータ(Treasure Data)ブログ

    はじめに トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 Treasure Data Service(トレジャーデータサービス)は,クラウド上の無尽蔵なカラムナストレージとバッチ型/アドホック型の分散集計クエリーを,運用管理コストを気にすることなく活用できる「データ保管」が根幹となっていますが,その前後:「データ収集」と「データ分析」においてもあらゆるケースに対応できる柔軟な方法を兼ね備えています。 今回は,上図でいう「データ収集」レイヤーにおける収集方法についてご紹介します。 4種類のデータ収集方法 Treasure Data Serviceの管理コンソールにログインすると,Treasure Data Collectorsの「Collect Data」タブよりアクセスすることができます。 File Upload:ブラウザ上からcsv/tsvファイルをアップロー

    (2014年総集編4)トレジャーデータのデータ収集ツールがより多彩に:IoTやモバイル端末にも対応 - トレジャーデータ(Treasure Data)ブログ
  • (2014年総集編1)トレジャーデータとは - トレジャーデータ(Treasure Data)ブログ

    はじめに トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 2014年は,トレジャーデータにとって大きな成長の年でした。また,Web,ゲーム,広告,IoT(Internet of Things:"モノ"のインターネット)など,非常に多種多様な業種との連携が進みました。 また,トレジャーデータの名前が知られれば知られるほど,トレジャーデータはいったいどんな会社なのか,といった疑問や理解の曖昧さも上がっていくのは必然のことです。 シリーズ:「2014年総集編」は,トレジャーデータを再認識し,Treasure Data Service(トレジャーデータサービス)の便利な機能を知り,ビッグデータ業界のトレンドを知ってもらうという意図をもっています。 問題定義 スマートフォンやソーシャルメディア,各種センサーの普及,拡散に伴って,増え続けるデータはすべての産業が抱える共通

    (2014年総集編1)トレジャーデータとは - トレジャーデータ(Treasure Data)ブログ
  • Treasure DataのPlazmaDBを理解する - Qiita

    こんにちは。Treasure Dataの斉藤です。出張中に時間ができたのでシアトル空港でこの記事を書いています。日語でブログを書くのはものすごく久しぶりなのですが、Treasure Dataの列志向(columnar)圧縮ストレージであるPlazmaDBについて紹介していきたいと思います。 Treasure Dataでは2014年現在まで5兆(trillion)件を超えるレコードが取り込まれており、一秒あたりでは40万以上(!)のレコードを処理しています。 2013年のTwitterでは1秒あたり5,700 tweets処理していたとのことなので、その処理量の大きさが実感できるのではないでしょうか。この量のレコードをそのまま蓄積するのではストレージ量が膨大になってしまいますので、Treasure Dataではレコードを列分解し、MessagePack形式に変換+圧縮処理を施すことでデータ

    Treasure DataのPlazmaDBを理解する - Qiita
  • 大規模データを確実にMySQL/Redshiftに入れる—Treasure Dataのクエリ結果書き出し機能の実装 - Qiita

    こんにちは。古橋です。今日はいつものはてなブログから趣向を変えて、QiitaでTDアドベントカレンダー14日目の投稿です。 Hiveのクエリ結果をRDBに書き出したい MapReduceはメモリに収まりきらないデータをJOINしたり集計したりできる信頼性の高いアーキテクチャですが、どうしても1発のクエリを実行するのに時間がかかるので、人間がいじりながら使う可視化ツールに直接繋ぎ込むには向いていません。 そこで Prestoを使って集計する 方法もありますが、やはりMapReduceの方が向いているケースもあります。例えば、 Webサイトに一度は来てくれたのに、その後1週間アクセスのない人が、最後に見ていったページはどこだろう? 過去にアイテムAを買った人が良く買っている別のアイテムは何だろう? (バスケット分析のクエリ例) といった、巨大テーブル同士のJOINや自己結合が必要なケースは、や

    大規模データを確実にMySQL/Redshiftに入れる—Treasure Dataのクエリ結果書き出し機能の実装 - Qiita
  • TD & AWS連携:Treasure Dataの結果をtd-agent経由でAmazon Redshiftに直接取り込む | DevelopersIO

    TD & AWS連携:Treasure Dataの結果をtd-agent経由でAmazon Redshiftに直接取り込む Treasure DataとAWSの連携は非常に注目度も高く、弊社で展開している"顧客理解のためのビッグデータ分析基盤"、『カスタマーストーリー』に於いても、構成要素の中でもTreasure Dataは重要な位置を占めています。 カスタマーストーリー | クラスメソッド株式会社 そして、Treasure Data社から提供されているTreasure Agent(td-agent)では実に様々な処理を行う事が出来ます。各所で収集したログをTreasure Dataに集約する際にこのコマンドを用いているというケースが恐らく一番良く利用されている・知られているケースになると思います。 Overview of Streaming Import by Treasure Agen

    TD & AWS連携:Treasure Dataの結果をtd-agent経由でAmazon Redshiftに直接取り込む | DevelopersIO
  • [Ruby on Rails]Treasure Dataにデータをbulk importする | DevelopersIO

    はじめに 前回、前々回に引き続き、Ruby on RailsにてTreasure Dataを使用する方法についてです。今回は大量のデータ(100Mを超える位?)をTreasure Dataにインポートするのに適した「bulk import」について書きたいと思います。 尚、来はコマンドラインツールであるTreasure Data ToolbeltのコマンドをRailsから呼び出す形で行います。Rails(やRuby)から実行する理由は、ログの出力やメールの送信などTreasure Data以外の機能を柔軟に実装したい場合を考慮したためです。 bulk importについて bulk importについては以下の公式ページの「Phases: Prepare, Upload, Perform and Commit」に分かりやすく説明されています。 Bulk Import Internal b

    [Ruby on Rails]Treasure Dataにデータをbulk importする | DevelopersIO
  • データサイエンティストのためのHiveQL分析クエリテンプレート その6 - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 データサイエンティストのためのHiveQL分析クエリテンプレートシリーズ: その1, その2, その3, その4, その5, その6 E. リテンション分析 最後はリテンションに関するクエリテンプレートです。 パターン E-1:直帰率 ※ ここでは同日内に1回しかログインしなかったユーザーを「直帰」と見なします。 SELECT t2.d AS d, COUNT(1)/SUM(t2.cnt)*100 AS bounce_rate FROM ( SELECT TD_TIME_FORMAT(time, 'yyyy-MM-dd', 'JST') AS d, uid, COUNT(1) AS cnt FROM login GROUP BY TD_TIME_FORMAT(time, 'yyyy-M

    データサイエンティストのためのHiveQL分析クエリテンプレート その6 - トレジャーデータ(Treasure Data)ブログ
  • Treasure Data Service はどのようなケースに向いているか? - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 前回は Treasure Data Service が生データストレージにあげられているという前提(つまりTreasure Data Service を利用している前提)で,それとBIなどのフロントエンドをシームレスに繋ぐための中間データベースはどれが良いか,という観点でお話しました。そして TQAがどのようなものかを理解し,Redshiftとは立つレイヤーが違うことをわかって頂く事が目的でした。 Treasure Data Service はどのようなケースに向いているか? ここでは視点を変えて,現在保持しているデータの性質を考慮した上で,どのサービス(データベース)を活用したらよいかを考えます。 上図は現在それぞれの企業が持っているデータに対して, データサイズ スキーマ変更可能性

    Treasure Data Service はどのようなケースに向いているか? - トレジャーデータ(Treasure Data)ブログ
  • Treasure Data Service と Redshift のハイブリッドアーキテクチャ - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 Treasure Data Service はそれ自身がデータの収集から可視化までの一気通貫したサービスですが,他の様々なサービスと連携することによって各々の分析ニーズにマッチしたアーキテクチャを構成することができます。今回は Amazon Redshift とのハイブリッドアーキテクチャ等の具体的なケースを見て,視野を広めていきましょう。 バッチ処理 Treasure Data Service は標準ではHiveQLによってクラウドストレージに集計処理を実行することができるのですがこれはいわゆる「バッチ処理」という分類で,スケジューリングされたクエリが定時的にバックエンドで集計されるものです。 以前紹介したダッシュボード(上図):MetricInsights などでは独立したウィジェ

    Treasure Data Service と Redshift のハイブリッドアーキテクチャ - トレジャーデータ(Treasure Data)ブログ
  • Login(アクセス)ログからわかる12の指標 その1 - トレジャーデータ(Treasure Data)ブログ

    *トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。 「Login(アクセス)ログからわかる12の指標 シリーズ」 その1,その2,その3,その4 クエリ内のTreasure UDFのリファレンスはこちら。 シリーズの主張は,例え単純な ”ログイン”(アクセス)の記録のみを取るだけでも,それにユーザーIDが付くことでトレジャーデータ上で遙かにリッチな示唆を得ることができる,ということです。 もしユーザーを識別できるサービスをお持ちでこれから分析を始めたい企業様は,きちんとそれをloginログを残すことから始めましょう。記事では「login(アクセス)ログ」というたった1種類のデータから得られる12の指標を紹介したいと思います。 定義 以下の項目で定義されるログを「loginログ」と定義し,かつ各ユーザーの登録時からこのログデータが取得

    Login(アクセス)ログからわかる12の指標 その1 - トレジャーデータ(Treasure Data)ブログ
  • Treasure Dataでの大容量データベンチマーク - Qiita

    あふれるデータ 会社で、Treasure Dataを使った分析システムを作っている。ゲーム情報を収集して、ユーザーの体験向上に役立てるためだ。そのため、ユーザーの行動を細かく把握する必要がある。勢いデータ容量は増えてしまう。加えて、オンラインのゲームは、パッケージゲームと違い売って終わりではなく、その後何年にも渡って、サービスを提供する。そのため、ユーザーの行動ログは数億件に達することも珍しくない。 Treasure Dataでのログ分析 先に書いたが、大量のログに対応するため、hadoopを利用した問題解決が様々な企業から提供され始めている。タイトルに有るTreasure Dataもその企業の一つだ。こちらからは、ログを送るだけでhadoopやhiveを用いた分析環境を提供してくれる。一方で、こちらが分析機材を用意するわけではないため、どのくらいの速度で分析できるかわからない。特に複雑な

    Treasure Dataでの大容量データベンチマーク - Qiita
  • SIOS ビッグデータ技術ブログ: TreasureDataのtd import:prepare機能の比較検証

    まだまだ暑さは続いておりますが、いかがお過ごしでしょうか。 SSTDの高橋です。 先日、データサイエンティスト養成読を個人的に購入しました。 まだ読み終わってはいませんが、せっかく購入したので、こちらの「Data Scientist Casual Talk in 白金台」に参加する予定です。 参加される方はどうぞよろしくお願い致します。 書籍自体はログ収集からログ解析まで幅広い内容をサポートしているので、非常に勉強になりそうです。また、書籍内でも紹介されているfluentdは、過去のブログ記事でも紹介したことがありましたが、リアルタイムログ収集ツールとして非常に有用です。そのため、今後のブログでも詳しく紹介していきたいと思います。 さて、それではブログの内容に入ります。 今回は、tdの0.10.84から実装されたtd import機能について紹介していきます。 td import機能と

    SIOS ビッグデータ技術ブログ: TreasureDataのtd import:prepare機能の比較検証
  • Treasure Data - naoyaのはてなダイアリー

    少し前にログの話を書いた http://d.hatena.ne.jp/naoya/20130219/1361262854 ときに、Treasure Data については後日にもう少し詳細に書くと言ったので書くとしよう。 近頃 Treasure Data (以下、時折 TD) という名前をちらほら聞いたことがある人は多いのではないかと思います。「ビッグデータのクラウドサービスである」とか「日人が創業したシリコンバレーのベンチャー」、あるいは Yahoo! 創業者の Jerry Yang が投資したとか、Fluentd と何か関係があるといった文脈などなど。 けど、具体的に Treasure Data がどういうサービスで、どういう機能を持っていて、どんな場面で利用されるものなのかはまだあまり良く知られていないかもしれない・・・ようにも見える。今日はその辺から少し紹介していこうかなと思う。

    Treasure Data - naoyaのはてなダイアリー
  • SIOS ビッグデータ技術ブログ: Treasure DataにおけるHiveQLのTips

    こんにちは、今回のブログ担当 高橋です。 題とは逸れますが、ビッグデータに関連するトレンドとして、M2M(Machine to Machine)やIoT(Internet of Things)と呼ばれる技術があります。 SIOSビッグデータチームとしても、これらの技術によって大量に収集されるデータには注目しています。 これらの技術を個人で実現可能なプログラマブルデバイスとして、ArduinoやRaspberry Piが普及してきています。 特に、Arduinoは、接触センサや赤外センサなど各種センサを実装でき、なおかつBluetoothやZigBeeなどの通信モジュールの実装も可能です。 例えば、複数台のArduinoを組み合わせて自宅内センサネットワークを構築し、日常生活の見える化ができたら楽しそうですね。 こうしたビッグデータを生み出す様々なアイデアを実現するために、私たちも日々、ビ

    SIOS ビッグデータ技術ブログ: Treasure DataにおけるHiveQLのTips
  • SIOS ビッグデータ技術ブログ: Treasure Data - JDBC Driver

    こんにちは、二日連続でSSTDの大村です。昨日は新社屋に舞い上がってビッグデータと何の関係もない記事を出してしまいましたので、今日はこちらのページのJDCB Driverのサンプルを実行してみた様子を紹介します。 ダウンロード まずはJDBC Driverをダウンロードします。 JDBC Driver Download(2013/04/12 v0.2.2) 今回はダウンロードしたファイルを「C:\td\」の下に置きます。 treasure-data.propertiesの準備 notepad.exeなどでファイルを作成し、下記の2行をC:\td\treasure-data.propertiesに保存します。 td.logger.agentmode=false td.api.key={td apikey:showで取得できるキー} JDBCSample.javaの準備 家のJDBCSamp

    SIOS ビッグデータ技術ブログ: Treasure Data - JDBC Driver