タグ

Treasure Dataに関するkimutanskのブックマーク (16)

  • 「データドリブン開発時代の技術とその選びかた」:デブサミレポート - トレジャーデータ(Treasure Data)ブログ

    はじめに 2015/10/14 にデータエンジニアのためのビッグイベント,Developers Summit Autumn が開催されました。今回のテーマは「データを巡るテクノロジーの冒険」 ,データ関連のテクノロジーにフォーカスしています。このイベントに弊社のソフトウェアエンジニアである田籠(@tagomoris)が登壇しました。今回は彼の発表内容について,多くの皆様に知ってもらうべく,解説していきます。 トレジャーデータ 田籠 聡 【データドリブン開発時代の技術とその選びかた】 Data-Driven Development Era and Its Technologies from SATOSHI TAGOMORI 要旨 ビッグデータやデータサイエンスといった用語が頻繁に用いられるようになって久しくなりました。データを中心とした開発も実際に各企業で行われるようになっておりそれはますま

    「データドリブン開発時代の技術とその選びかた」:デブサミレポート - トレジャーデータ(Treasure Data)ブログ
    kimutansk
    kimutansk 2015/10/23
    「What」をまずは明確にし、その後手段考えるのはフルマネージから完全自前まで幅広く手段がそろったからこそ実践できる感がありますね。
  • 【後編】トレジャーデータCTOと紐解く。日米で異なるCTOの役割とは?

    <前編のあらすじと後編のお話> 企画のホストである伊藤直也氏(以下「naoya」)が広尾の寿司屋に招いたのは、現在『トレジャーデータ株式会社』のCTOとして活躍している太田一樹氏(以下「kzk」)。弱冠20歳にしてCTOとしてのキャリアをスタートさせ、様々な出会いを経てシリコンバレーでの起業を果たしたkzk氏だが、決して常に順風満帆だったわけではなく、資金調達に奔走し、「寝られなくなるくらい辛かった」という過去もあったのであるー―。 ⇒【前編】の記事はこちら 【後編】となる今回は、セールス主導の会社と決め、様々な施策を行っているリアルな話や、日米のカルチャーギャップに悩まれている現状、そしてそもそもkzk氏のポジションは日でいうCTOではない?など興味深い内容が次々と明らかにされていきます。そして、久しぶりの帰国というkzk氏をもてなすべく、いよいよ絶品の握りも登場します。 — nao

    kimutansk
    kimutansk 2015/08/04
    「プロダクトは顧客のモノ」と。いい言葉ですね。やたらとレベルや敷居が高そう、というか実際に高いということは事実だとは思いますが。
  • How to create Treasure Data #dotsbigdata

    This document provides an overview of Treasure Data's big data analytics platform. It discusses how Treasure Data ingests and processes large amounts of schema-less data from various sources in real-time and at scale. It also describes how Treasure Data stores and indexes the data for fast querying using SQL interfaces while maintaining schema flexibility.Read less

    How to create Treasure Data #dotsbigdata
    kimutansk
    kimutansk 2015/08/01
    S3を用いた結果整合性確保は実際に内容聞いてみたかったですね。とりあえずはs3mperのGitHubは読んでおきますか。
  • (新機能)「Data Connector for Amazon S3」によるデータロード革命 - トレジャーデータ(Treasure Data)ブログ

    はじめに トレジャーデータでは,あらゆるデータソースにリーチするデータ収集ツールを用意していますが,新しい収集機能として「Data Connector」を順次リリースする予定です。 ↑ 従来の収集ツールに関しては過去記事をご覧下さい。 何が新しいのか? さて,今回紹介する「Data Connector for Amazon S3」はその名の通り,Amazon S3上のデータをトレジャーデータに設定のみで「バルクデータロード」する機能です。この機能は先日オープンソースとしてリリースされた Embulk をベースにしたものです。 Embulk については以下の過去記事をご参照ください。 従来の Bulk Import 機能は「Client to Server」型 従来のトレジャーデータの「バルクインポート」機能は,クライアント上の巨大なデータに対して,トレジャーデータへ安全かつ効率良く実行する

    (新機能)「Data Connector for Amazon S3」によるデータロード革命 - トレジャーデータ(Treasure Data)ブログ
    kimutansk
    kimutansk 2015/06/24
    TD内でEmbulkのWorkerを起動してインポート可能になりましたか。外部からアクセス可能なものは将来的に一通りこれでカバーされる感じですかね。
  • Presto As A Service - Treasure DataでのPresto運用事例

    2. 自己紹介 Taro L. Saito @taroleo •  2002 東京大学 理学部 情報科学科卒 •  2007 Ph.D. –  XMLデータベース、トランザクション処理の研究 •  ~ 2014 東京大学 情報生命科学専攻 助教 –  ゲノムサイエンス研究 •  大規模データ処理、並列・分散コンピューティング •  2014.3月~ Treasure Data –  ソフトウェアエンジニア MPP Team Leader (Presto) 2

    Presto As A Service - Treasure DataでのPresto運用事例
    kimutansk
    kimutansk 2015/04/27
    G1GCに、メモリはシステムメモリの8割ほどと。バッチジョブタイプのプロセスにはG1の方がいいんですかね。
  • Treasure Data and AWS - Developers.io 2015

    This document discusses Treasure Data's data architecture. It describes how Treasure Data collects and imports log data using Fluentd. The data is stored in columnar format in S3 and metadata is stored in PostgreSQL. Treasure Data uses Presto to enable fast analytics on the large datasets. The document provides details on the import process, storage, partitioning, and optimizations to improve quer

    Treasure Data and AWS - Developers.io 2015
    kimutansk
    kimutansk 2015/03/29
    S3のEventual Consistencyへの対応、非常にベタな方法で実施していたんですね・・後ユーザエラー/リソース不足/内部エラーの区別による分類は基本ですが重要ですね
  • Treasure Data Tech Talk #1 開催報告 - トレジャーデータ(Treasure Data)ブログ

    トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 3月11日と12日の二日間で、Treasure Dataのエンジニアによるイベント Treasure Data Tech Talk 〜クラウドサービスを支える技術〜を開催いたしました。 Treasure Data Tech Talk 〜クラウドサービスを支える技術〜 http://eventdots.jp/event/373902 Treasure Data Tech Talk 〜クラウドサービスを支える技術〜 “The Deep Day” http://eventdots.jp/event/387738 二日間で200名以上の方に参加していただき、私たちも非常に貴重な時間を過ごすことができました。 参加者の皆様、会場を提供をしてくださったフリークアウトさんとDeNAさん、またイベント開催にご協力頂きましたdots

    Treasure Data Tech Talk #1 開催報告 - トレジャーデータ(Treasure Data)ブログ
    kimutansk
    kimutansk 2015/03/16
    Tech Talkの内容出ましたか。Plazmaも面白かったですが、Prestoの最適化やYARNの注意点についても非常に参考になります。
  • Treasure DataのPlazmaDBを理解する - Qiita

    こんにちは。Treasure Dataの斉藤です。出張中に時間ができたのでシアトル空港でこの記事を書いています。日語でブログを書くのはものすごく久しぶりなのですが、Treasure Dataの列志向(columnar)圧縮ストレージであるPlazmaDBについて紹介していきたいと思います。 Treasure Dataでは2014年現在まで5兆(trillion)件を超えるレコードが取り込まれており、一秒あたりでは40万以上(!)のレコードを処理しています。 2013年のTwitterでは1秒あたり5,700 tweets処理していたとのことなので、その処理量の大きさが実感できるのではないでしょうか。この量のレコードをそのまま蓄積するのではストレージ量が膨大になってしまいますので、Treasure Dataではレコードを列分解し、MessagePack形式に変換+圧縮処理を施すことでデータ

    Treasure DataのPlazmaDBを理解する - Qiita
    kimutansk
    kimutansk 2014/12/15
    列単位で分割して圧縮するわけで、このあたり最近のHadoop系カラムナストレージと圧縮率/圧縮時の計算量や読み込み時の効率がどれくらい異なるのかが気になるところですね。
  • データ分析で大切な4つのこと:1. 「当たり前の結果」をたくさん出す事の大切さ - トレジャーデータ(Treasure Data)ブログ

    データ分析で大切な4つのこと トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 ここ数年,データの大量な蓄積とそれに対する分散並列処理が可能な環境が成熟してきました。元々はデータの蓄積やバッチの効率化といった分析バックエンド(プラットフォーム)の方にフォーカスがあてられてきましたが,やっとその先のデータ」「分析」というところ,そしてその役割を果たすデータ分析者の重要性が理解されるようになってきているように感じています。 このブームは分析者にとって非常に喜ばしいことでもあると同時に,大きなプレッシャーにもなっているような気がします。 そのプレッシャーの1つに,企画者や経営者・あるいは顧客といった結果を活用する人々(=意志決定者)の,「これだけ材料(データ)が揃っているのだから多くの課題が解決できるはずだ」という期待に応えないといけないというプレッシャーがあると思いま

    データ分析で大切な4つのこと:1. 「当たり前の結果」をたくさん出す事の大切さ - トレジャーデータ(Treasure Data)ブログ
    kimutansk
    kimutansk 2014/12/02
    「新しい発見や経営クリティカルな結果は当たり前の発見の繰り返しの上に生まれてくる」と。なるほど。
  • Fluentd に Treasure Data がコミットする理由 | Post Moratorium

    Fluentd に Treasure Data がコミットする理由 @frsyukiが2011/7/19日に初めて Fluentd をgithubにpushして以来、約3年になります。 最近、色んな人にこんな質問を受けます。何故 Treasure Data は Fluentd の開発者/マーケターをフルタイムで持っているのか?なぜOSSなのか?競合もそのメリットを享受でき、実際にFluentdの上でビジネスを行っているスタートアップも数社いる、TDだけがリソースを前だしして不利にならないのか? 一言で答えるなら、トレジャーデータではもっと大きな思想/哲学を持ってFluentdを開発しています。 トレジャーデータを創業した当初、クラウドを使用してデータを処理するというのは、あまり一般的では有りませんでした。また、そもそもデータ、特にログデータなど従来では捨てられていたものを解析するという事に

    Fluentd に Treasure Data がコミットする理由 | Post Moratorium
    kimutansk
    kimutansk 2014/08/07
    これまでと違うモデルというのは確かですねぇ・・ 「OSSをコアの一部に据えて成功したい」と。
  • おねえさんが、センサー + Raspberry Pi + fluentd + Treasure Data + αで自宅の揺れを検知&分析してみるよ① - ○○おねえさんのつぶやき

    タイトル通り、センサー + Raspberry Pi + fluentd + Treasure Data + 様々なプロダクトを組み合わせて、自宅が揺れる原因を分析してみるお話です♪ 長丁場になりそうなので、これから数回に分けて綴っていこうと思います。 第1回の今回は、揺れ分析をはじめた理由、やりたいこと、システム構成についてお話します。 はじめた理由 実は・・自宅マンション周辺の大規模工事が終わった頃から、毎日ふとした時に自宅が揺れています! 震度1~2くらいかな?と思ってYahoo!の地震情報を確認してみるのですが、地震は起きていません。 天井から吊してあるパネルも揺れるので、気のせいではないはずなのに。。 管理会社に問い合わせてみましたが、「よくわからないですねー」と素っ気ない返事しか返ってきません。 むむむっ、結構重要な問題だと思うんだけどー><。 揺れの原因によっては引っ越しも考

    おねえさんが、センサー + Raspberry Pi + fluentd + Treasure Data + αで自宅の揺れを検知&分析してみるよ① - ○○おねえさんのつぶやき
    kimutansk
    kimutansk 2014/06/01
    自宅の揺れの解析にこの構成使いますか。流石中の人です。
  • 数百億件のデータを30秒で解析――クラウド型DWH「Treasure Data」に新サービス

    クラウド型のデータウェアハウス(DWH)サービス「Treasure Data Service」を手掛けるトレジャーデータは12月9日、クエリの実行速度を従来比で10~50倍に高速化するというオプションサービス「Treasure Query Accelerator」の提供を始めた。 Treasure Data Serviceは、ユーザー企業が持つ大量のセンサーデータや購買取り引きデータ、Web閲覧データ、アプリケーションログデータなどをクラウド上に蓄積し、分析可能な形に整理して提供するサービス。有償版は月額3000ドルからのサブスクリプション制で利用でき、ビッグデータ活用基盤の構築・運用にかかる時間やコストを低減するとしている。 新サービスは、アドホックデータ解析向けに新たに構築したクエリエンジンを提供し、従来のバッチ型エンジンと比べてクエリ実行速度を高速化するもの。太田一樹CTOによれば、

    数百億件のデータを30秒で解析――クラウド型DWH「Treasure Data」に新サービス
  • 2013年 Hadoop 運用ログ @ Treasure Data | Post Moratorium

    2013年 Hadoop 運用ログ @ Treasure Data Hadoop Advent Calendar 2013、5日目のエントリです。2日遅れてすいません! 細かいのは上げればキリが無いんだけど、誰かの役に立てばと思い Treasure Data でHadoopクラスタを運用してみたログ 2013年度版を公開してみます。 対象バージョン2013年には、ディストリビューションのアップグレードを5回ほど行いました。 CDH3u0CDH3u1CDH4.1.2CDH4.2.0CDH4.2.1メジャーアップグレードは複数バージョンを同時に走らせて問題が無いことを確認後、切り替えを行っています。しかしCDH3って既にEnd of Maintenanceなんですね、知らなかった。 運用体制約3名、年末には約8名程。約100社に向けてサービス運用をしていて、数分ジョブが刺さるだけでもサポートチ

    kimutansk
    kimutansk 2013/12/08
    EBS使わない、や遭遇している問題が貴重な情報。後はリソースマネージャとリアルタイム処理が来年の重要ポイントといった感じなんですかね。やはり。
  • Treasure Dataのサービスはクラウド上でどう構築されているのか(後編)~July Tech Festa 2013

    Treasure Dataのサービスはクラウド上でどう構築されているのか(後編)~July Tech Festa 2013 Treasure Dataといえば、日人がシリコンバレーで創業したベンチャーとして知られている企業。そのシニアソフトウェアエンジニア中川真宏氏が、7月14日に行われたJuly Tech Festa 2013の基調講演で、同社がクラウド上で構築したサービスについてそのアーキテクチャを中心に解説を行っています。 この記事は「Treasure Dataのサービスはクラウド上でどう構築されているのか(前編)~Japan Tech Festa 2013」の続きです。 データを解析する「Plazma」の仕組み データを解析するところでは「Plazma」と呼ぶ、Hadoopのエコシステムとカラムストアなどを組み合わせたものを用いています。

    Treasure Dataのサービスはクラウド上でどう構築されているのか(後編)~July Tech Festa 2013
    kimutansk
    kimutansk 2013/08/05
    「自分たちの強みを常に意識して実装していく、そのためのビジョンを常に立てて、それを実現していく」と。だからこそ小規模で大規模に勝てるわけですか。
  • Treasure Data’s Plazma: Columnar Cloud Storage | Treasure Data Blog

    Treasure Data’s Plazma: Columnar Cloud Storage Tweet Treasure Data has been developed by Hadoop experts. We get Hadoop, and, in many ways, it’s part of our core. As we have built out the platform, we noticed that the storage layer needs to be multi-tenant, elastic, and easy to manage while keeping the scalability and efficiency. This led us to create Plazma, our own distributed columnar storage sy

    kimutansk
    kimutansk 2013/07/17
    クエリ実行に特化したクラウドストレージ・・・ですか。このあたり、システムの特性によって選択肢があった方がいいんですよね。OSS化されるのなら非常に楽しみです。
  • TechCrunch | Startup and Technology News

    You probably remember that back in November, OpenAI’s board fired the company’s co-founder and CEO Sam Altman. What followed was this incredibly complicated power struggle…

    TechCrunch | Startup and Technology News
    kimutansk
    kimutansk 2013/04/03
    Plazma・・・どういう構造なんでしょうねぇ。後はHDFSの改良バージョン内容見てみたいですが・・・
  • 1