タグ

tdに関するhiroyukimのブックマーク (4)

  • トレジャーデータで実践:A/B テスト(実践編その1) - トレジャーデータ(Treasure Data)ブログ

    トレジャーデータはクラウドでデータマネージメントサービスを提供しています。 はじめに 今回は,具体的なデータを事例にしてA/Bテストをわかりやすく紹介します。記事では理論的なところは控えめに,手順とポイントについて詳しく紹介していきます。実のところ,手順とポイントだけおさえておけば,理論は知らなくても全く問題ありません。また,心の準備編でも紹介しましたが,最終的にはAとBに差違があるのかは, 検定によって求められた統計量に基づいて人間が判断する = 人がテスト結果ときちんと向き合う ことの習慣化が重要なので,テストを実施するにはできるだけ心理的ハードルは低い方がむしろ良いのかもしれません。 A/Bテストとは? A/Bテストは統計的仮説検定の枠組みの中で,「2つの母平均の差の検定」に該当するものです。独立して実施された結果,AとBに統計的見地から見て,違い(これを「有意な差」とよびます)が

    トレジャーデータで実践:A/B テスト(実践編その1) - トレジャーデータ(Treasure Data)ブログ
  • Treasure Dataに入社しました - myui's memo

    3/31付けで4月から国立研究開発法人になった産業技術総合研究所を退職致しまして、4/1からTreasure Dataに入社しました。第一号のResearch Engineerとして東京オフィスで働きます。 CTOの太田さんから2013年頃に一度お誘いを受けておりましたが、2014年になってまた声を掛けて頂き、2年越しでの入社となりました。 なんでTreasure Data? 現在のTreasure Dataでは、毎秒45万レコード、4,000億レコード/日ものデータが投入されていて、Hiveで処理されるデータ量も3+ペタバイト/日と急速な発展をとげております。研究でもこの規模のデータ量を扱うことはGoogleやFacebook等の一部の研究者を除いてはありませんから、非常に挑戦的な課題に取り組める環境であることにDB研究者として第一に魅力を感じました。優秀なエンジニアが集まっていて刺激的

    Treasure Dataに入社しました - myui's memo
    hiroyukim
    hiroyukim 2015/04/02
  • Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO

    ども、大瀧です。 日開催されたデータ転送ミドルウェア勉強会で、開発者の@frsyukiさんによって語られたEmbulkを早速触ってみました。 Embulkとは EmbulkはOSSのデータ転送ソフトウェアです。もう少し細かく分類するとBulk Loaderと呼ばれる、バッチ処理のためのデータ読み込み、変換処理を行う機能を持ちます。特徴は柔軟なプラグイン構造で、データを読み込むInputPlugin、データを出力するOutputPlugin、さらに読み込み処理自体もExecutorPluginと、機能のほとんどをプラグインとして後から追加、カスタマイズできるよう高度に抽象化されたアーキテクチャになっています。データのハンドリングもプラグインでの実装を想定しているようなので、ここまで来るとミドルウェアというより、データ転送のインターフェースを定義するフレームワークの実装、という方が近い感じか

    Treasure Dataの新データ転送ツールEmbulkを触ってみた #dtm_meetup | DevelopersIO
  • オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援 何ギガバイトもあるCSVをデータベースに読み込ませるようなバルクデータをバッチ処理するためのツール「Embulk」がオープンソースで公開されました。 コミッターとして開発しているのは、ログ収集ツールとして知られるfluentdなどの開発者として知られる古橋貞之氏、西澤無我氏、中村浩士氏らで、3人が所属するTreasure Dataも開発を支援しています。 古橋氏はEmbulkについて「簡単に言うとfluentdのバッチ版です」と説明。1月27日に行われた「データ転送ミドルウェア勉強会」で、Embulkの紹介を行いました。 Embulkはプラグインベースのバルクデータローダー 古橋氏はまず、例えばCSVファイルをPostgreSQLに読み込ませようとすると、CSVの日付のフォーマットが

    オープンソースのバルクデータローダー「Embulk」登場。fluentdのバッチ版、トレジャーデータが支援
  • 1