タグ

BigQueryに関するyassのブックマーク (20)

  • 15 Awesome things you probably didn’t know about Google BigQuery

    Born out of Dremel in 2012, Google BigQuery is a very unique analytics data warehousing service. BigQuery is often described as serverless, no-ops, seamlessly scalable, and fully managed. Since BigQuery truly has no equivalent, it bears mentioning some of the less obvious aspects of what makes BigQuery so amazing! EncryptionBigQuery (and Google Cloud in general) takes security very seriously. For

  • ログイン - はてな

    パスワードを忘れた方はパスワードの再設定を行ってください。 初めての方ははてなID登録 (無料) してください。 うまくログインできない方はお問い合わせをご覧いただき、Cookieの設定をご確認ください。

    ログイン - はてな
  • GCE BigQuery vs AWS Redshift vs AWS Athena - gab.lc

    Updates 7/20/17 update Following Tino Tereshko's advice (he is Big Data Lead at Google Cloud Office of CTO), I added the metrics for BigQuery standard SQL and re-calculated the data loading time (from Google Cloud Storage to BigQuery) following their recent optimizations. 7/6/17 update With Joe Harris' help (he is a Redshift Database Engineer at AWS), I measured the performance of an optimized sch

  • BigQueryで150万円溶かした人の顔 - Qiita

    ※ かなり前の記事ですが、未だに引用されるので一応追記しておきます。タイトルと画像がキャッチーなのはちょっと反省していますが、これを見てBigQuery使うのを躊躇している人は多分あまり内容を読んでいないので気にする必要はないです。自分は当時の会社でも今の会社でも個人でも普通にBigQuery使っていて解析用データなどはBigQueryに入れる設計をよくしています。また、アドベントカレンダーだったのでネタっぽく書きましたが事前に想定できる金額です。 ※ 代役:プロ生ちゃん(暮井 慧) 巷のBigQueryの噂と言えば「とにかく安い」「数億行フルスキャンしても早い」などなど。とりわけ料金に関しては保存しておくだけであれば無視できるほど安く、SQLに不慣れなプロデューサーがクエリを実行しても月数ドルで済むなど、賞賛すべき事例は枚挙に暇がありません。 しかし、使い方によってはかなり大きな金額を使

    BigQueryで150万円溶かした人の顔 - Qiita
  • 「AWSからGCPに切り替えたらコストが1/10になった」CETエンジニア 吉田啓二氏インタビュー - Tech Blog - Recruit Lifestyle Engineer

    前編(「ビッグデータは“リアルタイム”でこそ価値がある」)では、リアルタイムなビッグデータ解析プロジェクト「CET(Capture EveryThing)」が始まったきっかけから、いまのチームまで組織に焦点を当てました。 後編では、いよいよビッグデータ解析のシステムについて深掘りしていきます。 Amazonのクラウドサービスを活用して作り上げた現状のシステムを捨て、Googleで作る構成に変えようとしているそう。その意図とは。 クラウドサービスのコストパフォーマンスなど、エンジニアやアーキテクトには気になる情報が満載です。 「CET」で基盤構築や分析・集計アプリケーションの開発を行っている、吉田啓二さんに聞きました。 聞き手/構成/編集/写真:小川楓太(NEWPEACE Inc.) AWS格的に運用するのは厳しいかなという印象です —— 今回構築された基盤の具体的なシステム構成はどのよ

    「AWSからGCPに切り替えたらコストが1/10になった」CETエンジニア 吉田啓二氏インタビュー - Tech Blog - Recruit Lifestyle Engineer
    yass
    yass 2015/11/28
    "とくにAmazon DynamoDBのコストパフォーマンスが問題 / 大量のデータを更新するときに、どうしても高いスループットが必要になってしまい、結果的に結構なコストがかかています。具体的には、50万円/月ほどなのです……"
  • Google BigQuery Benchmark — DoIT International :: Helping businesses adopt, manage and enhance cloud solutions from Google and Zendesk

    By Vadim Solovey, Google Developer Expert.Recently, I came across an interesting benchmark of BigData systems based on "A Comparison of Approaches to Large-Scale Data Analysis" by Pavlo et al. (SIGMOD 2009). Based on the benchmark methodology, the APMLab guys from Berkeley University developed an open-source software that allows anyone to run this benchmark using public cloud (AWS in this case).Th

  • BigQuery をスキーマレスっぽく運用する方法 - Qiita

    3行でまとめ 1つの列に JSON 文字列を突っ込む JSON functions を使って、必要な値を取り出す 要するに RDB の JSON 型みたいな感じで運用しようということ。 どういう時に使うの? 「1時間後からログ分析するから」とぶっこまれた時。当然、スキーマは決まっていない。あとは、使い捨てのアドホックな分析とか簡易ETLツールとして使うと便利だと思う。 なお、この方法はコストもかかるし、速くもない、実際は BigQuery なので速いけど、相対的には速くないので、甘えずにスキーマはちゃんと決めるようにしよう。 手順 スキーマを準備

    BigQuery をスキーマレスっぽく運用する方法 - Qiita
  • Re:dash - Make Your Company Data Driven

    Redash helps you make sense of your dataConnect and query your data sources, build dashboards to visualize data and share them with your company. “Redash is as essential as email to my company. We love data but accessing the data is a pain without Redash. Any company I go to, I get them hooked on Redash. It’s an easy sell :)” by Ben Dehghan, Co-Founder of Data Miner Read what our users say → Write

    Re:dash - Make Your Company Data Driven
  • O'Reilly Japan - Google BigQuery

    書は、クラウド上でSQLを使ってビッグデータを解析するGoogle BigQueryについて包括的に解説する書籍です。Google BigQueryの使い方から内部動作、そしてBigQueryならではのSQLの活用法、サードパーティのツールとの連携までを詳しく解説します。また、BigQueryを支えるGoogleのインフラストラクチャについても総覧しており、現代最高の超巨大インフラストラクチャの姿を知ることができます。BigQueryの全体像をマスターできる書は、ビッグデータをSQLで活用したいデータサイエンティスト、ソフトウェア開発者必携の一冊です。 訳者まえがき はじめに I部 BigQueryの基礎知識 1章 Googleにおけるビッグデータの物語 1.1 ビッグデータスタック 1.0 1.2 ビッグデータスタック 2.0(そしてその先にあるもの) 1.3 オープンソースのスタッ

    O'Reilly Japan - Google BigQuery
  • ニコニコデータビューアー・改

    ニコニコ学会β第五回データ分析研究会で発表した。 今まで、21分かかった物が、10秒で集計が出来る。Read less

    ニコニコデータビューアー・改
    yass
    yass 2014/11/03
    " 数億件だと、MySQLの 集計は、厳しい。 • 3億円でオラクル買う世界 "
  • データインポートとDATASETとTABLEと。 - Qiita

    はじめに 某ノンアルコール梅酒のCM。おっしゃる通り。ごめんなさい。 と、いうことでデータインポートとDATASETとTABLEについて。 とにかく安いんでぼこぼこデータ追加しちゃえばいいんですけど、私なりの考えをまとめてみました。 前提 CloudSDKは入れておきましょう。 https://developers.google.com/cloud/sdk/ まぁ、webの管理コンソールでも全部できちゃいますけどね。 サイオスさんも詳しく書いてくれていますよ。 http://sstd-bigdata.blogspot.jp/2013/07/google-bigquery-bq-command.html データ準備 さて、どんなデータ入れるかな?実務のデータを入れると速さを肌で感じることが出来ますね。 ただし、こういうものの特徴でデータ追加は出来るけど、更新・削除はできません。 そんな時のこ

    データインポートとDATASETとTABLEと。 - Qiita
  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

  • BigQueryにTwitterのタイムラインを入れる [Ruby]

    Twitter のタイムラインを保存しておくとなにかと便利なので、色々と保存形式を変えながら 4 年くらい記録し続けている。ツイートの保存が便利すぎるので、ツイセーブというサービス化までした。かつてはテキストで、MongoDBMySQL とか Groonga とかいろいろやってきた。どれも問題ないんだけど、増え続けるログデータを保存する場所として考えると BigQuery が現代にマッチしてるようなのでそちらに移行した。 BigQuery に TL を保存するとできること TL の全てのデータをフルスキャンできる。これはかなり便利で、今回このブログ記事を書くにあたっても ‘BigQuery’ を TL から検索すれば、信頼できるフォローイングの人々の声を見ることができた。これにより「某 CA 社では 5000 台の MongoDB クラスタで BigQuery に対抗している」という

    BigQueryにTwitterのタイムラインを入れる [Ruby]
  • BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita

    まだ入門もしてないので「ことはじめ」じゃないです。 大体触ってみたのを載せます。 Wikipedia 集計 サンプルデータのwikipediaを集計してみました。 データは3億行ほどあり、サイズは36GBほどあります。 今回は、contributor_usernameを集計し、wikipediaに貢献している人ランキングをつくりました。 上位陣はbotさん達ですね。 結果としては、3億行のデータを、 何も考えずに書いて 16.2秒で集計することが出来ました。 3億行を16秒。 countしなければ3秒くらいで終わります。 MapReduceみたいなのを一切書いてないのにこの速度。 ちなみにテーブルはインデックスしているわけではなく毎回フルスキャンしているらしい。 わお。 データ保管: \$0.026/GB/mo クエリ: $5/TB (スキャンしたデータのサイズで課金) 今回のwikipe

    BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita
    yass
    yass 2014/07/03
    " RedShiftとか色々考えるよりよっぽど安くて楽でいいです。 fluentdでS3に投げてhogehoge…とか面倒なので、BigQueryに直接fluentdでぶち込みましょう。これで快適ログ生活です。"
  • TechCrunch | Startup and Technology News

    Welcome back to TechCrunch’s Week in Review — TechCrunch’s newsletter recapping the week’s biggest news. Want it in your inbox every Saturday? Sign up here. Over the past eight years,…

    TechCrunch | Startup and Technology News
    yass
    yass 2014/03/27
    " 最大で毎秒10万行までのリアルタイムデータをBigQueryに送り、リアルタイムで分析してもらえるようになる。/ オンデマンドのクェリは1テラバイトあたり5ドル、毎秒5GBの予約クェリは月額料金が“わずか”2万ドルだ。"
  • GoogleのBigQueryが勢いづく

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    GoogleのBigQueryが勢いづく
    yass
    yass 2014/02/27
    " 本当に驚きました。キャッシュを使っていなくても(キャッシュはドグルで有効無効を切り替えられます)、15億行のデータに対する比較的複雑な集計問い合わせが20秒から25秒で返ってきました "
  • TechCrunch | Startup and Technology News

    Boeing’s Starliner spacecraft has successfully delivered two astronauts to the International Space Station, a key milestone in the aerospace giant’s quest to certify the capsule for regular crewed missions.  Starliner…

    TechCrunch | Startup and Technology News
    yass
    yass 2013/09/20
    "1)クェリの出力量の制限を撤廃、2)高度なウィンドウ関数、3)再計算における時間とコスト節減のためのキャッシングの改良、4)クェリのコスト情報を瞬時に提供、5)ストレージ費用の低減、6)大型ワークロードのサポート"
  • TechCrunch | Startup and Technology News

    Live Nation says its Ticketmaster subsidiary was hacked. A hacker claims to be selling 560 million customer records. An autonomous pod. A solid-state battery-powered sports car. An electric pickup truck. A convertible grand tourer EV with up to 600 miles of range. A “fully connected mobility device” for young urban innovators to be built by Foxconn and priced under $30,000. The next Popemobile. Ov

    TechCrunch | Startup and Technology News
    yass
    yass 2013/09/20
    " ユーザはイベントをデータベースに、行単位でストリーミングできる / データが発生し可利用になるたびにリアルタイムでそれらを保存 / 最前の24時間内の特定範囲のデータだけを調べる、というクェリが新たにサポート "
  • グーグルのBigQuery、高速処理の仕組みは「カラム型データストア」と「ツリー構造」。解説文書が公開 - Publickey

    グーグルのBigQuery、高速処理の仕組みは「カラム型データストア」と「ツリー構造」。解説文書が公開 SQLのクエリに対応し、3億件を超えるデータに対してインデックスを使わないフルスキャン検索で10秒以内に結果を出す。グーグルのBigQueryは大規模なクエリを超高速で実行する能力を提供するサービスです。その内部を解説する文書「An Inside Look at Google BigQuery」(PDF)を公開しました。 グーグルは大規模クエリを実行するサービスとして社内でコードネーム「Dremel」を構築しており、2010年にそのDremelを解説する文書「Dremel: Interactive Analysis of Web-Scale Datasets」を公開しています。BigQueryは、そのDremelを外部公開向けに実装したものです。 グーグルはこのDremel/BigQue

    グーグルのBigQuery、高速処理の仕組みは「カラム型データストア」と「ツリー構造」。解説文書が公開 - Publickey
  • HTTP Archive + BigQuery = Web Performance Answers - igvita.com

    By Ilya Grigorik on June 20, 2013 HTTP Archive is a treasure trove of web performance data. Launched in late 2010, the project crawls over 300,000 most popular sites twice a month and records how the web is built: number and types of resources, size of each resource, whether the resources are compressed or marked as cacheable, times to render the page, time to first paint, and so on - you get the

    HTTP Archive + BigQuery = Web Performance Answers - igvita.com
  • 1