タグ

BigQueryに関するakiyanのブックマーク (9)

  • BigQuery が Google Drive と統合

    Google Cloud Platform (Google App Engine, Compute Engine, BigQuery や Container Engine など)の情報の日公式ブログ

    BigQuery が Google Drive と統合
  • YAPC Asia 2015「Google Cloud Platformの謎テクノロジーを掘り下げる」のまとめ - Qiita

    YAPC::Asia Tokyo 2015、ロゴのとおりに熱いイベントでした...今年で最後なのはほんとに惜しいです。最初にして最後の参加となった私は、「Google Cloud Platformの謎テクノロジーを掘り下げる」というタイトルでトークをさせていただきました。 スライドはここに上げてありますが、これだけ見ても意味不明と思われるので、話した内容の要約をまとめブログ代わりに書こうかな、と思ったらかなり長文となってしまいました。基ポジショントークですが、しかしGoogleに入る前からGoogleクラウドに対して持ち続けている気持ちでもあるし、ここはイケてないなーと思った部分は素直にそう書くようにしました。 しかし謎は謎のまま... Twitter上の反応まとめを見ますと、「謎が謎のまま終わった」とのご指摘も多く、これはほんとに私の不徳の致すところです、申し訳ありません……。スライド

    YAPC Asia 2015「Google Cloud Platformの謎テクノロジーを掘り下げる」のまとめ - Qiita
  • SIOS ビッグデータ技術ブログ: Google BigQuery - データセット、テーブル作成編

    こんにちは、SSTDの大村です。わが社もクールビズになったのですが、オフィスフロアがだっだ広いので場所によっては冷房が強すぎで寒い席があります。まさに私の席ですが。。。女の割には熱がりのほうなのですが、それでも寒いですね。。 写真は前回に引き続き町田リス園です。そろそろお気づきかと思いますが顔出しパネルが大好きです。でも、この顔出しパネルはなぜか顔を出すところにプラ板がついていて、後ろに子供がいるんですが光の反射でいまいち写りが悪いですね。残念です。 前回はGoogle BigQueryを試してみましたが、今回は自分でデータセットとテーブルを作成してみましょう。 まずはデータセットを作ってみましょう。前回もアクセスしたweb interfaceにアクセスします。プロジェクト名の隣の「▼」をクリックし、「Create new dataset」をクリックします。

    SIOS ビッグデータ技術ブログ: Google BigQuery - データセット、テーブル作成編
  • BigQueryのSELECT文 - bati11 の 日記

    この記事はGoogle Cloud Platform Advent Calendar 2014 6日目の記事です。 うちの会社ではGoogleAnalyticsのデータをBigQueryに流しています。どうやら3日目の記事を書いたsatoru_magさんの会社でも導入しているみたいですね! BigQueryとGoogleAnalytics - Qiita 最近、そのBigQueryを自分のチームで使い始めることになりました。以前、使い始めたので入門部分をまとめて公開しようと思ったらWEB+DB PRESS vol.83に大体書いてありました。。 WEB+DB PRESS Vol.83 作者: 原田騎郎,吉羽龍太郎,山口陽平,青木雅弥,松下誠太,三宅英明,高橋征義,南川毅文,伊藤直也,海野弘成,高安洋輝,佐藤歩,泉水翔吾,佐藤太一,横江直輔,舘野祐一,橋翔,渡邊恵太,中島聡,はまちや2,小

    BigQueryのSELECT文 - bati11 の 日記
  • FluentdでGoogle BigQueryにログを挿入してクエリを実行する - Qiita

    Googleの虎の子BigQueryをFluentdユーザーが使わない理由はなくなったとのこと。 Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita よし、Google BigQueryを使って超高速ログ解析だ!!!!と思っているとそこまでの道のりは長かった。 Google BigQueryの環境を構築する Google BigQueryはGoogle Cloud Platformのサービスの1つである。Google Cloud Platformには様々なサービスがあり、統合されているような、されていないような作りになっている。AWSのWebインターフェースも難しいけど、Google Cloud Platformもよくわからないので覚悟してかかろう。公式のドキュメントも記述が古いときもあるので疑ってかかろう。 プロジ

    FluentdでGoogle BigQueryにログを挿入してクエリを実行する - Qiita
  • fluent-plugin-bigquery の設定 - Qiita

    BigQuery側で「1リクエスト500行まで」という制限があるので500とする。 500ちょうどにしておくとエラーになることがあるという情報があるので、300程度にしておくとよいかもしれない(コメント欄参照)。 buffer_chunk_limit チャンクごとの最大バイト数。 BigQuery側で「1リクエスト1MBまで」という制限があるので1000000とする。 1MBちょうどにしておくとエラーになることがあるという情報があるので、768k程度にしておくとよいかもしれない(コメント欄参照)。 buffer_queue_limit プラグイン側でいくつのチャンクをメモリに保持しておくか設定できる。 デフォルト値は1024となっている。 小さすぎるとキューが溢れてエラーとなってしまうので、メモリ量と相談して大きめの値にしておくとよい。 1チャンクの最大サイズが1MBなので、デフォルトの1

    fluent-plugin-bigquery の設定 - Qiita
  • BigQueryにTwitterのタイムラインを入れる [Ruby]

    Twitter のタイムラインを保存しておくとなにかと便利なので、色々と保存形式を変えながら 4 年くらい記録し続けている。ツイートの保存が便利すぎるので、ツイセーブというサービス化までした。かつてはテキストで、MongoDBMySQL とか Groonga とかいろいろやってきた。どれも問題ないんだけど、増え続けるログデータを保存する場所として考えると BigQuery が現代にマッチしてるようなのでそちらに移行した。 BigQuery に TL を保存するとできること TL の全てのデータをフルスキャンできる。これはかなり便利で、今回このブログ記事を書くにあたっても ‘BigQuery’ を TL から検索すれば、信頼できるフォローイングの人々の声を見ることができた。これにより「某 CA 社では 5000 台の MongoDB クラスタで BigQuery に対抗している」という

    BigQueryにTwitterのタイムラインを入れる [Ruby]
  • BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita

    まだ入門もしてないので「ことはじめ」じゃないです。 大体触ってみたのを載せます。 Wikipedia 集計 サンプルデータのwikipediaを集計してみました。 データは3億行ほどあり、サイズは36GBほどあります。 今回は、contributor_usernameを集計し、wikipediaに貢献している人ランキングをつくりました。 上位陣はbotさん達ですね。 結果としては、3億行のデータを、 何も考えずに書いて 16.2秒で集計することが出来ました。 3億行を16秒。 countしなければ3秒くらいで終わります。 MapReduceみたいなのを一切書いてないのにこの速度。 ちなみにテーブルはインデックスしているわけではなく毎回フルスキャンしているらしい。 わお。 データ保管: \$0.026/GB/mo クエリ: $5/TB (スキャンしたデータのサイズで課金) 今回のwikipe

    BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita
  • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

    「BigQueryは120億行を5秒でフルスキャン可能」は当か? 先日、kaheiさんがGoogle BigQuery(Googleクラウドの大規模クエリサービス)について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

    Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
  • 1