タグ

bigqueryに関するhohoho_ho2005のブックマーク (95)

  • [まとめ] gcp ja night #29 - Qiita

    日時: 2014-12:12 19:00~22:20 場所: FreakOut イベントURL: http://gcpja.connpass.com/event/9647/ togetter: http://togetter.com/li/756806 スライドは見つけ次第、追記予定 トレタのBigQuery / Google Apps Script活用術 Apps Script 最も簡単に動かせる Server Side Javascript 無料 DB, bq にもアクセスできる たかはしさん slack ボット、勤怠管理、おはよう・お疲れさまとつぶやくだけ Google Spreadsheet に記録 Google Apps Script で記述 公開されてる、https://github.com/masuidrive/miyamoto BigQuery の利用状況(前職) MySQ

    [まとめ] gcp ja night #29 - Qiita
  • fluentd Windows版でBigQueryする - Qiita

    0. 前書き BigQuery、楽しげですね! けど、なんていうか、特にインプットのフェーズにおいて活用するとなるとWindowsワールドの住人、またはそこで暮らさざるを得ない人からはちょっと遠いところ感があって、利用しようと思った刹那、途端にナニソレオイシイノ?みたいな状況になっている人も少なからずいると思います。 そんな人達のために! fluentd Windowsランチを使ってお手軽BigQueryと行きましょう! WindowsのイベントログをBigQueryにためこんでみます。 ということで目指す構成はこんな感じ。 Windows Server 2012 日語版 Ruby 2.1 fluentd Windows版 fluent-plugin-winevtlog fluent-plugin-bigquery ポイントは fluent-plugin-bigqueryがWindow

    fluentd Windows版でBigQueryする - Qiita
  • nginxのアクセスログをFluentd経由でelasticsearchとBigQueryに送り始めた

    masutaka.netnginxアクセスログはmongodbとGrowthForecastに送ってます。 [2013-07-14-1] nginxのアクセスログをFluentd経由でMongoDBに保存してみた [2013-08-15-1] nginxのアクセスログをFluentd経由でGrowthForecastのグラフにしてみた 今回、elasticsearchとBigQueryにも送り始めました。個人での必要性は 全くなく、単にelasticsearchとBigQueryを知っておきたかったからです。 elasticsearch http://kibana.masutaka.net/ からkibana 経由で検索出来るようにしてい ます(要Basic認証)。kibanaは評判が良かったので期待してたんですが、 使いづらいです。学習が必要そうです。。 インストールの概要# elas

  • MongoDB のデータを BigQuery にインポートするための mongobq - Qiita

    mongobq とは MongoDB の特定のコレクションのデータを BigQuery のテーブルとしてインポートするためのコマンドラインツールです。 想定している使用方法 fluent-plugin-bigqueryなどでBigQueryにログやトランザクション系のデータが登録済みである ログ中には商品IDなどは入っているが、商品の値段などの詳細データはMongoDBで管理されている 両者を JOIN して分析するために、MongoDB 上のマスタデータを BigQuery に日次バッチなどでインポートしたい インストール方法 npm パッケージとして公開しているので、Node 0.10 以上が必要です。 ソースはgithub上で公開しています。ご意見、機能追加要望などありましたら、こちらまで。 なお、mongobq を利用するには Google Cloud Platform の利用登録

    MongoDB のデータを BigQuery にインポートするための mongobq - Qiita
  • BigQueryを使う処理のテストをどう書くか - Qiita

    この記事はVOYAGE GROUP エンジニアブログ Advent Calendar 2014の6日目の記事です。 こんにちは、VOYAGE GROUPで片手間データサイエンティスト業に従事している@hagino3000です。 昨今のBigQueryムーブメントに乗って、分析用のデータをBigQueryに投入しはじめた方も多いと思います。しかし、BigQueryを使い出すと、集計バッチ等のテストコードがローカル環境で完結しなくなり、BigQueryそのものを参照したくなります。記事ではいくつかのアプローチを紹介します。 サンプルコードはPython + nose + BigQuery-Pythonを使っています。 何が問題か 何故テストコードで悩むかというと、BigQueryは次の2つの特徴を持つから。 ローカル環境が作れない 少量のデータでもクエリに5秒程度かかる 特にクエリに時間がか

    BigQueryを使う処理のテストをどう書くか - Qiita
  • 『アメーバピグへのGoogle BigQuery導入までのもろもろ設定記』

    この記事は、CyberAgent エンジニア Advent Calendar 2014 の6日目の記事です。 5日目はnekoruriさんのAmeba等で利用しているOpenStack Swiftを利用したオブジェクトストレージ 7日目はoinumeさんのGoLangJavaのenumっぽいライブラリ作った話です。 こんにちは、ピグ事業部のIshimura(Twitter, Github)といいます。アメーバピグのサーバサイドエンジニアをしています。ユニットテストとリファクタリングが好物です。 今回はタイトル通りなのですが、アメーバピグでGoogle BigQueryに実際にログを突っ込むまでに行った設定を記します。アメーバピグではBigQueryを各種施策の検討・評価のための分析用に利用する予定です。 BigQueryの特徴やメリットはググれば(Googleだけに)たくさん出てくるので

    『アメーバピグへのGoogle BigQuery導入までのもろもろ設定記』
  • BigQueryでデータロード時に欠損値の読み込みルールまとめ - Qiita

    最近、bigqueryの評価を行っている。番向けのデータではよくあることだが、来データが入る場所にnullが入っていたり、要素が無かったり、逆に要素が多かったりする。 bigqueryはTreasureDataの様にスキーマレスではなくきちんとスキーマを定義しなければならない。 bigqueryでは、スキーマの定義にjsonを使い、データのロードにもjsonを使うため、要素にミスマッチが発生する場合が考えられる。 スキーマとjsonで要素のミスマッチがあった場合は、データにnullが入っていた場合のbigqueryの挙動に関してまとめた。 最初に結果だけ書き、後半に実際にデータロードで試したサンプルを乗せる。 データロード時のBigQueryスキーマと、jsonの対応 送信jsonにスキーマがある。 送信jsonにスキーマが無い

    BigQueryでデータロード時に欠損値の読み込みルールまとめ - Qiita
  • BigQuery へブラウザからクエリを投げて結果をテーブルで表示する - Qiita

    まあ,BigQuery の Web console から叩けば良いのですが,別途ブラウザで処理したいという需要もありますよね. OAuth 認証のためのクライアントIDを取得する https://console.developers.google.com/ の任意のプロジェクトで,[API と認証] -> [認証情報] -> [新しいクライアント ID を作成]と進むとクライアントIDを発行できます. 今回はブラウザから認証を行ったユーザ自身の認可情報を使用するので,ウェブアプリケーションのクライアントIDを発行します. この項目は後から変更できるので,とりあえず localhost で試すようにしています.適宜変更してください. 認証する Google API を利用するためのクライアントライブラリを読みこんでおきます.

    BigQuery へブラウザからクエリを投げて結果をテーブルで表示する - Qiita
  • 『アドテクスキルアップゼミ カラムナーデータベース検証まとめ』

    皆様こんにちは。 アドテク部カラムーデータベースゼミチームです。 今回の記事ではゼミチームが行った検証結果について発表させていただきます。 また、この記事につきましては 11/12 に行われた db tech showcase Tokyo 2014 にて発表させて頂きました内容になります。 プレゼン資料はこちらにあがっています。 ※追記 Impala / Presto の File Format についてご指摘を頂きましたのでデータロード及びまとめの部分に追記しました。 アドテクスキルアップゼミ カラムナーデータベース検証まとめ目的 広告システムでは大量のデータをデータベースに入れて解析を行います。 小規模から中規模なデータはRDBMSで行えますが、数TBを超えると RDBMS以外の選択肢を探さないといけません。 ビッグデータ用のデータベースは比較資料が少なく、 また、あったとしても検証

    『アドテクスキルアップゼミ カラムナーデータベース検証まとめ』
  • FluentdとGoogle BigQueryで遊ぶぞ! - パルカワ2

    という入門記事を書こうと思いましたが、最高の記事があったのでやめました。 こちらを参照すると良いです。 ちなみにこういうスクリプトをピッと書いたらデータが送れてることが確認出来ました。 use strict; use warnings; use Fluent::Logger; my $logger = Fluent::Logger->new( host => '127.0.0.1', port => 24224, ); $logger->post("access.log", { uri => "http://google.com", request => { addr => "test-addr", ua => "test-ua", referrer => "test-referrer", }, }); 触った感じ便利そうなので、なんかやりたい。 これも面白い感じがします。

    FluentdとGoogle BigQueryで遊ぶぞ! - パルカワ2
  • GAE/JからBigQueryへのStream Insert

    また、Developer Console上からファイルをアップロードする場合に関してはドキュメントに明記がなかったので推測ではありますが、quota制限はジョブと同じような感じではないかと思います。 ジョブを使うメリットとしては1度のデータ読み込みで大きなデータファイルを送れることやGCS上のファイルを送れること、streamを使うメリットは一度に送れるデータ量はそれほどではないものの、ジョブ実行時の遅延もないので割とリアルタイムにデータ送信、データ分析を行えること等が挙げられます。 これらの方法で読み込んだデータをBigQueryに新しく作ったテーブルや既存のテーブルに追加したり、テーブルのデータの書き換えたりすることが出来ます。 今回は、上述したデータ取り込み方法のうち、Streamを使ったBigQueryへのデータ取り込み方法の詳細と実装例について解説します。 以下、基は http

    GAE/JからBigQueryへのStream Insert
  • Google BigQueryで今期アニメに関するツイートを分析するぞい! - Qiita

    BigQueryでアニメに関するツイートを分析する アニメツイートを記録したCSVをBigQueryに上げる データ形式を選択する CSV/JSON/AppEngine Backupが選べますが今回はCSVとします。 File Uploadでブラウザからファイルアップロード・・・といきたい所ですがファイルブラウザからのアップロードは10Mバイトに制限されています。 10Mバイト以上のファイルはGoogleのクラウドストレージにファイルをアップロードする必要があります。 Google Cloud Storage にデータを上げる Cloud StorageにBucketsを作成しファイルをアップロードします。 こちらではブラウザから10M以上のファイルのもアップロードできますが、数百Gバイトなどのでかいファイルはブラウザがタイムアウトなどを起こすのでGoogleの用意するツール(gsutil

    Google BigQueryで今期アニメに関するツイートを分析するぞい! - Qiita
  • Google BigQueryを使ってみた!

    PerlCasual #06 2014/10/24 Yusuke Wada a.k.a. yusukebeRead less

    Google BigQueryを使ってみた!
  • BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita

    まだ入門もしてないので「ことはじめ」じゃないです。 大体触ってみたのを載せます。 Wikipedia 集計 サンプルデータのwikipediaを集計してみました。 データは3億行ほどあり、サイズは36GBほどあります。 今回は、contributor_usernameを集計し、wikipediaに貢献している人ランキングをつくりました。 上位陣はbotさん達ですね。 結果としては、3億行のデータを、 何も考えずに書いて 16.2秒で集計することが出来ました。 3億行を16秒。 countしなければ3秒くらいで終わります。 MapReduceみたいなのを一切書いてないのにこの速度。 ちなみにテーブルはインデックスしているわけではなく毎回フルスキャンしているらしい。 わお。 データ保管: \$0.026/GB/mo クエリ: $5/TB (スキャンしたデータのサイズで課金) 今回のwikipe

    BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita
  • BigQuery で COUNT(DISTINCT(X)) を使わない方が良い理由 - Qiita

    簡潔に言うと、BigQuery の COUNT(DISCTINCT(X)) は正しい値を返さないことがあるので使わない方が良い。(ちゃんと仕様を理解して使おう) 2015/5/28 追記 「GROUP BY して COUNT()」が面倒だという人は、EXACT_COUNT_DISTINCT(X) を使おう。 BigQuery では COUNT(DISTINCT(X)) ではなく EXACT_COUNT_DISTINCT(X) を使おう BigQuery の DISTINCT の仕様 https://cloud.google.com/bigquery/query-reference?hl=ja#aggfunctions より引用 Returns the total number of non-NULL values in the scope of the function. If you u

    BigQuery で COUNT(DISTINCT(X)) を使わない方が良い理由 - Qiita
  • fluent-plugin-bigquery の設定 - Qiita

    BigQuery側で「1リクエスト500行まで」という制限があるので500とする。 500ちょうどにしておくとエラーになることがあるという情報があるので、300程度にしておくとよいかもしれない(コメント欄参照)。 buffer_chunk_limit チャンクごとの最大バイト数。 BigQuery側で「1リクエスト1MBまで」という制限があるので1000000とする。 1MBちょうどにしておくとエラーになることがあるという情報があるので、768k程度にしておくとよいかもしれない(コメント欄参照)。 buffer_queue_limit プラグイン側でいくつのチャンクをメモリに保持しておくか設定できる。 デフォルト値は1024となっている。 小さすぎるとキューが溢れてエラーとなってしまうので、メモリ量と相談して大きめの値にしておくとよい。 1チャンクの最大サイズが1MBなので、デフォルトの1

    fluent-plugin-bigquery の設定 - Qiita
  • BigQueryをpythonから利用する。 - Qiita

    BigQueryをpythonで使う。 BigQueryはGoogleの提供しているとても早いデータ分析環境だ。なんでもデータを何千台のマシンに分散して処理しているそうで、まさにGoogleにしかできそうもない。 縁がありBigQueryを評価する機会に恵まれた。触ってみたら結構早かった。pythonから触ってみる方法を試したので共有したい。 事前準備 BigQuery単体で使えるようにしておく。 Billingを設定しないと使えないかもしれない。 BigQueryAPIのアクセスは有効にしておく。 2015-09-14 修正 下の方法を取らずとも、 というライブラリが出ているようです。 参考の為下の記述を残します。 環境整備 ubuntu13.10で試した。 pythonで使うには以下のようなライブラリを入れる。pipは事前に入れておくこと。 sudo pip install --upg

    BigQueryをpythonから利用する。 - Qiita
  • Raspberry PiからFluentdでBigQueryにデータを送るウェザーステーションの作り方 - Qiita

    最近なんだか個人的に電子工作ブームで、ついAmazonでRaspberry Piをポチってしまった。とりあえずウェザーステーション(気温・湿度・気圧を測るやつ)を作ってみた。 びろーんと伸びてるのは温度・湿度センサーDHT22で、基板上で青く光っているのが気圧センサーLPS331。丸くて黒いやつはなんとなくつけてみた圧電スピーカーで今回は使ってない。 そして、これらのセンサーデータを10秒おきにFluentd経由でGoogle BigQueryに送る簡単なPythonコードを書いた。Google SpreadsheetからBigQueryのクエリを実行して描いた俺の部屋のお天気環境グラフがこんな感じ。 単に1台分のグラフを書くだけならBigQueryにデータを入れる必要はなくてSpreadsheetに直接送れば済むのだけど、RasPi+Fluentd+BQの連携をいちど試してみたかったのだ

    Raspberry PiからFluentdでBigQueryにデータを送るウェザーステーションの作り方 - Qiita
  • gcp ja night #28 に参加してきたので色々まとめるよ #gcpja - えいのうにっき

    gcp ja night #28 に参加してきたので、色々まとめるよー。スライド資料を見ればわかるようなことは書かない方向で。 懇親会の場で、Googler の佐藤さんに、前から気になってたことをいくつか質問できたので、その内容もこのエントリの最後にメモっとく。 イベントページ gcp ja night #28 - connpass 各種まとめ 2014.09.16 gcp ja night #28 #gcpja - Togetter gcp ja night #28 - 資料一覧 - connpass Managed VMのDocker対応とKubernetes最新動向 @briandorsey by Brian Dorsey, Developer Advocate, Google Inc. 僕の観測範囲では、スライド資料の公開はなし GAE などのような PaaS を使いつつ、IaaS

    gcp ja night #28 に参加してきたので色々まとめるよ #gcpja - えいのうにっき
  • はじめての BQ GAS

    gcpja night #28 での発表資料です。 サンプルコードはこちら: https://gist.github.com/hakobera/537b35971e3b698ae083

    はじめての BQ GAS