[B! bigquery] [4ページ] hohoho_ho2005のブックマーク

[まとめ] gcp ja night #29 - Qiita

日時: 2014-12:12 19:00~22:20 場所: FreakOut イベントURL: http://gcpja.connpass.com/event/9647/ togetter: http://togetter.com/li/756806 スライドは見つけ次第、追記予定トレタのBigQuery / Google Apps Script活用術 Apps Script 最も簡単に動かせる Server Side Javascript 無料 DB, bq にもアクセスできるたかはしさん slack ボット、勤怠管理、おはよう・お疲れさまとつぶやくだけ Google Spreadsheet に記録 Google Apps Script で記述公開されてる、https://github.com/masuidrive/miyamoto BigQuery の利用状況（前職） MySQ

hohoho_ho2005 2015/01/15

リンク

fluentd Windows版でBigQueryする - Qiita

0. 前書き BigQuery、楽しげですね！けど、なんていうか、特にインプットのフェーズにおいて活用するとなるとWindowsワールドの住人、またはそこで暮らさざるを得ない人からはちょっと遠いところ感があって、利用しようと思った刹那、途端にナニソレオイシイノ？みたいな状況になっている人も少なからずいると思います。そんな人達のために！ fluentd Windowsブランチを使ってお手軽BigQueryと行きましょう！ WindowsのイベントログをBigQueryにためこんでみます。ということで目指す構成はこんな感じ。 Windows Server 2012 日本語版 Ruby 2.1 fluentd Windows版 fluent-plugin-winevtlog fluent-plugin-bigquery ポイントは fluent-plugin-bigqueryがWindow

hohoho_ho2005 2014/12/30

リンク

nginxのアクセスログをFluentd経由でelasticsearchとBigQueryに送り始めた

masutaka.netのnginxアクセスログはmongo dbとGrowthForecastに送ってます。 [2013-07-14-1] nginxのアクセスログをFluentd経由でMongo DBに保存してみた [2013-08-15-1] nginxのアクセスログをFluentd経由でGrowthForecastのグラフにしてみた今回、elasticsearchとBigQueryにも送り始めました。個人での必要性は全くなく、単にelasticsearchとBigQueryを知っておきたかったからです。 elasticsearch http://kibana.masutaka.net/ からkibana 経由で検索出来るようにしています(要Basic認証)。kibanaは評判が良かったので期待してたんですが、使いづらいです。学習が必要そうです。。インストールの概要# elas

hohoho_ho2005 2014/12/15

リンク

MongoDB のデータを BigQuery にインポートするための mongobq - Qiita

mongobq とは Mongo DB の特定のコレクションのデータを BigQuery のテーブルとしてインポートするためのコマンドラインツールです。想定している使用方法 fluent-plugin-bigqueryなどでBigQueryにログやトランザクション系のデータが登録済みであるログ中には商品IDなどは入っているが、商品の値段などの詳細データはMongo DBで管理されている両者を JOIN して分析するために、Mongo DB 上のマスタデータを BigQuery に日次バッチなどでインポートしたいインストール方法 npm パッケージとして公開しているので、Node 0.10 以上が必要です。ソースはgithub上で公開しています。ご意見、機能追加要望などありましたら、こちらまで。なお、mongobq を利用するには Google Cloud Platform の利用登録

hohoho_ho2005 2014/12/10

リンク

BigQueryを使う処理のテストをどう書くか - Qiita

この記事はVOYAGE GROUP エンジニアブログ Advent Calendar 2014の6日目の記事です。こんにちは、VOYAGE GROUPで片手間データサイエンティスト業に従事している@hagino3000です。昨今のBigQueryムーブメントに乗って、分析用のデータをBigQueryに投入しはじめた方も多いと思います。しかし、BigQueryを使い出すと、集計バッチ等のテストコードがローカル環境で完結しなくなり、BigQueryそのものを参照したくなります。本記事ではいくつかのアプローチを紹介します。サンプルコードはPython + nose + BigQuery-Pythonを使っています。何が問題か何故テストコードで悩むかというと、BigQueryは次の2つの特徴を持つから。ローカル環境が作れない少量のデータでもクエリに5秒程度かかる特にクエリに時間がか

hohoho_ho2005 2014/12/07

リンク

『アメーバピグへのGoogle BigQuery導入までのもろもろ設定記』

この記事は、CyberAgent エンジニア Advent Calendar 2014 の6日目の記事です。 5日目はnekoruriさんのAmeba等で利用しているOpenStack Swiftを利用したオブジェクトストレージ 7日目はoinumeさんのGoLangでJavaのenumっぽいライブラリ作った話です。こんにちは、ピグ事業部のIshimura(Twitter, Github)といいます。アメーバピグのサーバサイドエンジニアをしています。ユニットテストとリファクタリングが好物です。今回はタイトル通りなのですが、アメーバピグでGoogle BigQueryに実際にログを突っ込むまでに行った設定を記します。アメーバピグではBigQueryを各種施策の検討・評価のための分析用に利用する予定です。 BigQueryの特徴やメリットはググれば(Googleだけに)たくさん出てくるので

hohoho_ho2005 2014/12/06

bigquery

リンク

BigQueryでデータロード時に欠損値の読み込みルールまとめ - Qiita

最近、bigqueryの評価を行っている。本番向けのデータではよくあることだが、本来データが入る場所にnullが入っていたり、要素が無かったり、逆に要素が多かったりする。 bigqueryはTreasureDataの様にスキーマレスではなくきちんとスキーマを定義しなければならない。 bigqueryでは、スキーマの定義にjsonを使い、データのロードにもjsonを使うため、要素にミスマッチが発生する場合が考えられる。スキーマとjsonで要素のミスマッチがあった場合は、データにnullが入っていた場合のbigqueryの挙動に関してまとめた。最初に結果だけ書き、後半に実際にデータロードで試したサンプルを乗せる。データロード時のBigQueryスキーマと、jsonの対応送信jsonにスキーマがある。送信jsonにスキーマが無い

hohoho_ho2005 2014/11/13

bigquery

リンク

BigQuery へブラウザからクエリを投げて結果をテーブルで表示する - Qiita

まあ，BigQuery の Web console から叩けば良いのですが，別途ブラウザで処理したいという需要もありますよね． OAuth 認証のためのクライアントIDを取得する https://console.developers.google.com/ の任意のプロジェクトで，[API と認証] -> [認証情報] -> [新しいクライアント ID を作成]と進むとクライアントIDを発行できます．今回はブラウザから認証を行ったユーザ自身の認可情報を使用するので，ウェブアプリケーションのクライアントIDを発行します．この項目は後から変更できるので，とりあえず localhost で試すようにしています．適宜変更してください．認証する Google API を利用するためのクライアントライブラリを読みこんでおきます．

hohoho_ho2005 2014/11/13

bigquery

リンク

『アドテクスキルアップゼミ　カラムナーデータベース検証まとめ』

皆様こんにちは。アドテク本部カラムーデータベースゼミチームです。今回の記事ではゼミチームが行った検証結果について発表させていただきます。また、この記事につきましては 11/12 に行われた db tech showcase Tokyo 2014 にて発表させて頂きました内容になります。プレゼン資料はこちらにあがっています。 ※追記 Impala / Presto の File Format についてご指摘を頂きましたのでデータロード及びまとめの部分に追記しました。アドテクスキルアップゼミカラムナーデータベース検証まとめ目的広告システムでは大量のデータをデータベースに入れて解析を行います。小規模から中規模なデータはRDBMSで行えますが、数TBを超えると RDBMS以外の選択肢を探さないといけません。ビッグデータ用のデータベースは比較資料が少なく、また、あったとしても検証

hohoho_ho2005 2014/11/13

aws
BigQuery

リンク

FluentdとGoogle BigQueryで遊ぶぞ！ - パルカワ2

という入門記事を書こうと思いましたが、最高の記事があったのでやめました。こちらを参照すると良いです。ちなみにこういうスクリプトをピッと書いたらデータが送れてることが確認出来ました。 use strict; use warnings; use Fluent::Logger; my $logger = Fluent::Logger->new( host => '127.0.0.1', port => 24224, ); $logger->post("access.log", { uri => "http://google.com", request => { addr => "test-addr", ua => "test-ua", referrer => "test-referrer", }, }); 触った感じ便利そうなので、なんかやりたい。これも面白い感じがします。

hohoho_ho2005 2014/11/11

リンク

GAE/JからBigQueryへのStream Insert

また、Developer Console上からファイルをアップロードする場合に関してはドキュメントに明記がなかったので推測ではありますが、quota制限はジョブと同じような感じではないかと思います。ジョブを使うメリットとしては1度のデータ読み込みで大きなデータファイルを送れることやGCS上のファイルを送れること、streamを使うメリットは一度に送れるデータ量はそれほどではないものの、ジョブ実行時の遅延もないので割とリアルタイムにデータ送信、データ分析を行えること等が挙げられます。これらの方法で読み込んだデータをBigQueryに新しく作ったテーブルや既存のテーブルに追加したり、テーブルのデータの書き換えたりすることが出来ます。今回は、上述したデータ取り込み方法のうち、Streamを使ったBigQueryへのデータ取り込み方法の詳細と実装例について解説します。以下、基本は http

hohoho_ho2005 2014/11/10

bigquery

リンク

Google BigQueryで今期アニメに関するツイートを分析するぞい！ - Qiita

BigQueryでアニメに関するツイートを分析するアニメツイートを記録したCSVをBigQueryに上げるデータ形式を選択する CSV/JSON/AppEngine Backupが選べますが今回はCSVとします。 File Uploadでブラウザからファイルアップロード・・・といきたい所ですがファイルブラウザからのアップロードは10Mバイトに制限されています。 10Mバイト以上のファイルはGoogleのクラウドストレージにファイルをアップロードする必要があります。 Google Cloud Storage にデータを上げる Cloud StorageにBucketsを作成しファイルをアップロードします。こちらではブラウザから10M以上のファイルのもアップロードできますが、数百Gバイトなどのでかいファイルはブラウザがタイムアウトなどを起こすのでGoogleの用意するツール(gsutil

hohoho_ho2005 2014/10/29

bigquery

リンク

Google BigQueryを使ってみた！

PerlCasual #06 2014/10/24 Yusuke Wada a.k.a. yusukebeRead less

hohoho_ho2005 2014/10/25

bigquery

リンク

BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita

まだ入門もしてないので「ことはじめ」じゃないです。大体触ってみたのを載せます。 Wikipedia 集計サンプルデータのwikipediaを集計してみました。データは3億行ほどあり、サイズは36GBほどあります。今回は、contributor_usernameを集計し、wikipediaに貢献している人ランキングをつくりました。上位陣はbotさん達ですね。結果としては、3億行のデータを、何も考えずに書いて 16.2秒で集計することが出来ました。 3億行を16秒。 countしなければ3秒くらいで終わります。 MapReduceみたいなのを一切書いてないのにこの速度。ちなみにテーブルはインデックスしているわけではなく毎回フルスキャンしているらしい。わお。データ保管: \$0.026/GB/mo クエリ: $5/TB (スキャンしたデータのサイズで課金) 今回のwikipe

hohoho_ho2005 2014/10/23

bigquery

リンク

BigQuery で COUNT(DISTINCT(X)) を使わない方が良い理由 - Qiita

簡潔に言うと、BigQuery の COUNT(DISCTINCT(X)) は正しい値を返さないことがあるので使わない方が良い。（ちゃんと仕様を理解して使おう） 2015/5/28 追記「GROUP BY して COUNT()」が面倒だという人は、EXACT_COUNT_DISTINCT(X) を使おう。 BigQuery では COUNT(DISTINCT(X)) ではなく EXACT_COUNT_DISTINCT(X) を使おう BigQuery の DISTINCT の仕様 https://cloud.google.com/bigquery/query-reference?hl=ja#aggfunctions より引用 Returns the total number of non-NULL values in the scope of the function. If you u

hohoho_ho2005 2014/10/18

bigquery

リンク

fluent-plugin-bigquery の設定 - Qiita

BigQuery側で「1リクエスト500行まで」という制限があるので500とする。 500ちょうどにしておくとエラーになることがあるという情報があるので、300程度にしておくとよいかもしれない(コメント欄参照)。 buffer_chunk_limit チャンクごとの最大バイト数。 BigQuery側で「1リクエスト1MBまで」という制限があるので1000000とする。 1MBちょうどにしておくとエラーになることがあるという情報があるので、768k程度にしておくとよいかもしれない(コメント欄参照)。 buffer_queue_limit プラグイン側でいくつのチャンクをメモリに保持しておくか設定できる。デフォルト値は1024となっている。小さすぎるとキューが溢れてエラーとなってしまうので、メモリ量と相談して大きめの値にしておくとよい。 1チャンクの最大サイズが1MBなので、デフォルトの1

hohoho_ho2005 2014/10/10

リンク

BigQueryをpythonから利用する。 - Qiita

BigQueryをpythonで使う。 BigQueryはGoogleの提供しているとても早いデータ分析環境だ。なんでもデータを何千台のマシンに分散して処理しているそうで、まさにGoogleにしかできそうもない。縁がありBigQueryを評価する機会に恵まれた。触ってみたら結構早かった。pythonから触ってみる方法を試したので共有したい。事前準備 BigQuery単体で使えるようにしておく。 Billingを設定しないと使えないかもしれない。 BigQueryAPIのアクセスは有効にしておく。 2015-09-14 修正下の方法を取らずとも、というライブラリが出ているようです。参考の為下の記述を残します。環境整備 ubuntu13.10で試した。 pythonで使うには以下のようなライブラリを入れる。pipは事前に入れておくこと。 sudo pip install --upg

hohoho_ho2005 2014/10/10

リンク

Raspberry PiからFluentdでBigQueryにデータを送るウェザーステーションの作り方 - Qiita

最近なんだか個人的に電子工作ブームで、ついAmazonでRaspberry Piをポチってしまった。とりあえずウェザーステーション（気温・湿度・気圧を測るやつ）を作ってみた。びろーんと伸びてるのは温度・湿度センサーDHT22で、基板上で青く光っているのが気圧センサーLPS331。丸くて黒いやつはなんとなくつけてみた圧電スピーカーで今回は使ってない。そして、これらのセンサーデータを10秒おきにFluentd経由でGoogle BigQueryに送る簡単なPythonコードを書いた。Google SpreadsheetからBigQueryのクエリを実行して描いた俺の部屋のお天気環境グラフがこんな感じ。単に1台分のグラフを書くだけならBigQueryにデータを入れる必要はなくてSpreadsheetに直接送れば済むのだけど、RasPi+Fluentd+BQの連携をいちど試してみたかったのだ

hohoho_ho2005 2014/10/04

リンク

gcp ja night #28 に参加してきたので色々まとめるよ #gcpja - えいのうにっき

gcp ja night #28 に参加してきたので、色々まとめるよー。スライド資料を見ればわかるようなことは書かない方向で。懇親会の場で、Googler の佐藤さんに、前から気になってたことをいくつか質問できたので、その内容もこのエントリの最後にメモっとく。イベントページ gcp ja night #28 - connpass 各種まとめ 2014.09.16 gcp ja night #28 #gcpja - Togetter gcp ja night #28 - 資料一覧 - connpass Managed VMのDocker対応とKubernetes最新動向 @briandorsey by Brian Dorsey, Developer Advocate, Google Inc. 僕の観測範囲では、スライド資料の公開はなし GAE などのような PaaS を使いつつ、IaaS