[B! BigQuery] ji_kuのブックマーク

Fight with growing data on Rails

名古屋Ruby会議03 発表資料。

ji_ku 2017/02/13

リンク

BdashというBIツールをリリースしました - hokaccha memo

BdashというアプリケーションをElectronで作りました。 bdash-app/bdash: A simple business intelligence application. 以下からダウンロードしてインストールできます（現状まだMac版だけ）。 https://github.com/bdash-app/bdash/releases ざっくりとこんな感じのことができる。 SQLを書いて保存＆実行できる結果を元にグラフを書ける gistで共有できる現状で対応しているデータソースはMySQL、PostgreSQL（Redshift含む）、BigQuery 仕事でRedshiftを使って分析SQLを書くことが増えて、手元ではJupyter Notebookを使ってたんだけど、SQL書いてグラフを書くだけの用途には若干オーバースペックでもうちょっと簡単にできるといいなと思ったのがき

ji_ku 2017/02/08

リンク

Bigqueryの内部処理について徹底解剖してみた| PLAID engineer blog

プレイドで使い倒しているBigqueryの内部構造について徹底解剖してみました！

ji_ku 2016/12/09

BigQuery

リンク

SQLおじさん(自称)がBigQueryのStandard SQLを使ってみた

2016/10/22 GCPUG Fukuoka 4thで発表。 BigQueryのStandard SQLの機能やLegacySQLからの移行に関する注意点など。Read less

ji_ku 2016/10/25

BigQuery

リンク

EmbulkでMySQLのデータをBigQueryにロードするのに便利なツールの開発 - 電脳徒然日記

Embulkを利用してMySQLのデータをBigQueryにロードする際に便利なツールを開発したので紹介です。「Samidareっていいます！　よろしくお願いします。Embulkの設定作成はお任せください！」開発経緯業務でログデータの解析基盤としてBigQueryを使用することになったのですが、本番環境のMySQLのデータもBigQueryで参照できるようにすると色々と夢が膨らむという事に気付きました。 Embulkを利用すると簡単にMySQLのデータをBigQueryにロードできるという情報を入手したので検証したところ、確かにこれは楽チンだという結論に至りました。ただ、問題点としてテーブルの数だけEmbulkの設定ファイルを作成し、テーブル毎にEmbulkを実行しなければならないという点です。当初でもBigQueryにロードしたいテーブル数は20以上あり、今後対象のテーブルが増え

ji_ku 2016/10/15

リンク

BigQuery の Partitioned Table 調査記録 - Qiita

embulk-output-bigquery の Partitioned Table 対応で調べてたので、その時に調べたものを雑にまとめておく。APIを直接叩いて実装しているので、bq コマンドでの使い方については調べていない。 EDIT: 現在は DATE もしくは TIMESTAMP カラムを指定した partitioning が可能ですが、本ドキュメント記載時にはまだ BigQuery がサポートしていなかったため、その記述が抜けています。 TL; DR 基本的に tableId に partition decorator ($YYYYMMDD) を指定して操作する DAYパーティションしか(今のところ)切れない。特定パーティションのデータを置き換えたい場合は、パーティションを指定して、writeDisposition: 'WRITE_TRUNCATE'として load (または

ji_ku 2016/10/04

BigQuery

リンク

83億レコードを移行し、日々2,500万レコードのアクセスログをBigQueryに記録している話（インフラ編） - Money Forward Developers Blog

こんにちは。インフラエンジニアの村上です。マネーフォワードのインフラチームは、サービスに関わるインフラから、自社の作業環境、開発環境、さらにはサービスのインフラの中でも物理的なものからOS・ミドルウェア・アプリケーションのメンテナンス・ビルド・リリース・運用まで幅広く関与しています。今回はGoogle Cloud PlatformのBigQueryを活用してアクセスログの分析環境を構築した時の話を紹介します。この記事に書かれる事データ分析基盤としてBigQueryを使用した話とデータ量を例示しながら使用を開始した時のトラブルシュートとパフォーマンスについて紹介する。データ移行のコツもうまく含めながら書いていく。 BigQueryを採用した訳マネーフォワードの家計簿は350万人以上のお客様に利用いただき、アクセスログは日々2.500万件程度増えております。サービス開始から

ji_ku 2016/08/05

BigQuery

リンク

Google BigQuery クエリーリファレンス - Google Cloud Platform

このページは、2015 年 3 月 1日現在の https://cloud.google.com/bigquery/query-reference の翻訳です。最新の情報は、こちらの英語のページもご確認ください。修正等のフィードバックがあれば、こちらからお寄せください。 BigQuery のクエリーは、標準 SQL の SELECT 文にアレンジを加えたものを使って書きます。BigQuery は、COUNT、算術演算、文字列操作など、さまざまな関数をサポートしています。このドキュメントでは、BigQuery クエリーの構文と関数の詳細を説明します。目次クエリーの構文 BigQuery のすべてのクエリーは、次の形式の SELECT 文です。 SELECT [[AS] ] [, [[AS] ], ...] [() WITHIN ] [FROM [(FLATTEN(|()] [, |()

ji_ku 2016/06/09

BigQuery

リンク

はじめての BQ GAS

gcpja night #28 での発表資料です。サンプルコードはこちら: https://gist.github.com/hakobera/537b35971e3b698ae083

ji_ku 2016/04/22

BigQuery

リンク

BigQuery で今月のテーブル名を TABLE_QUERY を使って取得する - Qiita

BigQuery には Table wildcard functions という関数があって、テーブルを日次、月次とかに分割している場合に重宝します。例えば、 TABLE_DATE_RANGE(mydata.people, TIMESTAMP('2014-03-25'), TIMESTAMP('2014-03-27')) こう書くと、 mydata.people20140325 mydata.people20140326 mydata.people20140327 というテーブルが一気に取得できます。しかし、これ日次でテーブルを分割している場合にしか使えなくて、そこまで行数が多くない場合、月次で分割しているテーブルがあって、その今月分のデータだけを引っ張ってきたい、という場合に使えないのです。ということで、擬似的に TABLE_MONTH_RANGE 的なことができないか試しいたとこ

ji_ku 2016/04/22

BigQuery

リンク

VOYAGE GROUP　エンジニアブログ : BigQueryで使えるクエリをまとめてみた

2015年02月16日15:55 カテゴリ BigQueryで使えるクエリをまとめてみたこんにちは。Zucks Ad Networkの開発に携わっている@smileeeenです。最近では所謂ビッグデータを活用している事例も珍しくなくなってきました。ビッグデータを用いて分析などを行う時に、便利なツールの1つとしてGoogleが提供しているBigQueryがあげられると思います。弊社内でもBigQueryの活用例が増えてきているので、この機会にどのようなクエリが発行できるのか、お勉強を兼ねてまとめてみました。ちなみに私は普段MySQLに慣れ親しんでいるので、MySQLではできないような事を中心にまとめてみたいと思います。それでは、公式サイトのリファレンスに倣って確認していきたいと思います。 Query Reference - Google BigQuery — Google Clo

ji_ku 2016/04/22

BigQuery

リンク

https://qiita.com/yuichi_komatsu/items/3aae65c362b2a57f6fbf

ji_ku 2016/03/22

BigQuery

リンク

MySQL のテーブルを BigQuery にインポートするための App::BigQuery::Importer::MySQL - まいんだーのはてなブログ

このエントリは MySQL Casual Advent Calendar 2014 の1日目として書かれた記事であり、同時に Google Cloud Platform Advent Calendar 2014 の17日目として書かれた記事でもあります。このエントリは MySQL と BigQuery を組み合わせて使う際に誰しも思うであろうことをどう解決するかという一手について書いたものです。 MySQL についてもはや説明不要の RDBMS ですね。これを読まれている方の中でも多くの人が使っているのではないでしょうか。 MySQL Casual Advent Calendar 2014 はまだまだ執筆者を募集しておりますので、ふるってご参加ください。 MySQL Casual Advent Calendar 2014 - Qiita BigQuery についてこちらも説明は要らな

ji_ku 2016/03/22

BigQuery

リンク

BigQueryで擬似truncate・擬似delete - Qiita

※注意：2015年5月末くらいに試した内容なので今後も使い続けられる方法かどうかはわかりません。 BigQueryにデータをインポートしたけど間違いがあったのでインポートし直したい、ということありますよね。普通のDBみたいにtruncateやdeleteができれば楽なのですがBigQueryにはそのような機能は用意されていないようです。しかし、クエリ実行のオプションを使うことで擬似truncateすることができたのでメモしておきます。まず、WebUIを開き、truncateしたいテーブルのselect文を書きます。この時、LIMIT 0を付けておきます。そして右下のShow Optionsボタンをクリックします。 Destination Tableに同じテーブルを指定し、Write PreferenceをOverwrite tableにします。データ量が多い場合はAllow La

ji_ku 2016/03/22

BigQuery

リンク

BigQueryことはじめ。あとBigQueryについて料金とか運用とか調査 - Qiita

まだ入門もしてないので「ことはじめ」じゃないです。大体触ってみたのを載せます。 Wikipedia 集計サンプルデータのwikipediaを集計してみました。データは3億行ほどあり、サイズは36GBほどあります。今回は、contributor_usernameを集計し、wikipediaに貢献している人ランキングをつくりました。上位陣はbotさん達ですね。結果としては、3億行のデータを、何も考えずに書いて 16.2秒で集計することが出来ました。 3億行を16秒。 countしなければ3秒くらいで終わります。 MapReduceみたいなのを一切書いてないのにこの速度。ちなみにテーブルはインデックスしているわけではなく毎回フルスキャンしているらしい。わお。データ保管: \$0.026/GB/mo クエリ: $5/TB (スキャンしたデータのサイズで課金) 今回のwikipe

ji_ku 2016/02/26

BigQuery

リンク

MySQLからBigQueryへのデータロード

はじめまして、エンジニアの古堀です。 Aimingではログの分析ツールとしてGoogleのBigQueryを利用しています。ゲームプレイのログを集計、分析して機能開発、改善の指針として活用しています。実際に運用に乗せてみるとログだけでは情報が足りず、ユーザー情報やマスターデータなども必要であると気付きました。そこでMySQLのデータをBigQueryに反映させる試みに取り組んだので紹介したいと思います。 BigQueryの特長と言えば以下の2点ですが、実際に使用してみるとGoogleアカウントでの認証や権限設定なども便利だと感じますね。 * クエリーの処理速度が速い(数十億件のテーブルでも数十秒で結果が返ってくる) * 費用が安い h2. Embulkの採用 MySQLのデータをBigQueryに反映するツールとして “Embulk”:https://github.com/embulk

ji_ku 2016/02/25

BigQuery

リンク

これでBigQueryをドヤ顔で語れる！BigQueryの基本

This document summarizes a microservices meetup hosted by @mosa_siru. Key points include: 1. @mosa_siru is an engineer at DeNA and CTO of Gunosy. 2. The meetup covered Gunosy's architecture with over 45 GitHub repositories, 30 stacks, 10 Go APIs, and 10 Python batch processes using AWS services like Kinesis, Lambda, SQS and API Gateway. 3. Challenges discussed were managing 30 microservices, ensur

ji_ku 2016/02/25

BigQuery

リンク

ネストされたJSONデータをFluentdでGoogle BigQueryに投入してクエリを実行する

ネストされたJSONデータ（https://cloud.google.com/bigquery/docs/personsData.json）を、fluentdを使ってGoogle BigQueryに投入します。 BigQueryは、こういった構造化されたデータに対応する WITHIN、FLATTEN といったSQL関数が準備されています。これらを利用したSQLクエリを構築してデータを取り出してみます。プロジェクトを作成 https://console.developers.google.com/project Google Developers Consoleを開き、プロジェクトを作成して、『プロジェクト ID』『メールアドレス』をメモしておいてください。また、P12キーファイルを保存しておいてください。認証で必要になります。サーバ AMI: CentOS 6 (x86_64)

ji_ku 2016/02/25

BigQuery

リンク

fluent-plugin-bigquery利用時に、tableを動的に設定する - Qiita

経緯ちょうどログ解析基盤を移行しようとしていたところに、下記の記事が。 Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja BigQueryは、社内の利用者も多いGoogle Apps Script用のAPIも用意されているので、これは検証せねばと思っていました。検証には、こちらの記事がたいへん参考になりましたm(__)m FluentdでGoogle BigQueryにログを挿入してクエリを実行するそして、課題も。。 fluent-plugin-bigquery単体では、BigQueryの格納先tableを動的に変更することができません。 BigQueryのPricingをみると、クエリ毎にtableのデータ量で課金されます。また、recordの削除はできないので、定期的にtableを変更してクエリ対象のtableが肥大化し

ji_ku 2016/02/25

リンク

fluent-plugin-bigquery の認証に JSON key を使う - Qiita

結論 fluent-plugin-bigquery を GCE 以外で使う場合、認証情報が必要だが、 p12キーファイルはディスコンなので、JSON key の利用を推奨する JSON key 形式なら、fluentd の設定ファイルに秘密鍵を埋め込めて便利設定サンプル <match dummy> type bigquery auth_method json_key json_key { "private_key": "-----BEGIN PRIVATE KEY-----\n...", "client_em ail": "xxx@developer.gserviceaccount.com" } </match> 解説先日、fluent-plugin-bigquery に以下の Pull Request を出してマージしてもらった。 Support JSON key file and a

ji_ku 2016/02/25

BigQuery

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

BigQueryに関するji_kuのブックマーク (42)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス