タグ

BigQueryに関するmatsukazのブックマーク (9)

  • BigQuery上でIPアドレスから位置情報を算出する方法 - matsukaz's blog

    概要 クライアントのIPアドレスを含んだ行動ログをBigQueryに保存し、どの地域からアクセスされているのかを分析したいなと思ったので、やり方をまとめました。 3年以上前の情報ですが、以下の記事を参考にしています。 cloudplatform.googleblog.com 準備 以下のような元データをBigQuery上に用意します。 $ cat test_data.csv 1,192.188.171.9 2,202.41.146.198 3,103.83.231.23 4,202.64.101.91 5,43.240.52.112 6,103.12.247.112 7,217.228.79.15 8,35.10.42.69 9,86.40.207.143 10,66.71.60.27 11,72.136.125.125 12,68.144.88.194 13,194.197.79.18

    matsukaz
    matsukaz 2017/08/17
    書きました。BigQuery上でできちゃうので便利!
  • 83億レコードを移行し、日々2,500万レコードのアクセスログをBigQueryに記録している話(インフラ編) - Money Forward Developers Blog

    こんにちは。 インフラエンジニアの村上です。 マネーフォワードのインフラチームは、サービスに関わるインフラから、自社の作業環境、開発環境、さらにはサービスのインフラの中でも物理的なものからOS・ミドルウェア・アプリケーションのメンテナンス・ビルド・リリース・運用まで幅広く関与しています。 今回はGoogle Cloud PlatformのBigQueryを活用してアクセスログの分析環境を構築した時の話を紹介します。 この記事に書かれる事 データ分析基盤としてBigQueryを使用した話と データ量を例示しながら使用を開始した時のトラブルシュートとパフォーマンスについて紹介する。 データ移行のコツもうまく含めながら書いていく。 BigQueryを採用した訳 マネーフォワードの家計簿は350万人以上のお客様に利用いただき、 アクセスログは日々2.500万件程度増えております。 サービス開始から

    83億レコードを移行し、日々2,500万レコードのアクセスログをBigQueryに記録している話(インフラ編) - Money Forward Developers Blog
  • BigQuery Updates@2015-04-16 - Qiita

    4/16 に Google Cloud Platform Blog にて Cloud Dataflow の Public Beta の開始と共に、BigQuery の各種アップデートが発表されました。 リリースノートも久々に更新されています。 しかし、ここに書いてある事以外にも色々と変更点が発見されていますが、情報が散在しているため、変更点をまとめてみました。まだ、漏れがあるかもしれないので、ご指摘をお待ちしております。 (4/18追記)4/17 に公式 Blog でもまとめ記事が出ました。確認中です。 アップデート内容一覧 Streaming Insert の制限の緩和 Streaming Insert の値段の変更 Batch Insert (Load) の制限の緩和 Google Cloud Datastore データのロードに対応 API リクエスト数制限の緩和 クエリの追加(ドキ

    BigQuery Updates@2015-04-16 - Qiita
  • BigQueryの課金について考えた(前編) - Qiita

    2015/02/15 書き直しました!サーセン! 安すぎて今までその考えはなかったわwww さて、BigQueryの課金について。 今まで1テーブルあたりのデータ量も数十GBレベル、レコード数も億に届くかどうかぐらいのデータなんでクソクエリ回したところで1回1円未満とかそんなだったので、あんまり気にしなかった。(まぁ、使い始めた頃は5倍ぐらいの値段だったので気にするレベルだったのですが) あと、GoogleAnalyticsPremiumも入っているし、毎月$500が免除されるためもっと気にしてなかった。w でも、普通に契約するとお金がかかるわけで。なので、ちょっと考えてみましたと。 そもそもどこに課金されるんだっけ? BigQueryの課金は主に3つあります。 入れているデータ量(ストレージ) StreamingInsert使っている場合はその行数 クエリするデータ量 詳しくはこちらに書

    BigQueryの課金について考えた(前編) - Qiita
  • fluent-plugin-bigquery の設定 - Qiita

    BigQuery側で「1リクエスト500行まで」という制限があるので500とする。 500ちょうどにしておくとエラーになることがあるという情報があるので、300程度にしておくとよいかもしれない(コメント欄参照)。 buffer_chunk_limit チャンクごとの最大バイト数。 BigQuery側で「1リクエスト1MBまで」という制限があるので1000000とする。 1MBちょうどにしておくとエラーになることがあるという情報があるので、768k程度にしておくとよいかもしれない(コメント欄参照)。 buffer_queue_limit プラグイン側でいくつのチャンクをメモリに保持しておくか設定できる。 デフォルト値は1024となっている。 小さすぎるとキューが溢れてエラーとなってしまうので、メモリ量と相談して大きめの値にしておくとよい。 1チャンクの最大サイズが1MBなので、デフォルトの1

    fluent-plugin-bigquery の設定 - Qiita
  • FluentdでGoogle BigQueryにログを挿入してクエリを実行する - Qiita

    Googleの虎の子BigQueryをFluentdユーザーが使わない理由はなくなったとのこと。 Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita よし、Google BigQueryを使って超高速ログ解析だ!!!!と思っているとそこまでの道のりは長かった。 Google BigQueryの環境を構築する Google BigQueryはGoogle Cloud Platformのサービスの1つである。Google Cloud Platformには様々なサービスがあり、統合されているような、されていないような作りになっている。AWSのWebインターフェースも難しいけど、Google Cloud Platformもよくわからないので覚悟してかかろう。公式のドキュメントも記述が古いときもあるので疑ってかかろう。 プロジ

    FluentdでGoogle BigQueryにログを挿入してクエリを実行する - Qiita
  • 誰でも簡単に超高速なクエリができるBigQueryとは?

    この2つの技術は、グーグル独自の技術というわけではない。しかし、ハードウェアから構築している、既存のグーグルのクラウド技術を活用し、パブリックなクラウドサービスとして提供可能なレベルの実装になっている点がGoogle BigQueryの強みとなっている。 BigQueryの特徴 他の類似サービスとの比較 巨大データを処理する技術としては、同じグーグルが使ってきたMapReduceというものがある。MapReduceとBigQueryを比べると、MapReduceが巨大なデータを安定的に処理できるプログラミングモデルであることに対し、BigQueryはアドホックにトライ&エラーしながらクエリを実行するサービスであることが異なっている。 MapReduceは、非構造化データを、プログラミングモデルを通して扱うことができ、巨大なテーブルの結合や巨大な出力結果のエクスポートも可能である半面、処理時

  • Fluentd+BigQuery+Elasticsearch+Kibanaで迷惑メールを解析 - yanoの日記

    僕のメールアドレスには、去年辺りから、どういうわけか毎日ほぼ決まった時間帯に、決まったフォーマットの subject をもつ迷惑メールが一日平均 5 通くらい届きます。 普通であれば削除するのですが、「ほぼ決まった時間帯」「決まったフォーマットの subject を持つ」「複数通送られてくる」という特異性からか、無意識に削除せず別のフォルダに切り分けていました。 数えてみると 1500 通くらいあったので、大して Big でもないしこれ以上 Big になって欲しくもないのですが、BigQuery に流し込んで解析してみたいと思います。 Fluentd(td-agent) を使うので、ついでに Elasticsearch と Kibana も使って可視化してしまいましょう。 入力プラグインさえ作ってしまえば、後は Fluentd の出力プラグインが Elasticsearch と BigQu

    Fluentd+BigQuery+Elasticsearch+Kibanaで迷惑メールを解析 - yanoの日記
  • 『アメーバピグへのGoogle BigQuery導入までのもろもろ設定記』

    この記事は、CyberAgent エンジニア Advent Calendar 2014 の6日目の記事です。 5日目はnekoruriさんのAmeba等で利用しているOpenStack Swiftを利用したオブジェクトストレージ 7日目はoinumeさんのGoLangJavaのenumっぽいライブラリ作った話です。 こんにちは、ピグ事業部のIshimura(Twitter, Github)といいます。アメーバピグのサーバサイドエンジニアをしています。ユニットテストとリファクタリングが好物です。 今回はタイトル通りなのですが、アメーバピグでGoogle BigQueryに実際にログを突っ込むまでに行った設定を記します。アメーバピグではBigQueryを各種施策の検討・評価のための分析用に利用する予定です。 BigQueryの特徴やメリットはググれば(Googleだけに)たくさん出てくるので

    『アメーバピグへのGoogle BigQuery導入までのもろもろ設定記』
  • 1