タグ

bigqueryに関するkimutanskのブックマーク (22)

  • Google BigQuery - コスト計算と最適化

    Google Cloud Platform (Google App Engine, Compute Engine, BigQuery や Container Engine など)の情報の日公式ブログ

    Google BigQuery - コスト計算と最適化
    kimutansk
    kimutansk 2015/12/25
    BigQueryで~~溶かした話の後即出てるので結構驚き。結構前から使いすぎによる事例は発生していたということなんですかね。ただ、整備されたと。
  • ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に

    はじめに これは ドリコムAdventCalendar の7日目です 6日目は、keiichironaganoさんによる iTunes 使用許諾更新のとき一旦キャンセルしてほしい話 です 【その2】ドリコム Advent Calendar 2015 もあります 自己紹介 @ka_nipan 去年の ドリコムを支えるデータ分析基盤 に引き続き、今年もドリコムのデータ分析基盤を担当しています。 分析基盤をTreasure Dataに移行 オンプレ環境の Hadoop からTreasure Data に移行しました。 また、ジョブ管理ツールやBIツールといったサーバーもAmazon EC2 に移行しており、 徐々にオンプレ環境を離れつつあります。 背景 オンプレ環境で Hadoop を運用して3年も経つと考えなければならないのが HW の寿命です。 さてどうしようかとなった時に、ほぼ迷いなく外部

    ドリコムを支えるデータ分析基盤がTD+AWSに移行した話 - かにぱんのなく頃に
    kimutansk
    kimutansk 2015/12/07
    比較した結果、TDはお高いものの、職人芸不要で料金も固定になると。「金を出した分だけ楽ができる」は深い・・・
  • BigQueryで150万円溶かした人の顔 - Qiita

    ※ かなり前の記事ですが、未だに引用されるので一応追記しておきます。タイトルと画像がキャッチーなのはちょっと反省していますが、これを見てBigQuery使うのを躊躇している人は多分あまり内容を読んでいないので気にする必要はないです。自分は当時の会社でも今の会社でも個人でも普通にBigQuery使っていて解析用データなどはBigQueryに入れる設計をよくしています。また、アドベントカレンダーだったのでネタっぽく書きましたが事前に想定できる金額です。 ※ 代役:プロ生ちゃん(暮井 慧) 巷のBigQueryの噂と言えば「とにかく安い」「数億行フルスキャンしても早い」などなど。とりわけ料金に関しては保存しておくだけであれば無視できるほど安く、SQLに不慣れなプロデューサーがクエリを実行しても月数ドルで済むなど、賞賛すべき事例は枚挙に暇がありません。 しかし、使い方によってはかなり大きな金額を使

    BigQueryで150万円溶かした人の顔 - Qiita
    kimutansk
    kimutansk 2015/12/06
    「WEHRE句には何を書いてもテーブルをフルスキャンしてしまう」は内部構造の目星がついていないと確かにやらかしそうです。気をつけないと。
  • fluent-plugin-bigqueryでログの書き込みが痕跡なく欠損するケースがある問題 - s_tajima:TechBlog

    fluent-plugin-bigqueryを使ってBigQueryにStreaming Insertでログを書き込む時に、 痕跡なくログが欠損するケースがあるのでは? という話です。 fluent-plugin-bigqueryでのログの書き込み処理/エラー処理はこのようになっています。 res.success? がtrueであればエラーはなく書き込みが成功しているという想定。 falseの時にはレスポンスのjsonのerrorエラーの中身を見て、ログを吐くなどのエラー処理をするようです。 res = client().execute( api_method: @bq.tabledata.insert_all, parameters: { 'projectId' => @project, 'datasetId' => @dataset, 'tableId' => table_id, },

    fluent-plugin-bigqueryでログの書き込みが痕跡なく欠損するケースがある問題 - s_tajima:TechBlog
    kimutansk
    kimutansk 2015/12/03
    BigQueryのレスポンスが200台でも結果にエラーが含まれているケースがあって、その場合普通正常応答と判断して特に何もしないので、痕跡なく落ちると。
  • BigQuery をスキーマレスっぽく運用する方法 - Qiita

    3行でまとめ 1つの列に JSON 文字列を突っ込む JSON functions を使って、必要な値を取り出す 要するに RDB の JSON 型みたいな感じで運用しようということ。 どういう時に使うの? 「1時間後からログ分析するから」とぶっこまれた時。当然、スキーマは決まっていない。あとは、使い捨てのアドホックな分析とか簡易ETLツールとして使うと便利だと思う。 なお、この方法はコストもかかるし、速くもない、実際は BigQuery なので速いけど、相対的には速くないので、甘えずにスキーマはちゃんと決めるようにしよう。 手順 スキーマを準備

    BigQuery をスキーマレスっぽく運用する方法 - Qiita
    kimutansk
    kimutansk 2015/09/12
    RDBのJSON型、で大体どんな感じかわかりますが、IO量が増え、時間も遅い代わりに後からどうとでもなるというパターンですか。
  • BigQueryクエリの処理の流れ

    Google Developers Summit Tokyo - The Googliness of Google Cloud Platform

    BigQueryクエリの処理の流れ
    kimutansk
    kimutansk 2015/05/31
    意外なくらい個々の要素に特別なものを使っているわけではないんですよね。ということはやはりColossusをはじめとしたストレージ層と、後は並列分散実行基盤がやはり鍵ですか。
  • ビーックビックビックBigQuery♪ / Introduction of BigQuery - Speaker Deck

    All slide content and descriptions are owned by their creators.

    ビーックビックビックBigQuery♪ / Introduction of BigQuery - Speaker Deck
    kimutansk
    kimutansk 2015/03/20
    トップスライド笑ったw ”リアルタイムな”可視化に向かないというのはインタラクティブクエリ系に共通する要素ではありますが、重要ですね。
  • 『アドテクスキルアップゼミ カラムナーデータベース検証まとめ』

    皆様こんにちは。 アドテク部カラムーデータベースゼミチームです。 今回の記事ではゼミチームが行った検証結果について発表させていただきます。 また、この記事につきましては 11/12 に行われた db tech showcase Tokyo 2014 にて発表させて頂きました内容になります。 プレゼン資料はこちらにあがっています。 ※追記 Impala / Presto の File Format についてご指摘を頂きましたのでデータロード及びまとめの部分に追記しました。 アドテクスキルアップゼミ カラムナーデータベース検証まとめ目的 広告システムでは大量のデータをデータベースに入れて解析を行います。 小規模から中規模なデータはRDBMSで行えますが、数TBを超えると RDBMS以外の選択肢を探さないといけません。 ビッグデータ用のデータベースは比較資料が少なく、 また、あったとしても検証

    『アドテクスキルアップゼミ カラムナーデータベース検証まとめ』
    kimutansk
    kimutansk 2014/11/13
    ファイル形式最適化&圧縮と、データがキャッシュに乗ってからのパターンも無いとあまり有意な比較ではないような。延長戦出ませんかねぇ
  • Raspberry PiからFluentdでBigQueryにデータを送るウェザーステーションの作り方 - Qiita

    最近なんだか個人的に電子工作ブームで、ついAmazonでRaspberry Piをポチってしまった。とりあえずウェザーステーション(気温・湿度・気圧を測るやつ)を作ってみた。 びろーんと伸びてるのは温度・湿度センサーDHT22で、基板上で青く光っているのが気圧センサーLPS331。丸くて黒いやつはなんとなくつけてみた圧電スピーカーで今回は使ってない。 そして、これらのセンサーデータを10秒おきにFluentd経由でGoogle BigQueryに送る簡単なPythonコードを書いた。Google SpreadsheetからBigQueryのクエリを実行して描いた俺の部屋のお天気環境グラフがこんな感じ。 単に1台分のグラフを書くだけならBigQueryにデータを入れる必要はなくてSpreadsheetに直接送れば済むのだけど、RasPi+Fluentd+BQの連携をいちど試してみたかったのだ

    Raspberry PiからFluentdでBigQueryにデータを送るウェザーステーションの作り方 - Qiita
    kimutansk
    kimutansk 2014/09/29
    サーバいらずで分析データストアに即投入できる・・というのは今となっては普通ですが、Raspiと組み合わせてみると新しい世界が見えますね。
  • gcp ja night #28 に参加してきたので色々まとめるよ #gcpja - えいのうにっき

    gcp ja night #28 に参加してきたので、色々まとめるよー。スライド資料を見ればわかるようなことは書かない方向で。 懇親会の場で、Googler の佐藤さんに、前から気になってたことをいくつか質問できたので、その内容もこのエントリの最後にメモっとく。 イベントページ gcp ja night #28 - connpass 各種まとめ 2014.09.16 gcp ja night #28 #gcpja - Togetter gcp ja night #28 - 資料一覧 - connpass Managed VMのDocker対応とKubernetes最新動向 @briandorsey by Brian Dorsey, Developer Advocate, Google Inc. 僕の観測範囲では、スライド資料の公開はなし GAE などのような PaaS を使いつつ、IaaS

    gcp ja night #28 に参加してきたので色々まとめるよ #gcpja - えいのうにっき
    kimutansk
    kimutansk 2014/09/17
    最後のGoodQuestionが・・ ともあれ、最後の質問集は参考になります。
  • はじめての BQ GAS

    gcpja night #28 での発表資料です。 サンプルコードはこちら: https://gist.github.com/hakobera/537b35971e3b698ae083

    はじめての BQ GAS
    kimutansk
    kimutansk 2014/09/17
    Container版しか使っていませんでしたが、Standaloneが使えると使いやすくなりそうですね。BigQueryとの連携はこうできますか。
  • 'An Inside Look at Google BigQuery'を読んだ - blue_field

    Google BigQueryを使ってみようと思って、最近少し勉強している。Googleがホワイトペーパーを出していたので、読んでみた。(※2012年の文献) BigQuery についてのホワイトペーパーを公開しました - Google Developer Relations Japan Blog 以下、内容の簡単なメモ。 もともとGoogle社内で利用されていた Google社内で利用されてきた'Dremel'というサービスがある。巨大なデータに対してSQLライクなクエリを実行すると、数秒で結果が返ってくる。Googleでは、エンジニアだけでなくアナリストなど非エンジニアの人も利用している。 Dremelがベースとなり、外部に公開されたのがBig Query。フルマネージドなクラウドサービス。サードパーティの開発者は、REST APIやCLI, Web UIなどを利用してこのサービスにア

    'An Inside Look at Google BigQuery'を読んだ - blue_field
    kimutansk
    kimutansk 2014/09/16
    日本語でコンパクトにまとまっているのは有難いですね。BigQueryとMapReduceのユースケース等も説明には役に立ちます。
  • Google BigQuery の話 #yapcasia // Speaker Deck

    フロントエンドのパラダイムを参考にバックエンド開発を再考する / TypeScript による GraphQL バックエンド開発

    Google BigQuery の話 #yapcasia // Speaker Deck
    kimutansk
    kimutansk 2014/08/30
    BigQueryのすごい点は「Googleのインフラを使えることである」と。身も蓋もないですが、でもそれが類似プロダクトの最大の差分ですよねぇ。
  • BigQuery と Google の Big Data Stack 2.0 - naoyaのはてなダイアリー

    先日、有志で集まって「BigQuery Analytics」という書籍の読書会をやった。その名の通り Google BigQuery について書かれた洋書。 BigQuery を最近仕事で使い始めたのだが、BigQuery が開発された背景とかアーキテクチャーとかあまり調べもせずに使い始めたので今更ながらその辺のインプットを増やして以降と思った次第。 それで、読書会の第1回目は書籍の中でも Overview に相当するところを中心に読み合わせていった。それだけでもなかなかに面白かったので少しブログにでも書いてみようかなと思う。 BigQuery の話そのものも面白いが、個人的には Google のインフラが書籍『Google を支える技術』で解説されたものが "Big Data Stack 1.0" だとして、BigQuery は Big Data Stack 2.0 の上に構築されており

    BigQuery と Google の Big Data Stack 2.0 - naoyaのはてなダイアリー
    kimutansk
    kimutansk 2014/08/16
    Google Omegaは果たして2.0世代なのか、3.0世代なのか。個人的には3.0世代であると考えたい所ではありますが・・・あれが2.0だとすると、3.0って何やってるのか想像を絶します。
  • Hadoop Conference Japan 2014 参加メモ(個別セッション①) #hcj2014 - 双六工場日誌

    Hadoop Conference Japan 2014 参加メモ(キーノート) #hcj2014 の続きです。 続いて、個別セッションの前半。先は長い。。。 個別セッション BigQuery and the world after MapReduce Speaker: 佐藤一憲 (GoogleGCPサポート GCP solutions design Docker/GCP meet up Google I/O で、GoogleMapReduceを使っていないという話があった We use Dremel ≒ Google BigQuery(MPP) 68B records in ~20 secs 120億行フルスキャンで10秒ぐらい コスト Storage 0.026/GB per manth Query: $5/TB Column Oriented Storage HDFSの元となっ

    Hadoop Conference Japan 2014 参加メモ(個別セッション①) #hcj2014 - 双六工場日誌
    kimutansk
    kimutansk 2014/07/10
    「Small JOIN: Broadcast JOIN」「Big JOIN: JOIN EACH, GROUP EACH -> Shuffle」と。あとはトランザクションはサポートしない、という割り切りもわかりやすいです
  • BigQuery and the world after MapReduce

    Tensor Processing Unit (TPU) Overview (July 6, 2018)

    BigQuery and the world after MapReduce
    kimutansk
    kimutansk 2014/07/10
    Small JoinとBig Joinで実行方式変わるわけですか。実行時のメモリに収まる単位に分割統治している結果ですかね。これは実際聞きたかったです。
  • BigQueryにTwitterのタイムラインを入れる [Ruby]

    Twitter のタイムラインを保存しておくとなにかと便利なので、色々と保存形式を変えながら 4 年くらい記録し続けている。ツイートの保存が便利すぎるので、ツイセーブというサービス化までした。かつてはテキストで、MongoDBMySQL とか Groonga とかいろいろやってきた。どれも問題ないんだけど、増え続けるログデータを保存する場所として考えると BigQuery が現代にマッチしてるようなのでそちらに移行した。 BigQuery に TL を保存するとできること TL の全てのデータをフルスキャンできる。これはかなり便利で、今回このブログ記事を書くにあたっても ‘BigQuery’ を TL から検索すれば、信頼できるフォローイングの人々の声を見ることができた。これにより「某 CA 社では 5000 台の MongoDB クラスタで BigQuery に対抗している」という

    BigQueryにTwitterのタイムラインを入れる [Ruby]
    kimutansk
    kimutansk 2014/07/03
    TwitterのタイムラインをBigQueryに入れておくのは何かと便利そうですね。ヤバさは同意です。
  • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

    「BigQueryは120億行を5秒でフルスキャン可能」は当か? 先日、kaheiさんがGoogle BigQuery(Googleクラウドの大規模クエリサービス)について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。(Fluentd Meetupでの)プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる(これ、記憶がちょっとあいまい。もう少しかかったかも)。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent

    Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
    kimutansk
    kimutansk 2014/05/20
    「事前にデータを入れる」ではなくStreaming/Connector for Hadoopで・・と、でもHadoop以外のプロダクトでもコネクタ取り込めば使える?やってみますか。
  • Developer's Summit 2013 参加メモ(1)

    ★受講中に書いていたメモを、推敲無しでそのまま上げています。 ★誤字脱字、内容の漏れなどあるかと思いますがご了承下さい。。 600億件を数十秒で検索するクラウド検索クエリサービスBigQuery / 佐藤一憲氏@google 導入 BigQueryのプレゼン 自己紹介 @kazunori_279/#gaeja/#gcloudja クラウドソリューションチーム ソリューションズアーキテクト appengine ja night管理人(23回くらい) AppEngine技術者のための情報交換イベント Agenda ビッグデータをGoogleスピードで 「Googleスピード」は社内用語、すごく早い デモ&事例紹介 WhitePaper なぜ早い? MapReduceとGoogleBigQueryの適材適所 ビッグデータをGoogleスピードで Googleではコードを書く時に最初にスケーラビリ

    kimutansk
    kimutansk 2013/02/15
    英語で時間かかって読み切れていなかったところがすっと理解できた感じでした。ありがたいですねぇ。。。
  • IT news, careers, business technology, reviews

    Q&A: How Thomson Reuters used genAI to enable citizen developers

    IT news, careers, business technology, reviews
    kimutansk
    kimutansk 2012/11/14
    後で読んでおかないといけませんねぇ