タグ

awsとbigqueryに関するhohoho_ho2005のブックマーク (6)

  • S3 から BigQuery へ簡単にデータをロードする仕組み

    S3 から BigQuery へ簡単にデータをロードする仕組み AWS x GCP で最適なシステムを作ろう! こんにちは。データエンジニアリンググループの川崎です。まだここにない出会いを求めて、日々コードを書いています。 この記事では、 S3 から BigQuery へデータをロードするときに使っている汎用的な仕組みについて紹介したいと思います。 なぜそんな仕組みが必要なの? 弊社では、日時のバックアップや外部の協働者とのデータの受け渡しのために AWS の S3 をよく使っています。 一方でデータの分析には Redshift や BigQuery を使っています。 そのため受け取ったデータを分析するには適宜ロードする必要があるのですが、そのロードの方法がバラバラだったため、いくつか管理上の問題がありました。 データを取り込む手法がバラバラでメンテナンスしづらい S3 のファイルを Bi

    S3 から BigQuery へ簡単にデータをロードする仕組み
  • EC2(Python3)->BigQuery - Qiita

    前提 ・GCPのアカウントが準備できていること ・BigQueryに接続可能なtableが存在すること 実行環境の準備 ec2 -pyenv -naconda3-4.0.0 -pandas -httplib2 -google-api-python-client モジュール追加 sudo su - pyenv global naconda3-4.0.0 pip install httplib2 pip install google-api-python-client

    EC2(Python3)->BigQuery - Qiita
  • Amazon AthenaをBigQueryと比較してみた

    こんにちは、データ分析部の阿部です。 作業中音楽は聞かない派ですが、ホワイトノイズを聞いていると集中できるという噂を聞いたことがあるので少し気になっています。 今回は、re:Invent2016で発表されたばかりのAthenaを紹介します。 Athenaとは データの準備 テーブル作成 速度測定 まとめ Athenaとは 日、AWSのre:Invent中で、RedshiftやEMRに続くビッグデータサービスとして、Athenaというサービスがリリースされました。 Athenaは、S3上のデータ(CSV, JSON, その他フラットファイル)に対して、インタラクティブにSQLを実行することができます。 RedshiftやEMRに比べて、クラスタの構築や運用を必要とせず、シンプルにクエリを実行できるというメリットがあります。 課金形態も、クエリ&読み込んだデータ量に応じて課金という点で、Go

    Amazon AthenaをBigQueryと比較してみた
  • Quipper の DevOps のお仕事と技術的課題 - hakobera's blog

    技術的課題を書くと、それを解決してくれるエンジニアが採用できるって話は当ですか?というのは冗談としても、今の技術的課題をブログにまとめて公開するノーガード戦法も良いかと思う。— Kazuyuki Honda (@hakobera) May 25, 2015 このツイートがそれなりに反応があったので、有言実行してみる。 最初に書いておくと、これはQuipperの採用のための記事です。Quipper では下記のようなお仕事技術的課題の解決に興味がある DevOps エンジニアを絶賛大募集しております。興味のある方は、Wantedlyの募集ページ から「話を聞きに行きたい」をクリックしてみてください。応募までは行かないけど、もっと詳しい聞いてみたいという方は私個人にでも良いのでご連絡ください。(Twitter で @hakobera にメンション or DM、または hakoberaアットg

    Quipper の DevOps のお仕事と技術的課題 - hakobera's blog
  • 『アドテクスキルアップゼミ カラムナーデータベース検証まとめ』

    皆様こんにちは。 アドテク部カラムーデータベースゼミチームです。 今回の記事ではゼミチームが行った検証結果について発表させていただきます。 また、この記事につきましては 11/12 に行われた db tech showcase Tokyo 2014 にて発表させて頂きました内容になります。 プレゼン資料はこちらにあがっています。 ※追記 Impala / Presto の File Format についてご指摘を頂きましたのでデータロード及びまとめの部分に追記しました。 アドテクスキルアップゼミ カラムナーデータベース検証まとめ目的 広告システムでは大量のデータをデータベースに入れて解析を行います。 小規模から中規模なデータはRDBMSで行えますが、数TBを超えると RDBMS以外の選択肢を探さないといけません。 ビッグデータ用のデータベースは比較資料が少なく、 また、あったとしても検証

    『アドテクスキルアップゼミ カラムナーデータベース検証まとめ』
  • MPP on Hadoop, Redshift, BigQuery - Go ahead!

    Twitterで「早く今流行のMPPの大まかな使い方の違い書けよ!」というプレッシャーが半端ないのでてきとうに書きます.この記事は俺の経験と勉強会などでユーザから聞いた話をもとに書いているので,すべてが俺の経験ではありません(特にBigQuery).各社のSAの人とかに聞けば,もっと良いアプローチとか詳細を教えてくれるかもしれません. オンプレミスの商用MPPは使ったことないのでノーコメントです. MPP on HadoopでPrestoがメインなのは今一番使っているからで,Impalaなど他のMPP on Hadoop的なものも似たような感じかなと思っています. もちろん実装の違いなどがあるので,その辺は適宜自分で補間してください. 前提 アプリケーションを開発していて,そのための解析基盤を一から作る. 簡単なまとめ データを貯める所が作れるのであれば,そこに直接クエリを投げられるPre

  • 1