
こんにちは。おいしい健康エンジニアの花井です。 今年の8月に入社しまして、iOS(クライアント)、API(サーバーサイド)、データ分析など幅広くやっています。 言語で言うと、Ruby(Ruby on Rails), Swift, Pythonですね。 今回は、食材が似たレシピを探す話、と題しておいしい健康のデータ分析の話をします。 概要 おいしい健康のデータ分析まわり 使用食材が似ているレシピを探す 定義 協調フィルタリング BigQueryのメリット コード 類似度1位を見てみよう レシピ類似度のデータビジュアリゼーション 可視化対象 データ取り出し 可視化したネットワーク 概要 おいしい健康で最も人気がある下記レシピに対して、使用食材が似ているレシピを探します。 oishi-kenko.com BigQueryはクエリを気軽に実行して試行錯誤できるので最適化問題のソルバーとしてとても優
「BigQuery ML」:SQLで機械学習ってどういうこと?試しにSQLでロジスティック回帰を書いてみた。 はじめにGoogle Cloud Next 2018でBigQuery MLが発表されました。 文字通り、「BigQuery + 機械学習(Machine Learning)」を実現するもののようです。さっそく試してみたので、どんなものなのかと、その原理(の一部)を紹介したいと思います。この記事ではBigQuery MLの紹介と、それを直接SQLでやったらどのくらい大変かを見てみます。 BigQueryとは?BigQuery は、Google が提供するサーバーレスでスケーラビリティに優れた、低コストのエンタープライズ向けデータ ウェアハウスですとあるように、Googleのクラウドサービスの一つで、大規模なデータを貯めておくことができ、大量のデータに対しても分散して高速なデータの取
SRE所属の @siroken3 です。最近はもっぱらパートナー会社様とのデータ連携環境構築を主に、時々プロダクションのMySQL環境と分析基盤との連携インフラの構築が多いです。 本記事は、メルカリに出品された過去すべての商品をBigQueryへ同期するにあたって取り組んだ時のお話です。 背景 当社では分析目的などでBigQueryを以前から使用しており、プロダクションのMySQLからBigQueryへデータを同期して分析に活用してきました。特に商品を表すテーブルは重要です。 しかし、後述する課題によりBigQueryにアップロードすることができなかったため、分析用のMySQLDBのスレーブとBigQueryを併用せざるを得ませんでした。とはいえ不便なので以前からBigQueryのみで商品テーブルも分析対象としたい要望がありました。 課題 メルカリでは販売済み商品を物理削除していないため、
BigQuery はエンタープライズ向けデータウェアハウス ソリューションとして、2011 年に登場しました。Google が支えるインフラの処理能力を活用して、超高速での SQL クエリ処理を実現。以来、国や地域に関わらず、世界中すべてのお客様に向けて BigQuery を提供してきました。その中で、多くのお客様から「データ保管や分析を、サービスを運用する地域内で可能にしてほしい」という声を多数いただきました。 本日、Google は 東京 GCP リージョンでの BigQuery 提供開始を発表します。Google では、2018 年〜 2019 年にかけて BigQuery をお使いいただけるリージョンの拡大を予定しており、東京 GCP リージョンでの提供開始は、その第一弾に当たります。 これにより、既存のデータウェアハウスでは不可能なスケールとスピードでのデータ分析基盤を、日本に拠
今日で週休七日生活が終わる野球エンジニアこと@shinyorkeです. 昨年末に,BigQueryに突っ込んだ野球データでダルビッシュ有さん(@faridyu)の投球データについてかる~く調べてみました. 「今年こそPythonでデータ分析するぞ!」 「BigQueryをPythonから使いたいぞ!」 っていう野球好きの方の参考になれば幸いです. なお今回はホントにデータを覗き見した程度の軽いネタです. TL;DR 投球コースを散布図で可視化するといい感じになる 球種と結果をSankey Diagramにするのも面白い BigQueryとJupyter,pandasの組み合わせすっごい楽 次回はPySparkあたりで学習とかさせたい 多分おそらく@faridyuさんはここに書いた分析と傾向の斜め上をいくと思ういや行って欲しい(ファンとして) Starting Member TL;DR St
ソニーネットワークコミュニケーションズ株式会社の導入事例:BigQuery の導入でデータサイエンティストが “価値ある仕事” に集中できるように ソニーネットワークコミュニケーションズと言えば、インターネットプロバイダ(ISP)事業「So-net」が有名ですが、実は、ソニー製品・サービスのクラウド・アプリ開発・運用でも大きな役割を果たしています。そんな同社のデータ分析に、今、Google Cloud Platform(GCP)が活躍。80:20ルールなど、同社が抱えていた悩みを、GCP が、BigQuery がどのように解決したのかを聞いてきました。 ■ソニーネットワークコミュニケーションズ株式会社 クラウド&アプリ事業部門 クラウド開発運用部 2 課 課長 川田 雅人氏 ■ 利用している Google Cloud Platform サービス BigQuery、Cloud Dataflo
bigquery上でデータを加工して集計する時、このSQLが本当に合ってんのかテストコードで検証したくなる。 しかし、こういう外部サービスを使った処理のテストコードを書くのはとても面倒臭い。 とはいえ、書かんわけにもいかんし、実際に動かしてみないと分からないこともあるので、実際にbigqueryで処理を実行してテストする方法をまとめてみる。 テストデータのロード bigqueryにデータを突っ込む方法はバルクロードするかStreaming Insertの二つ。 しかし、バルクロードはテストコードを書く時に困るのが、データ量に関わらず処理に一定時間かかること。 どれだけ小さいデータでも最低1分前後は待たされる上に、時々謎の刺さり方をして最悪数分かかる場合がある。 一方でStreaming Insertはまずテーブルを作っておかなければいけないし、Streaming Insertのレスポンスが
はじめに 大量データをクラウドに格納してデータ分析に利用してみようと思い、 速い・安いと言われるGoogleCloudPlatform(GCP)のBigQueryを触ってみた… かったのですが、以下の記事にもあるように予想外に課金されてしまった事例を小耳に挟んでいたため二の足を踏んでいました。 BigQueryで150万円溶かした人の顔 BigQueryのコストに対する恐怖心を払拭すべく公式ドキュメントを料金面にフォーカスして読み解き、 不用意に大量課金されないよう気をつける点をまとめたのが本記事となります。 今後も改定される可能性もありますので、利用の際にはご自身でも確認していただければと思います。 また、情報が誤っていた場合はご指摘いただければ幸いです。 課金される操作 BigQueryで課金される内容は ・ストレージ代金 ・データ操作代金 です。単純ですね。 ただし、データ操作は回数
こんにちは! なんでもディープラーニングでやりたがる癖が抜けず、3ヶ月のディープラーニング禁止令を言い渡されていた後藤です。 本記事ではVASILYで利用しているデータ分析の環境について紹介します。 VASILYではデータ分析が必要な場面で、BigQueryとTableauを組み合わせて利用することが多いため、これらの実際の活用例とTableauの選定理由について紹介したいと思います。 以前、CTOがデータ周りの環境の全体像を紹介しました。 tech.vasily.jp 社内ではBigQueryを中心にデータ周りの環境が構築されており、そこからデータ活用のあらゆる業務へつながります。 データの可視化と社内への共有は主にTableauを使っています。 まずは、BigQueryとTableauの説明から始めます。 BigQuery とは BigQueryとは、Googleが提供しているデータウ
BigQuery Data Warehousing customers often migrate their DW from another source or grow from a small project. This video will provide details on data migration, scaling up and the best practices for a smooth transition. Missed the conference? Watch all the talks here: https://goo.gl/c1Vs3h Watch more talks about Big Data & Machine Learning here: https://goo.gl/OcqI9k
Google BigQuery has a lot of features you may not know about: undelete, partitions, table searches and even time-travel. In this video, Dan McClary and Jordan Tigani introduce these advanced concepts and show you how to supercharge your work with them. Missed the conference? Watch all the talks here: https://goo.gl/c1Vs3h Watch more talks about Big Data & Machine Learning here: https://goo.gl/Ocq
This document summarizes a microservices meetup hosted by @mosa_siru. Key points include: 1. @mosa_siru is an engineer at DeNA and CTO of Gunosy. 2. The meetup covered Gunosy's architecture with over 45 GitHub repositories, 30 stacks, 10 Go APIs, and 10 Python batch processes using AWS services like Kinesis, Lambda, SQS and API Gateway. 3. Challenges discussed were managing 30 microservices, ensur
こんにちは。 インフラエンジニアの村上です。 マネーフォワードのインフラチームは、サービスに関わるインフラから、自社の作業環境、開発環境、さらにはサービスのインフラの中でも物理的なものからOS・ミドルウェア・アプリケーションのメンテナンス・ビルド・リリース・運用まで幅広く関与しています。 今回はGoogle Cloud PlatformのBigQueryを活用してアクセスログの分析環境を構築した時の話を紹介します。 この記事に書かれる事 データ分析基盤としてBigQueryを使用した話と データ量を例示しながら使用を開始した時のトラブルシュートとパフォーマンスについて紹介する。 データ移行のコツもうまく含めながら書いていく。 BigQueryを採用した訳 マネーフォワードの家計簿は350万人以上のお客様に利用いただき、 アクセスログは日々2.500万件程度増えております。 サービス開始から
Stay organized with collections Save and categorize content based on your preferences. BigQuery public datasets A public dataset is any dataset that is stored in BigQuery and made available to the general public through the Google Cloud Public Dataset Program. The public datasets are datasets that BigQuery hosts for you to access and integrate into your applications. Google pays for the storage of
Google BigQueryは「速い・安い・シンプル」の3拍子揃ったビッグデータ処理サービス ~3大クラウドサービス比較~ Google BigQueryをAmazon Redshift、Microsoft Azure SQL Data Warehouseと比較 世の中にコンピュータが登場したから多くの種類のデータベース(DB)が登場し、使用用途、データ特性などで様々なDBを使い分けてきました。そして、最近ではDBの動作環境が、目の前のコンピュータではなく、クライドに移行し、更に処理できるデータ量が大きくなっています。特にビッグデータの分野では、Amazon Redshiftに代表される専用DBサービスが登場し、速く、安く、そして簡単にビッグデータの分析が行えるようになりました。今回は、そのようなクラウドのビッグデータ処理サービスの中から「Google BigQuery」について触れてみ
Share Facebook Twitter LinkedIn Mail Posted by, Thomas Park, Senior Software Engineer, Google BigQuery Many types of computations can be difficult or impossible to express in SQL. Loops, complex conditionals, and non-trivial string parsing or transformations are all common examples. What can you do when you need to perform these operations but your data lives in a SQL-based Big data tool? Is it po
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く