並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 35 件 / 35件

新着順 人気順

Dataflowの検索結果1 - 35 件 / 35件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

Dataflowに関するエントリは35件あります。 dataflowtechfeedpython などが関連タグです。 人気エントリには 『JavaScriptを大きく変えうる Dataflow Proposals の概要と論点(Call-this, Pipe Operator)』などがあります。
  • JavaScriptを大きく変えうる Dataflow Proposals の概要と論点(Call-this, Pipe Operator)

    Dataflow Proposals とは 以下の5つのプロポーザルをまとめて Dataflow Proposals と呼んでいる。 Stage 2: Pipe operator Stage 1: Call-this operator Stage 1: Partial application(PFA) Stage 1: Extensions Stage 0: Function.pipe and flow 例えば Pipe operator, Call-this operator, Partial application を組み合わせると、以下のように書けるようになる。(提案段階なので変わる可能性アリ) import { getAuth, getIdToken } from "firebase/auth"; function isPublic(article) { return articl

      JavaScriptを大きく変えうる Dataflow Proposals の概要と論点(Call-this, Pipe Operator)
    • Neva | dataflow programming language

      import { fmt } def Main(start any) (stop any) { println fmt.Println<string> --- :start -> 'Hello, World!' -> println -> :stop }

      • Dataflow Indexer データ整合性担保と性能改善 - LegalOn Technologies Engineering Blog

        はじめに こんにちは。LegalOn Technologies 検索・推薦チームの臼井(jusui)です。 私たちのチームは、LegalOn Technologies が提供する主要サービス—「LegalOn Cloud」、「LegalForce」、「LegalForceキャビネ」—の検索・推薦システムの開発と運用を担当しています。 2024年7月に当チームから「Dataflow 実践開発セットアップ」を公開しました。 tech.legalforce.co.jp 今回は、2024年4月から提供開始した弊社の新サービス「LegalOn Cloud」の初回リリースに向けて開発した Indexing pipeline とその後の改善についてご紹介します。具体的には、Cloud Pub/Sub と Cloud Dataflow を活用した Indexing pipeline の開発により、Elas

          Dataflow Indexer データ整合性担保と性能改善 - LegalOn Technologies Engineering Blog
        • Dataflow(batch)でZONE_RESOURCE_POOL_EXHAUSTEDが発生した話

          こんにちは。 GMO NIKKOのT.Cです。 今回は、Dataflowで、特定のゾーンにあるリソースが一時的な不足(= ZONE_RESOURCE_POOL_EXHAUSTED)により、間欠的にJobが失敗した内容について話したいと思います。 ※ 本ブログで発信される情報は、個人の見解でドキュメントで直接言及されてない内容も含まれているため、実際とは異なる可能性もあるので、参考までにしてください 1日何回も、Cloud FunctionでDataflow(batch・dataflow shuffle)を動かしてGCSにあるログを処理していますが、ゾーンのリソース不足により、Jobが失敗する現象が数日にわたって間欠的に発生していました。 Startup of the worker pool in zone us-central1-a failed to bring up any of th

            Dataflow(batch)でZONE_RESOURCE_POOL_EXHAUSTEDが発生した話
          • Dataflow の Day 2 Operation ベタープラクティス

            Google Cloud Japan の RyuSA です。👋 最近「 Pub/Sub からイベントとデータを引っ張って BigQuery に投げ込みたい」「 Cloud Spanner の変更ストリームを BigQuery に配置し、データを分析に使いたい」など、様々な用途で大量なデータの処理のために Dataflow を利用いただいているのを観測しています。👀 さて、巨大な分散処理をマネージドで実行してくれる便利な Dataflow ですが、運用する上でいくつか気を付けないといけないことがあります。そしてそれらの多くは「問題が発生してから」発覚することが多いです。この記事では「 Dataflowジョブの運用に関しての FAQ やよくある問題」に対する回答をまとめておきました。 監視 / 可観測性 Q: ジョブのログベースの監視のベストプラクティスをおしえて! A. ログベース監視を

              Dataflow の Day 2 Operation ベタープラクティス
            • Designing a Dataflow Editor With TypeScript and React | Protocol Labs Research

              This is a design report – a story about the tradeoffs and challenges that we encountered while building a medium-complexity React component in TypeScript. These include state modeling (“making illegal states unrepresentable”) basic type-level programming in TypeScript DX patterns for generically typed React components DX patterns for reusable controlled components using a Redux-like action/dispatc

                Designing a Dataflow Editor With TypeScript and React | Protocol Labs Research
              • BigQueryを補完する技術: DuckDBとDataflowでのデータ処理入門 - yasuhisa's blog

                背景 & Disclaimer DuckDB 概念や代表的なユースケース 使ってみる 1週間〜一ヶ月などある程度の期間、分析で使いたい場合 便利なCLIツールとして使う 所感 参考 Dataflow 代表的なユースケース 具体例 参考 背景 & Disclaimer BigQueryは非常に便利で、BigQueryにさえ上がってしまえばSQLで巨大なデータを簡単に相手にできます とはいえ、BigQueryに行きつくまでが大変な場合もありえます 例: 個人情報を含むsensitiveなデータで、BigQueryに気軽に上げられないケース 一時的であっても、相談なしにその手のデータを気軽にアップロードするのはやめてください... 数万件程度であれば手元のエクセルで開いて、問題ない行/列だけに絞る、ということもできるが、もっと量が多いデータだとそういうわけにもいかない。そもそも分析はSQLでやり

                  BigQueryを補完する技術: DuckDBとDataflowでのデータ処理入門 - yasuhisa's blog
                • 社内データパイプラインツールを Mercari Dataflow Template としてOSS化しました | メルカリエンジニアリング

                  Merpay Advent Calendar 2020 の10日目の記事です。 こんにちは。Merpay Solutions Teamの @orfeon です。 3ヶ月ほど前のブログ記事でメルペイでのFlexTemplateの活用例を紹介しましたが、ここで使われていたソフトウェアを先日、OSSとして公開しました。 この記事ではこのOSSとして公開したMercari Dataflow Templateについて紹介します。 BigQueryから取得したデータを別のDatabaseサービスに保存したり、異なるデータソースからのデータをSQLで結合・加工したり、AWSのS3にデータを出力したりなどなど、GCP上での何らかのデータの処理に関わられている方は役立つケースがあるかもしれないのでぜひご一読頂ければ幸いです。 Mercari Dataflow Templateとは何か Mercari Dat

                    社内データパイプラインツールを Mercari Dataflow Template としてOSS化しました | メルカリエンジニアリング
                  • Dataflow with Python practical setup guide - LegalOn Technologies Engineering Blog

                    こんにちは、LegalOn Technologies検索・推薦チームの志水です。 私たちのチームでは Elasticsearch へのデータのインデキシングをCloud PubSub を queue として挟んで非同期にしており、その処理にDataflowを活用しています。Dataflow(=Google managed Apache Beam) はサーバーレスでスケーラブルなデータ処理を得意としています。 Python を用いたDataflowの活用については、例えばこちらの記事が網羅的です。 この記事では似たような観点に加え、Docker上で動かす工夫やintegration testの工夫も合わせて書いていければと思います。 全体像 パッケージ構成 pyproject.toml (Poetry) Pipeline Integration test DoFnのテスト DirectRun

                      Dataflow with Python practical setup guide - LegalOn Technologies Engineering Blog
                    • Dataflowのテンプレートを作ってみる

                      GMOアドマーケティングのT.Kです。 既存のバッチ処理をDataprocからDataflowへ移植する際にDataflowのテンプレートが気になったので、 入門ガイドのクラシック テンプレートの作成を参考にして、WordCountのコードを改修してテンプレートを作ってみます。 テンプレート作成コマンド gradle clean execute -DmainClass=org.apache.beam.examples.WordCount \ -Dexec.args="--project=<YOUR_PROJECT_ID> \ --runner=DataflowRunner \ --region=us-central1 --stagingLocation=gs://<YOUR_BUCKET_NAME>/staging \ --templateLocation=gs://<YOUR_BUCKE

                        Dataflowのテンプレートを作ってみる
                      • Cloud Dataflow と Apache Beam に入門した - public note

                        BigQuery にストリーミングインサートしたい気持ちが高まってきて Cloud Dataflow と Apache Beam に入門しました。Cloud Pub/Sub -> Cloud Dataflow -> BigQuery のルートで取り込むにあたり、事前知識を得ることが目的です。 Apache Beam 特徴 Tour of Beam Transform Map FlatMap Filter Partition ParDo setup() start_bundle() process() finish_bundle() teardown() Custom Transform Windowing Fixed windows Sliding windows Session windows Beam パイプラインの設計 Cloud Dataflow 特徴 Pub/Sub to Big

                          Cloud Dataflow と Apache Beam に入門した - public note
                        • apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita

                          Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                            apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita
                          • 株式会社ヤプリ:データ パイプラインを Pub/Sub や Dataflow で構築しBigQuery へリアルタイムにデータを蓄積、Looker により顧客のデータ活用を促進 | Google Cloud 公式ブログ

                            株式会社ヤプリ:データ パイプラインを Pub/Sub や Dataflow で構築しBigQuery へリアルタイムにデータを蓄積、Looker により顧客のデータ活用を促進 ノーコードで大企業向けモバイルアプリを開発・運用・分析できるプラットフォームを展開する株式会社ヤプリ(以下、ヤプリ)。分析機能と可視化の強化を目的に Google Cloud を活用したデータ パイプラインを構築しています。このプロジェクトに携わったメンバーの皆さんに話を伺いました。 (利用している Google Cloud ソリューション) ストリーム分析 (利用している Google Cloud サービス) BigQuery、Cloud Run、Pub/Sub、Dataflow、Cloud Functions、Cloud Storage、Looker など データ ウェアハウスとしての BigQuery のコス

                              株式会社ヤプリ:データ パイプラインを Pub/Sub や Dataflow で構築しBigQuery へリアルタイムにデータを蓄積、Looker により顧客のデータ活用を促進 | Google Cloud 公式ブログ
                            • Cloud Dataflow で実現する柔軟なデータパイプライン - スタディサプリ Product Team Blog

                              はじめに こんにちは、@shase です。 スタディサプリでは、データパイプラインのツールとして、従来 AWS Kinesis Stream や、Embulk や、AWS Lambda などがよく使われてきました。 ただ、現在開発中のプロジェクトでは、システム間の連携の為、Cloud Pub/Sub が多用されているということもあり、データパイプライン Cloud Pub/Subとの親和性が高いCloud Dataflowを一部取り入れています。 本記事では Cloud Dataflow 自体は詳述しませんが、簡単に説明させていただくと、Cloud Dataflowとは、GCP が提供するマネージドな Apache Beam の実行環境になります。 Cloud Dataflow のメリット Cloud Dataflow(Apache Beam)には、以下のようなメリットを感じています。 ス

                                Cloud Dataflow で実現する柔軟なデータパイプライン - スタディサプリ Product Team Blog
                              • Cloud DataflowでGCS→BQのパイプラインをPythonで試してみる | DevelopersIO

                                はじめに データアナリティクス事業本部のkobayashiです。 GoogleCloudのETLサービスのDataflowを調査する機会があり、Google Cloud Storage(以降GCS)にあるCSVファイルをBigQueryにロードする処理をPythonスクリプトで試してみましたのでまとめます。 Dataflow  |  Google Cloud Cloud Storage Text to BigQuery DataflowはマネージドなApache Beam Runnerでプログラミング言語としてはJava,Python,Goを使うことができます。今回やろうとしている「Cloud Storage Text to BigQuery」に関してはGoogle提供のバッチテンプレートがありますが、このテンプレートはJavaで記述されているため使用せずPythonで実装してみます。 B

                                  Cloud DataflowでGCS→BQのパイプラインをPythonで試してみる | DevelopersIO
                                • GitHub - asg017/dataflow: An experimental self-hosted Observable notebook editor, with support for FileAttachments, Secrets, custom standard libraries, and more!

                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                    GitHub - asg017/dataflow: An experimental self-hosted Observable notebook editor, with support for FileAttachments, Secrets, custom standard libraries, and more!
                                  • Dataflow と Pub/Sub を使用して、ストリーミング パイプラインの重複データを処理する | Google Cloud 公式ブログ

                                    ※この投稿は米国時間 2021 年 8 月 24 日に、Google Cloud blog に投稿されたものの抄訳です。 目的ストリーミング データを処理して分析情報を抽出し、リアルタイム アプリケーションを強化することはますます重要になっています。Google Cloud Dataflow と Pub/Sub には、ミッション クリティカルなパイプラインを実行するための、スケーラビリティと信頼性に優れた、完成されたストリーミング分析プラットフォームが用意されています。このようなパイプラインの設計に際して、デベロッパーは、重複データの処理をどのように行うかという課題に頻繁に直面します。 このブログでは、ストリーミング パイプラインで重複データがよく発生する場所や、その処理に利用できるいくつかの方法について説明します。また、同じトピックについて説明しているこちらの技術解説もぜひご覧ください。

                                      Dataflow と Pub/Sub を使用して、ストリーミング パイプラインの重複データを処理する | Google Cloud 公式ブログ
                                    • DataflowのFlexテンプレートとScioで動的なパイプラインを実現する - エムスリーテックブログ

                                      はじめに 本記事はエムスリー Advent Calendar 2020の12日目の記事です。 エンジニアリンググループの西名(@mikesorae)です。 私のチームでは医療に関する様々なデータを集計して分析レポートの作成を行っています。 クライアントの要望に応じて条件や分析軸を変更するために、これまではRubyで動的にSQLを組み立てて集計を行っていましたが、条件が複雑なため出力されるSQLが3000行近くになり、デバッグやテストも困難なためメンテナンス工数が多くかかっていました。 また、データ数の増加に伴ってSQLの実行時間も次第に長くなり、このまま行くと継続的なサービス提供ができなくなるリスクがあったため、BigQuery + Google Cloud Dataflow + Scioによる作り直しを決断しました。 Google Cloud Dataflowの導入にあたって公式ドキュメ

                                        DataflowのFlexテンプレートとScioで動的なパイプラインを実現する - エムスリーテックブログ
                                      • Mercari Dataflow Templateの紹介

                                        テラーノベルで機械学習を担当している川尻です。テラーノベルで定期実行タスクの管理には、Google CloudのマネージドサービスであるCloud Composerを活用しています。以前にもテラーノベルのテックブログで他のサービスと比較して紹介しています。 定期実行タスクの中で典型的な処理の一つとして、BigQueryで処理した結果をGoogle Cloud StorageやCloud Spannerに書き出すというものが挙げられます。そういった処理のとき、Mercari Dataflow Templateが便利なので紹介します。また、最後にComposerから使うときのTipsをまとめました。 Dataflowのつらいところ Dataflow[1] というのは、Google Cloudのフルマネージドでサーバーレスなデータ処理サービスです。処理のパイプラインは、Apache Beam[2

                                          Mercari Dataflow Templateの紹介
                                        • DataflowとBigQueryで始める大規模データ分析基盤実装入門 - TECH PLAY Magazine

                                          大量に蓄積されたデータを活用するためには、データ分析基盤の構築が必要になる。だが、専門知識を持つ人材やデータ分析にかける予算確保は容易くはない。そこで、電通国際情報サービス(ISID)の全社横断的な研究開発部門である、X(クロス)イノベーション本部ソフトウェアデザインセンターの佐藤太一氏が、自らの経験をもとにDataflowとBigQueryで大規模データ分析基盤を実装する方法を紹介。その際に重要となるコスト観も合わせて解説した。 データ分析基盤構築における考え方とシステムアーキテクチャ 佐藤 太一氏 株式会社電通国際情報サービス(ISID) Xイノベーション本部 ソフトウェアデザインセンター 今回登壇した佐藤太一氏が所属する電通国際情報サービス(以下、ISID)のXイノベーション本部は、全社横断的な研究開発部門。佐藤氏はGitHubやJIRAなどの現代的な構成管理ツールの利用促進や部門横

                                            DataflowとBigQueryで始める大規模データ分析基盤実装入門 - TECH PLAY Magazine
                                          • ストリーミング パイプライン  |  Cloud Dataflow  |  Google Cloud

                                            制限なし PCollection、または制限なしコレクションにより、ストリーミング パイプラインにおけるデータが表現されます。制限なしコレクションには、Pub/Sub など、継続的に更新されるデータソースのデータが含まれます。 鍵のみを使用して、制限なしコレクション内の要素をグループ化することはできません。データソースには常に新しい要素が追加されるため、ストリーミング データのキーは無限に多くなる可能性があります。ウィンドウ、ウォーターマーク、トリガーを使用して制限なしコレクションの要素を集約できます。 ウィンドウの概念は、バッチ パイプライン内のデータを表す制限付き PCollection にも適用されます。バッチ パイプラインでのウィンドウ処理について詳しくは、Apache Beam のドキュメントの Windowing with bounded PCollections をご覧くださ

                                              ストリーミング パイプライン  |  Cloud Dataflow  |  Google Cloud
                                            • BigQuery の日本語データを Dataflow と Vertex AI でトピックモデリング / Topic modeling of Japanese data in BigQuery with Dataflow and Vertex AI

                                              2022.04.20 Data Engineering Meetup 【ZOZO × GMOペパボ】 https://pepabo.connpass.com/event/242688/

                                                BigQuery の日本語データを Dataflow と Vertex AI でトピックモデリング / Topic modeling of Japanese data in BigQuery with Dataflow and Vertex AI
                                              • BigQueryユーザのためのCloud Dataflow入門

                                                BigQueryユーザのための Cloud Dataflow入門 bq_sushi 2021-04-16

                                                  BigQueryユーザのためのCloud Dataflow入門
                                                • Apache Beamで実装したストリーム処理をKinesis Data AnalyticsとDataFlowで実行する - Qiita

                                                  Amazon Kinesis Data Analytics(以降、KDAと記載)がApache Beam(以降、Beamと記載)のサポートを開始したこと、また、最近触り始めたGCPのDataflowがBeamによる実装を前提としていることを知りました。 そこで、比較的小さい学習コストで、KDAとDataflowの両方のストリーム処理に加え、並列分散バッチ処理まで実装できるようになったり、プラットフォームをまたいでコードを再利用できるようになることを期待し、Beamの学習を始めてみました。 学習開始にあたり、KDAおよびDataflowで動作させる際の違いを確認するため、KDAとDataflowそれぞれのドキュメントで提供されているチュートリアルから始めました。 次に、ストリーム処理のロジック部分と、入出力や実行環境に依存する部分を切り離し、KDAとDataflowのどちらでも実行できるサン

                                                    Apache Beamで実装したストリーム処理をKinesis Data AnalyticsとDataFlowで実行する - Qiita
                                                  • Dataflow Prime: ビッグデータ処理で優れた効率と抜本的な簡素化を実現 | Google Cloud 公式ブログ

                                                    ※この投稿は米国時間 2021 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。 企業が変化に対応できるスピードは、成功と混乱の差となって現れます。「生じたこと」に対処するだけでは不十分です。企業は「現在生じていること」と「生じる可能性のあること」を把握し、それに応じてプロアクティブな行動を取る必要があります。こうしたビジネス上の課題にリアルタイムで対処することで、チームは変化するビジネスニーズに迅速に対応し、タイムリーかつ適切で快適なユーザーエクスペリエンスを提供できます。 このような課題などに対処するデータ プラットフォームを構築できるように、Dataflow をご用意しました。Dataflow は NoOps のサーバーレス データ処理プラットフォームで、アプリケーションとユーザーが生成する膨大な量のデータを収集して強化できます。 Datafl

                                                      Dataflow Prime: ビッグデータ処理で優れた効率と抜本的な簡素化を実現 | Google Cloud 公式ブログ
                                                    • Comparison of ES dataflow proposals v1 (2021) • JSChoi.org

                                                      JSChoi.org Comparison of JavaScript dataflow proposals v1 J. S. Choi 2021-12-24 Update (2022-03-25): This original article is now out of date. There is an updated version of this article from 2022-03. There are additionally some responses to this original article: 2022-01-06 • Tab Atkins • Holistic Review of TC39 “Dataflow” Proposals 2022-01-26 • TC39 plenary meeting 2022-01-27 • HE Shi-Jun aka Jo

                                                      • GitHub - hyperfiddle/electric: Electric Clojure: full-stack differential dataflow for UI

                                                        Electric is a new way to build rich, interactive web products that simply have too much interactivity, realtime streaming, and too rich network connections to be able to write all the frontend/backend network plumbing by hand. With Electric, you can compose your client and server expressions directly (i.e. in the same function), and the Electric compiler macros will infer at compile time the impli

                                                          GitHub - hyperfiddle/electric: Electric Clojure: full-stack differential dataflow for UI
                                                        • Dataflow で Python の外部パッケージをインストールする - Qiita

                                                          背景 Vertex AI Model Registry でバージョン管理しているモデルを使用して並列に予測を行う Dataflow のジョブを作成したくなったが、 Vertex AI の SDK である google-cloud-aiplatform が Dataflow ワーカーにインストールされていなかった。 やりたいこと Dataflow + Python でバッチジョブを作るときに任意のパッケージをインストールしたい。 ちなみにデフォルトでインストールされるパッケージはジョブの記述に使用している Python と Apache Beam SDK のバージョンによって異なっており、以下からパッケージのリストを参照できる。 google-cloud-* 系のパッケージや numpy, pandas などメジャーなパッケージは元からインストールされているものの、上記にないパッケージは自分

                                                            Dataflow で Python の外部パッケージをインストールする - Qiita
                                                          • Dataflowを徹底解説! - G-gen Tech Blog

                                                            G-gen の佐々木です。当記事では、Google Cloud(旧称 GCP)のマネージド ETL サービスである Dataflow を解説します。 概要 Dataflow とは Apache Beam とは ユースケース Dataflow のユースケース 例1 : リアルタイムのデータ取り込み 例2 : データストア間のデータ移行 開発 SDK パイプライン構成 Python SDK で記述したパイプラインの例 Dataflow テンプレート 構成要素 Dataflow ワーカー リージョンエンドポイント Dataflow GPU カスタムコンテナ 周辺機能 Dataflow SQL Dataflow Prime Dataflow ML ノートブックでの開発 パイプライン最適化の仕組み Dataflow Runner v2 自動スケーリング 水平自動スケーリング 動的スレッドスケーリング

                                                              Dataflowを徹底解説! - G-gen Tech Blog
                                                            • GitHub - dora-rs/dora: DORA (Dataflow-Oriented Robotic Architecture) is middleware designed to streamline and simplify the creation of AI-based robotic applications. It offers low latency, composable, and distributed dataflow capabilities. Applications ar

                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                GitHub - dora-rs/dora: DORA (Dataflow-Oriented Robotic Architecture) is middleware designed to streamline and simplify the creation of AI-based robotic applications. It offers low latency, composable, and distributed dataflow capabilities. Applications ar
                                                              • 【書き起こし】Dataflow Templateを活用した宣言的なデータパイプライン &#8211; 永井 洋一【Merpay Tech Fest 2021】 | メルカリエンジニアリング

                                                                【書き起こし】Dataflow Templateを活用した宣言的なデータパイプライン – 永井 洋一【Merpay Tech Fest 2021】 Merpay Tech Fest 2021は、事業との関わりから技術への興味を深め、プロダクトやサービスを支えるエンジニアリングを知れるお祭りで、2021年7月26日(月)からの5日間、開催しました。セッションでは、事業を支える組織・技術・課題などへの試行錯誤やアプローチを紹介していきました。 この記事は、「Dataflow Templateを利用した宣言的なデータパイプライン」の書き起こしです。 永井洋一氏:それでは「Merpay Tech Fest 2021」ということで「Dataflow Templateを利用した宣言的なデータパイプライン」という題で、永井から発表させていただきます。 まず、簡単に自己紹介をさせていただきますと、私はメル

                                                                  【書き起こし】Dataflow Templateを活用した宣言的なデータパイプライン &#8211; 永井 洋一【Merpay Tech Fest 2021】 | メルカリエンジニアリング
                                                                • Dataflow Auto Sharding for BigQuery delivers 3x performance | Google Cloud Blog

                                                                  Shanmugam (Shan) KulandaivelProduct Manager, Streaming Analytics, Google Cloud Many of you rely on Dataflow to build and operate mission critical streaming analytics pipelines. A key goal for us, the Dataflow team, is to make the technology work for users rather than the other way around. Autotuning, as a fundamental value proposition Dataflow offers, is a key part of making that goal a reality -

                                                                    Dataflow Auto Sharding for BigQuery delivers 3x performance | Google Cloud Blog
                                                                  • Dataflowが得意なこと、苦手なこと - case-kの備忘録

                                                                    Dataflowが得意なこと、苦手なことを考えてみました。 得意なこと バッチ/ストリーミング処理(特にストリーミング処理) サイズの大きいデータを扱うこと サーバ費用を抑えること 苦手なこと 逐次処理 複雑なパイプライン制御(役割が異なる) 得意なこと バッチ/ストリーミング処理(特にストリーミング処理) Dataflowはストリーミングとバッチ処理を同じように扱えます。ストリーミング処理はPub/Subからバッチ処理はGCSからデータを読み込むことになりますが入力先を変えるだけで行うことができます。ストリーミングとバッチの両方を対象としたプログラミングモデルは大きな差別化要素となっているようです。 p = beam.Pipeline(options=options) # READ FROM Pub/Sub p | 'Read PubSub Messages' >> beam.io.Re

                                                                      Dataflowが得意なこと、苦手なこと - case-kの備忘録
                                                                    • ルノーはいかにして BigQuery と Dataflow を活用した産業データ プラットフォームでスケーリングと費用面の課題を解決したか | Google Cloud 公式ブログ

                                                                      ルノーはいかにして BigQuery と Dataflow を活用した産業データ プラットフォームでスケーリングと費用面の課題を解決したか ※この投稿は米国時間 2021 年 8 月 27 日に、Google Cloud blog に投稿されたものの抄訳です。 当初はトレーサビリティやオペレーション効率の改善といったユースケースに対応する目的で、初めてデータ管理を工場に導入したところ、大規模な機械やオペレーションから産業データを収集するために適したソリューションを手にしたと確信しました。このソリューションのデプロイを開始した結果、収集した全データのコンテキスト化、処理、ホスティングを行うために、最先端のデータ プラットフォームが必要となりました。このプラットフォームはルノーのフットプリント全体にデプロイするためにスケーラブルでなければならず、かつ業務におけるデータ利用促進のために手頃な価格

                                                                        ルノーはいかにして BigQuery と Dataflow を活用した産業データ プラットフォームでスケーリングと費用面の課題を解決したか | Google Cloud 公式ブログ
                                                                      • Dataflow前編(Dataflowの概要からApache Beamの使い方まで) | フューチャー技術ブログ

                                                                        はじめにはじめまして、フューチャーのインターン”Engineer Camp”に参加した平野と申します。 今回のインターンでは、Google Cloud Platform (GCP)のサービスとして提供されているDataflowについて調査し、その仕組みや使い方についてこの技術ブログにまとめることに取り組みました。 フューチャーのインターンについてはこちらをご覧ください! 今回の記事は前編・後編に分かれており 前編: Dataflowの概要 Apache Beamの概要・内部的な仕組み Apache Beamのコードの書き方 後編: Dataflowを使う上での事前準備と基本的な使い方 GPUを使う上での事前準備と基本的な使い方 Pub/Sub・BigQueryとの連携例 という構成になっています。後編も公開しています。 DataflowとはDataflowは様々なデータの分散処理を簡単に実

                                                                          Dataflow前編(Dataflowの概要からApache Beamの使い方まで) | フューチャー技術ブログ
                                                                        1

                                                                        新着記事