"apache beam"の人気記事 9件 - はてなブックマーク

1 - 9 件 / 9件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

"apache beam"の検索結果1 - 9 件 / 9件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

"apache beam"に関するエントリは9件あります。 python、 beam、 apache などが関連タグです。人気エントリには『PythonでApache beam 入門』などがあります。

PythonでApache beam 入門
- 87 users
- shunyaueta.com
- テクノロジー
- 2020/12/26
2020-12-26 TensorFlowの勉強をしていたら、Apache beam を前処理に採用していたケースがあり、興味を持ったので深堀りしてみます。興味が湧いたモチベーションとしては、データ量が増加しても前処理部分を難なくスケールできそう(前処理部分をスケールさせて高速に実験を回したい、並列化などはすべて良い感じにbeamに任せれそうバッチとストリーミングの両者に対応可能なので、柔軟な機械学習の推論サービスが提供できるのでは? (GCPの参考資料 Data preprocessing for machine learning: options and recommendations)Apache beam を触りつつ分散データ処理を学びたいhttps://github.com/jhuangtw/xg2xg#services を見てみるとGoogle 内部のFlume という並列
- beam
- apache
- あとで読む
- Dataflow
- Python
Apache Beam (Dataflow) 実践入門【Python】 - Qiita
- 8 users
- qiita.com/esakik
- テクノロジー
- 2020/07/12
はじめにこの記事は、Apache Beam Documentation の内容をベースとしています。 Apache Beam Python SDK でバッチ処理が可能なプログラムを実装し、Cloud Dataflow で実行する手順や方法をまとめています。また、Apache Beam の基本概念、テストや設計などについても少し触れています。 Apache Beam SDK 入門 Apache Beam SDK は、Java, Python, Go の中から選択することができ、以下のような分散処理の仕組みを単純化する機能を提供しています。 Pipeline：処理タスク全体（パイプライン）をカプセル化します。処理タスクには、入力データの読み取り、変換処理、および出力データの書き込み等が含まれます。 PCollection：分散処理対象のデータセットを表すオブジェクトです。通常は、外部のデータ
- Beam
- python
Apache Beamが多言語・多バックエンド処理系を実現する仕組み
- 8 users
- laysakura.github.io
- テクノロジー
- 2022/08/31
ストリーム処理とバッチ処理を統合して扱えるプログラミングモデル（あるいはデータ処理のフロントエンド）である Apache Beam が、特にGoogle Cloud DataflowやApache Flinkからの利用を背景にシェアを伸ばしています。 Apache Beamの特色として、複数のプログラミング言語のSDKを持つこと・複数のバックエンド処理系（Flinkなどを指す）を持つことが挙げられますが、これがどう実現されているのかをまとめます。目次前提知識: Beam入門 Exampleコードからざっくり理解 Beamのプログラミング体験 Beamのコードを見てみる Beamにおけるパイプライン実行 Beamのプログラミングモデルをちゃんと理解前提知識: Beamでは複数種類のバックエンドが使える前提知識: Beamプログラムは多言語で記述できる多言語・他バックエンド対応の課題
Cloud Dataflow と Apache Beam に入門した - public note
- 6 users
- ts223.hatenablog.com
- テクノロジー
- 2021/07/18
BigQuery にストリーミングインサートしたい気持ちが高まってきて Cloud Dataflow と Apache Beam に入門しました。Cloud Pub/Sub -> Cloud Dataflow -> BigQuery のルートで取り込むにあたり、事前知識を得ることが目的です。 Apache Beam 特徴 Tour of Beam Transform Map FlatMap Filter Partition ParDo setup() start_bundle() process() finish_bundle() teardown() Custom Transform Windowing Fixed windows Sliding windows Session windows Beam パイプラインの設計 Cloud Dataflow 特徴 Pub/Sub to Big

Apache Beamでバルクデータローダを作っている話 - Qiita
- 5 users
- qiita.com/koji_mats
- テクノロジー
- 2020/01/17
個人的に作っているETLツールの紹介をします。分散処理可能なバルクデータローダ最近、CSV等のテキストベースのファイルをBigQueryへデータロードする際にEmbulkを使っているのですが、短納期のデータ分析案件で、長時間掛かるデータロードが途中で失敗すると詰んでしまう場合があります。 Embulkのスループットを上げる方法がないか調べたところ、MapReduce Executorというプラグインがあるもののv0.9.18からサポートされなくなっています。また、分散処理可能なバルクデータローダとしてApache Sqoopというのもありますが、Hadoop基盤を使ってRDBからHDFSやGoogle Cloud Storage等にデータロードができるものらしく今回の用途と合いません。ちなみに、急ぎの時はApache Beamを使ってデータロード処理のコードを書いて、Google
- あとで読む
apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita
- 5 users
- qiita.com/shibacow
- テクノロジー
- 2021/01/24
概要 BigQueryに保存されたtweetを形態素解析したい。BigQuery単体では形態素解析出来ないし、mecabの新語辞書を使ったりも出来ないのでdataflowを利用することで形態素解析を行う。 twitterでは、常に最新の言葉が使われる。そのためmecabの辞書は neologd を利用して最新の状態の言葉で形態素解析ができるようにする。通常のdataflowのサンプルと異なるのはmecabで使う辞書ファイルをどのように配布するかという問題だ。今回は、パッケージ等は作らなず、インスタンスが生成された後、GCSにおいたmecabの辞書ファイルを読んでいる。今回はtwitterで使われる人名は誰が多いのかをサンプルとして調べることにする。 shibacow@xxxx~$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ip
- python
Apache Beamの概観を理解する | BLOG - DeNA Engineering
- 4 users
- engineering.dena.com
- 世の中
- 2023/12/06
こんにちは！@karupaneruraです。自分のことはPerlの人として知ってもらっている方が多いかと思いますが、今回はJavaの記事を書いてみます。今回の記事では、「Apache Beamについて調べたけどよくわからなかった」「Apache Beamはなんとなく分かるような気がするけどサンプルコードを多少書き換える範囲から抜け出しきれない」「理解をもう一歩進めて複雑なパイプラインも記述できるようになりたい」という方に向けて、どのようにBeam SDKをつかってどのようなことができるのか、その概観を掴んでもらえるようなところを目標にしています。なお、分かりやすさのために説明を一部端折ることで不正確な部分が一部出てくるかと思いますが、この概観を掴んだあとに公式ドキュメントを読むなどして補完・修正していただけますと幸いです。 Apache Beamのご紹介特にApache Beamを
Apache BeamでJavaのObjectをParquet形式でS3とGCSとローカルに出力する - YOMON8.NET
- 3 users
- yomon.hatenablog.com
- テクノロジー
- 2020/07/13
GCPのCloud Dataflowでも使われている、Apache BeamでJavaの内部で持っているデータをParquetに出力するやり方です。サンプルコードの構成元にしたMaven ArcheType 利用するPOJO GenericRecordへの変換出力先の切り替えローカルに出力してみる GCSに出力してみる AWS S3に出力してみるサンプルコードの構成以下のリポジトリに今回書いているコードを置いておきました。 github.com こちらで補足書いておきます。元にしたMaven ArcheType こちらのMaven ArcheType元に作成しています。バージョンは現在の最新の2.22.0を利用しています。 mvnrepository.com 利用するPOJO 以下の構造のデータをParquetに変換してみます。 static class PC { Strin
Apache Beam チートシート【Python】 - Qiita
- 3 users
- qiita.com/esakik
- テクノロジー
- 2020/07/30
はじめにこの記事では、Apache Beam Python SDK で提供されている Transform についてまとめています。簡単に呼び出すことが可能な Transform を一通り知っておくことで、より迅速に実装の方針を立てることができるかと思います。要素ごとの処理 | Element-wise ParDo - DoFn の実行 PCollection の各要素を考慮し、何らかの処理（DoFn）を実行します。 from unittest import TestCase import apache_beam as beam from apache_beam.testing.test_pipeline import TestPipeline from apache_beam.testing.util import assert_that, equal_to class Compute