並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 9 件 / 9件

新着順 人気順

"apache beam"の検索結果1 - 9 件 / 9件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

"apache beam"に関するエントリは9件あります。 pythonbeamapache などが関連タグです。 人気エントリには 『PythonでApache beam 入門』などがあります。
  • PythonでApache beam 入門

    2020-12-26 TensorFlowの勉強をしていたら、Apache beam を前処理に採用していたケースがあり、興味を持ったので深堀りしてみます。 興味が湧いたモチベーションとしては、 データ量が増加しても前処理部分を難なくスケールできそう(前処理部分をスケールさせて高速に実験を回したい、並列化などはすべて良い感じにbeamに任せれそうバッチとストリーミングの両者に対応可能なので、柔軟な機械学習の推論サービスが提供できるのでは? (GCPの参考資料 Data preprocessing for machine learning: options and recommendations)Apache beam を触りつつ分散データ処理を学びたいhttps://github.com/jhuangtw/xg2xg#services を見てみるとGoogle 内部のFlume という並列

      PythonでApache beam 入門
    • Apache Beam (Dataflow) 実践入門【Python】 - Qiita

      はじめに この記事は、Apache Beam Documentation の内容をベースとしています。 Apache Beam Python SDK でバッチ処理が可能なプログラムを実装し、Cloud Dataflow で実行する手順や方法をまとめています。また、Apache Beam の基本概念、テストや設計などについても少し触れています。 Apache Beam SDK 入門 Apache Beam SDK は、Java, Python, Go の中から選択することができ、以下のような分散処理の仕組みを単純化する機能を提供しています。 Pipeline:処理タスク全体(パイプライン)をカプセル化します。処理タスクには、入力データの読み取り、変換処理、および出力データの書き込み等が含まれます。 PCollection:分散処理対象のデータセットを表すオブジェクトです。通常は、外部のデータ

        Apache Beam (Dataflow) 実践入門【Python】 - Qiita
      • Apache Beamが多言語・多バックエンド処理系を実現する仕組み

        ストリーム処理とバッチ処理を統合して扱えるプログラミングモデル(あるいはデータ処理のフロントエンド)である Apache Beam が、特にGoogle Cloud DataflowやApache Flinkからの利用を背景にシェアを伸ばしています。 Apache Beamの特色として、複数のプログラミング言語のSDKを持つこと・複数のバックエンド処理系(Flinkなどを指す)を持つことが挙げられますが、これがどう実現されているのかをまとめます。 目次 前提知識: Beam入門 Exampleコードからざっくり理解 Beamのプログラミング体験 Beamのコードを見てみる Beamにおけるパイプライン実行 Beamのプログラミングモデルをちゃんと理解 前提知識: Beamでは複数種類のバックエンドが使える 前提知識: Beamプログラムは多言語で記述できる 多言語・他バックエンド対応の課題

        • Cloud Dataflow と Apache Beam に入門した - public note

          BigQuery にストリーミングインサートしたい気持ちが高まってきて Cloud Dataflow と Apache Beam に入門しました。Cloud Pub/Sub -> Cloud Dataflow -> BigQuery のルートで取り込むにあたり、事前知識を得ることが目的です。 Apache Beam 特徴 Tour of Beam Transform Map FlatMap Filter Partition ParDo setup() start_bundle() process() finish_bundle() teardown() Custom Transform Windowing Fixed windows Sliding windows Session windows Beam パイプラインの設計 Cloud Dataflow 特徴 Pub/Sub to Big

            Cloud Dataflow と Apache Beam に入門した - public note
          • Apache Beamでバルクデータローダを作っている話 - Qiita

            個人的に作っているETLツールの紹介をします。 分散処理可能なバルクデータローダ 最近、CSV等のテキストベースのファイルをBigQueryへデータロードする際にEmbulkを使っているのですが、短納期のデータ分析案件で、長時間掛かるデータロードが途中で失敗すると詰んでしまう場合があります。 Embulkのスループットを上げる方法がないか調べたところ、MapReduce Executorというプラグインがあるもののv0.9.18からサポートされなくなっています。 また、分散処理可能なバルクデータローダとしてApache Sqoopというのもありますが、Hadoop基盤を使ってRDBからHDFSやGoogle Cloud Storage等にデータロードができるものらしく今回の用途と合いません。 ちなみに、急ぎの時はApache Beamを使ってデータロード処理のコードを書いて、Google

              Apache Beamでバルクデータローダを作っている話 - Qiita
            • apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita

              概要 BigQueryに保存されたtweetを形態素解析したい。BigQuery単体では形態素解析出来ないし、mecabの新語辞書を使ったりも出来ないのでdataflowを利用することで形態素解析を行う。 twitterでは、常に最新の言葉が使われる。そのためmecabの辞書は neologd を利用して最新の状態の言葉で形態素解析ができるようにする。 通常のdataflowのサンプルと異なるのはmecabで使う辞書ファイルをどのように配布するかという問題だ。今回は、パッケージ等は作らなず、インスタンスが生成された後、GCSにおいたmecabの辞書ファイルを読んでいる。 今回はtwitterで使われる人名は誰が多いのかをサンプルとして調べることにする。 shibacow@xxxx~$ mecab -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ip

                apache-beam-pythonを用いてGCP dataflowでmecabを使い形態素解析をする話 - Qiita
              • Apache Beamの概観を理解する | BLOG - DeNA Engineering

                こんにちは!@karupaneruraです。 自分のことはPerlの人として知ってもらっている方が多いかと思いますが、今回はJavaの記事を書いてみます。 今回の記事では、「Apache Beamについて調べたけどよくわからなかった」「Apache Beamはなんとなく分かるような気がするけどサンプルコードを多少書き換える範囲から抜け出しきれない」「理解をもう一歩進めて複雑なパイプラインも記述できるようになりたい」という方に向けて、どのようにBeam SDKをつかってどのようなことができるのか、その概観を掴んでもらえるようなところを目標にしています。 なお、分かりやすさのために説明を一部端折ることで不正確な部分が一部出てくるかと思いますが、この概観を掴んだあとに公式ドキュメントを読むなどして補完・修正していただけますと幸いです。 Apache Beamのご紹介 特にApache Beamを

                  Apache Beamの概観を理解する | BLOG - DeNA Engineering
                • Apache BeamでJavaのObjectをParquet形式でS3とGCSとローカルに出力する - YOMON8.NET

                  GCPのCloud Dataflowでも使われている、Apache BeamでJavaの内部で持っているデータをParquetに出力するやり方です。 サンプルコードの構成 元にしたMaven ArcheType 利用するPOJO GenericRecordへの変換 出力先の切り替え ローカルに出力してみる GCSに出力してみる AWS S3に出力してみる サンプルコードの構成 以下のリポジトリに今回書いているコードを置いておきました。 github.com こちらで補足書いておきます。 元にしたMaven ArcheType こちらのMaven ArcheType元に作成しています。バージョンは現在の最新の2.22.0を利用しています。 mvnrepository.com 利用するPOJO 以下の構造のデータをParquetに変換してみます。 static class PC { Strin

                    Apache BeamでJavaのObjectをParquet形式でS3とGCSとローカルに出力する - YOMON8.NET
                  • Apache Beam チートシート【Python】 - Qiita

                    はじめに この記事では、Apache Beam Python SDK で提供されている Transform についてまとめています。簡単に呼び出すことが可能な Transform を一通り知っておくことで、より迅速に実装の方針を立てることができるかと思います。 要素ごとの処理 | Element-wise ParDo - DoFn の実行 PCollection の各要素を考慮し、何らかの処理(DoFn)を実行します。 from unittest import TestCase import apache_beam as beam from apache_beam.testing.test_pipeline import TestPipeline from apache_beam.testing.util import assert_that, equal_to class Compute

                      Apache Beam チートシート【Python】 - Qiita
                    1

                    新着記事