タグ

pythonとstreamingに関するsh19910711のブックマーク (3)

  • Apache Beam と TensorFlow SavedModel に翻弄された記録 | CyberAgent Developers Blog

    はじめに 2023年10月の1ヶ月間、AI事業部、極予測AI予測チームで CA Tech Job というインターンシッププログラムに参加させていただきました東京大学大学院情報理工学研究科修士1年の武智將平(@shoheiKU)です。普段の研究では機械学習を利用した予測モデル構築やデータサイエンスのようなことをしています。今回のインターンシップで研究では出会うことの少ない、機械学習モデルをサーバーに組み込む場合の手法や並列化について触れることができました。この記事では Apache Beam を利用した並列化及び、Tensorflow の SavedModel というサービングに適した保存形式について触れます。 タスクについて 極予測AI予測チームはクリエイティブデザインから広告効果を予測する機械学習モデルを構築し、サービスとして提供するチームです。 タスクスタート時点での問題点として 広

    Apache Beam と TensorFlow SavedModel に翻弄された記録 | CyberAgent Developers Blog
    sh19910711
    sh19910711 2024/09/22
    "Beam の DoFn API で実装されている予測パイプラインのコンポーネントを RunInference API に置き換え / ParDo と RunInference の API 自体の実行速度の差はほぼなく、batch による高速化の恩恵が大きい"
  • DataFlowのパイプラインでCerberusの機能を使って、csvをチェックしてみた。 - Qiita

    はじめに 現在業務でGCPDataFlowを使ってデータパイプラインを構築しており、CSVファイルがアプリケーションから来るのですが、たまにユーザが手で直したりなんてことがあるので、バリデーションして、不適当な行があれば省いて、後続のデータパイプラインに流したいと思っています。(上流の運用なおしたいのはやまやまですが。。。) そこでCerberusというバリデーションライブラリがあったので、いっちょやってみようと思った次第です。 Cerberusとは Pythonのデータ検証用のライブラリで 「Cerberusは、強力でありながらシンプルで軽量なデータ検証機能をすぐに提供し、簡単に拡張できるように設計されているため、カスタム検証が可能です。依存関係はなく、Python 2.7から3.8、PyPyおよびPyPy3まで徹底的にテストされています。」とのこと (引用元https://docs.

    DataFlowのパイプラインでCerberusの機能を使って、csvをチェックしてみた。 - Qiita
    sh19910711
    sh19910711 2024/06/16
    "Cerberus: Pythonのデータ検証用のライブラリ + シンプルで軽量なデータ検証機能をすぐに提供し、簡単に拡張できるように設計 / regixだったり桁数だったりかなり柔軟にチェックができる" 2022
  • PyFlink: The integration of Pandas into PyFlink

  • 1