[B! python][streaming] sh19910711のブックマーク

sh19910711 id:sh19910711

pythonとstreamingに関するsh19910711のブックマーク (3)

Apache Beam と TensorFlow SavedModel に翻弄された記録 | CyberAgent Developers Blog
はじめに 2023年10月の1ヶ月間、AI事業本部、極予測AI予測チームで CA Tech Job というインターンシッププログラムに参加させていただきました東京大学大学院情報理工学研究科修士1年の武智將平(@shoheiKU)です。普段の研究では機械学習を利用した予測モデル構築やデータサイエンスのようなことをしています。今回のインターンシップで研究では出会うことの少ない、機械学習モデルをサーバーに組み込む場合の手法や並列化について触れることができました。この記事では Apache Beam を利用した並列化及び、Tensorflow の SavedModel というサービングに適した保存形式について触れます。タスクについて極予測AI予測チームはクリエイティブデザインから広告効果を予測する機械学習モデルを構築し、サービスとして提供するチームです。タスクスタート時点での問題点として広
sh19910711 2024/09/22
"Beam の DoFn API で実装されている予測パイプラインのコンポーネントを RunInference API に置き換え / ParDo と RunInference の API 自体の実行速度の差はほぼなく、batch による高速化の恩恵が大きい"

*data

*program

streaming

python
リンク
DataFlowのパイプラインでCerberusの機能を使って、csvをチェックしてみた。 - Qiita
はじめに現在業務でGCPのDataFlowを使ってデータパイプラインを構築しており、CSVファイルがアプリケーションから来るのですが、たまにユーザが手で直したりなんてことがあるので、バリデーションして、不適当な行があれば省いて、後続のデータパイプラインに流したいと思っています。(上流の運用なおしたいのはやまやまですが。。。) そこでCerberusというバリデーションライブラリがあったので、いっちょやってみようと思った次第です。 Cerberusとは Pythonのデータ検証用のライブラリで「Cerberusは、強力でありながらシンプルで軽量なデータ検証機能をすぐに提供し、簡単に拡張できるように設計されているため、カスタム検証が可能です。依存関係はなく、Python 2.7から3.8、PyPyおよびPyPy3まで徹底的にテストされています。」とのこと (引用元https://docs.
sh19910711 2024/06/16
"Cerberus: Pythonのデータ検証用のライブラリ + シンプルで軽量なデータ検証機能をすぐに提供し、簡単に拡張できるように設計 / regixだったり桁数だったりかなり柔軟にチェックができる" 2022

*data

gcloud

streaming

*program

python
リンク
PyFlink: The integration of Pandas into PyFlink
sh19910711 2020/08/23
*data

streaming

*program

python
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx