サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Wikipedia
www.case-k.jp
Dataflowが解決するストリーミング処理の課題と基盤を作る上で考慮すべき点をいくつか資料を参考に備忘録もかねて整理してみました。 ストリーミング処理の概要 ストリーミング処理とは バッチ処理との違い ストリーミング処理の課題 データ量と変動性 遅延データの扱い 異なるプログラミングモデル Dataflowでどのように解決すのか オートスケール 遅延データの制御 プログラミングモデルの統一 遅延データの制御 (機能詳細) ウィンドウとは 固定ウィンドウ スライディングウィンドウ セッションウィンドウ ウォーターマークとは トリガーとは アキュミュレーションとは 破棄モード 累積モード 累積 & 後退モード Dataflowでストリーミング処理の基盤作成で考慮すること 何を計算するか?(ETL) イベント時間のどこを対象にするか?(ウィンドウ) 処理時間のどの時点を対象にするか?(ウォータ
DataflowでPython3系を使って良さそうか調べてみました。 Python3系を使いたい理由 DataflowのPython3系のサポート状況について Apach Beamのissueについて 動作確認 ストリーミング処理は? 結論(個人的な) Python3系を使いたい理由 DataflowはETLツールなのでデータ加工が主な役割です。Dataflowのサポートする言語としてJavaやGoも扱えますが、Pythonと比較すると機械学習系のライブラリが不足していたり、学習コストも高いです。またバッチ処理を作る前に行う分析作業はJupyterで行うため、Pythonで作ったコードも使えません。また、Python2系は以前よりDataflowでサポートされてますが、2020年目処にPython2系は非推奨となります。なので3系でDataflowを使いたいと考えてます。 Dataflow
Cloud Composerの活用事例と料金体系について調べてみました。 Cloud Compoer とは? Cloud Compoer活用事例 メルペイ メルカリ DeNA JapanTaxi エウレカ リブセンス SmartNews BrainPad 料金体系について 所感 Cloud Compoer とは? Cloud ComposerはGCPが管理するフルマネージドなAirflowで、バッチ処理等のワークフローの管理を行うことができます。例えばDataflowを実行し、BigQueryのテーブルを作り、作ったテーブルを参照するDataflowの逐次処理を実現できます。GUIで実行履歴や状況を管理できることも採用されてる理由のようです。 cloud.google.com Cloud Compoer活用事例 Cloud ComposerやDataflowを使ったデータパイプラインを構築
今回はモデルの性能を向上させるための手法、グリッドサーチの記事を書いてみました。 本記事の目的 グリッドサーチとは 単純なグリッドサーチ 単純なグリッドサーチの問題点 単純なグリッドサーチの解決策について 交差検証を用いたグリッドサーチ 本記事の目的 ・グリッドサーチの概要を理解する ・実際にグリッドサーチを活用した分析ができるようになること グリッドサーチとは 機械学習を行うモデルを構築して実際に予測しても予測精度が低いことが多いと思います。グリッドサーチとは、モデルの精度を向上させるために用いられる手法です。全てのパラメータの組み合わせを試してみる方法のことです。イメージとしてはループさせて、パラメータの組み合わせを全て試し、最も評価精度の良いものを探索する方法です。パラメータを変更することで予測精度は飛躍的に変わります。 単純なグリッドサーチ 単純なグリッドサーチは、2つのパラメータ
Dataflowが得意なこと、苦手なことを考えてみました。 得意なこと バッチ/ストリーミング処理(特にストリーミング処理) サイズの大きいデータを扱うこと サーバ費用を抑えること 苦手なこと 逐次処理 複雑なパイプライン制御(役割が異なる) 得意なこと バッチ/ストリーミング処理(特にストリーミング処理) Dataflowはストリーミングとバッチ処理を同じように扱えます。ストリーミング処理はPub/Subからバッチ処理はGCSからデータを読み込むことになりますが入力先を変えるだけで行うことができます。ストリーミングとバッチの両方を対象としたプログラミングモデルは大きな差別化要素となっているようです。 p = beam.Pipeline(options=options) # READ FROM Pub/Sub p | 'Read PubSub Messages' >> beam.io.Re
本記事はZOZOテクノロジーズ #1 Advent Calendar 2020 - Qiita 24日目の記事です。バッチ方式の日次データ基盤とストリーミング方式のリアルタイムデータ基盤のスキーマ反映でData Catalogがどのように役立つのか概要も踏まえてご紹介できればと思います。後半ではPythonで実際に意図したことができるか検証してみました。 Data Catalogとは テクニカルメタデータ ビジネスメタデータ 料金体系 データ基盤におけるスキーマ管理の課題 データ基盤運用者の課題 データ基盤利用者の課題 Data Catalogが解決する課題 ワークフローでやりたいこと 日次データ基盤 リアルタイムデータ基盤 カラム削除の反映 スキーマ変更の反映 カラム追加の反映 Data Catalogの検証 まとめ Data Catalogとは Data CatalogとはGCPが提供
このページを最初にブックマークしてみませんか?
『www.case-k.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く