概要 データパイプラインの管理にワークフローエンジンを導入したいのですが、今の要件に対してどれが合っているのか判断しきれない部分があるので整理してみました 最近の導入事例や発表をみるかぎりAirflow, Argo, Digdagあたりが人気なのかなと思います ワークフローエンジンとは ワークフローエンジンとは定期的なバッチ処理をうまく処理できるように、バッチ実行を管理してくれるソフトウェアのことです 古典的な実現方法としては適当なlinuxサーバーの上でcron実行させることが考えられますが、以下のような問題があります ジョブごとの依存関係を表現できない。cronの時間指定で実現させようとすると、タスクAを1時に開始してそれが完了するとみなして依存するタスクBを2時に開始するというような書き方をすることになるが、実際にタスクAが2時までに終わらなかった場合に処理が上手く実行できない タス
スタートアップなのにkubernetes, Fargate等を使う PerlやPHPをろくに知らないのにdisり、GoやRustをろくに知らないのにageる CTOを名乗っているがgithubには 'react_hello_world' のようなレポジトリがいくつかあるだけ クロスプラットフォームという言葉に誘惑されがち 開発規模や体制によらず、常にTypeScriptを使おうとする React, Redux, redux-sagaなどの技術をやたら使う半面、最終的に吐き出されるjsのサイズや読み込み速度には気が回らない 技術構成にはやたらと気を使う半面、ソースコードのディレクトリ構成やフレームワークを使わない設計に頭が回らない typoが多い スター数の少ない(100未満)わけのわからないライブラリをアプリケーションのフレームワークに採用する そもそも実務経験が浅い 実務経験がSIerし
Amazon Web Services ブログ Amazon Textract を使用したドキュメントからのテキストと構造化データの自動抽出 ドキュメントは、金融、医療、法律、および不動産などの数多くの業界全体における記録管理、コミュニケーション、コラボレーション、そして取引のための主な手段です。毎年処理される何百万もの住宅ローン申請、そして何億もの W2 納税申告書は、そのようなドキュメントの数例にすぎません。多くの情報は、非構造化ドキュメントに閉じ込められています。これらのドキュメントの検索と検出、ビジネスプロセスの自動化、およびコンプライアンス管理を可能にするには、時間がかかる複雑なプロセスが必要になるのが通常です。 この記事では、Amazon Textract を利用して、機械学習 (ML) の経験がなくてもスキャンされたドキュメントからテキストとデータを自動的に抽出することができ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く