[B! digdag] ishideoのブックマーク

ishideo id:ishideo

digdagに関するishideoのブックマーク (5)

S3のコストを大幅に削減した話 - Gunosy Tech Blog
広告技術部のUTです。最近はカービィディスカバリーをゆっくりやってます概要過去の失敗どうやったか仕組み結果まとめ概要昨今ではデータドリブンな意思決定を重視する企業がどんどん増えており、データを活用することにより事業成長へのインパクトを出そうとしています。データを事業へと活用するためには、蓄積されるデータを分析するために保管しておく必要があります。弊社も創業時からデータを蓄積し事業に活用することに力を入れてきた企業の一つであり、日々大量のログが収集されています。またAWSアカウントを複数運用していますが、一番データ量の多い広告アカウントのS3にはペタバイトレベルのデータが保管されています。普段何気なく使っているデータレイクとしてのS3ですが、少量であれば無視できるくらい小さいので、コストを気にせず使っておられる方も多いのではないでしょうか？そのようなS3でも巨大な
ishideo 2022/04/13
s3

aws

gunosy

cost

glacier

digdag

gzip

log
リンク
EKS(Kubernetes)上にDigdag・Embulk・Redashで分析環境を構築する - Koichi Ishida blog
目次ワーカーノードの作成 DigdagとEmbulkのDockerビルド KubernetesにDigdag/Embulkをデプロイ Redashの導入まとめ Kubernetes上に分析環境を構築する機会があったのでどのように構築したかを紹介します。同じような構成でKubernetes上で構築するのは3回目になったので構築方法も洗練されてきました。構成は以下のようになっています。 MySQL(RDS): サービスのデータベース。ここのテーブルからBigQueryにEmbulkでデータをエクスポートします。 PostgreSQL(RDS): Digdagのデータベース。今回新たにつくりました。 Digdag: データベースのエクスポートなどを実行するタスクスケジューラ。失敗したときにリトライもできます。 Embulk: プラグインを使ってデータベースをMySQLからBigQueryにエ
ishideo 2021/01/22
kubernetes

docker

redash

embulk

digdag

PostgreSQL

mysql

bigquery

aws
リンク
【保存版】データサイエンティスト転職を決めるポートフォリオのガイドライン【書籍化決定】 - Qiita
書籍化されました本記事をベースに監修者の村上さんが１冊の本にまとめてくれました（感謝）データサイエンティストのキャリア面やポートフォリオの細かい部分をさらに追加・ブラッシュアップした内容になっています。まえがきはじめに皆さん、「データサイエンティスト」という職種をご存知でしょうか？この数年間で、AIやディープラーニングといったバズワードと共にデータサイエンティストというワードも、よく耳にするようになりました。最新の技術を扱えて、年収も高い非常に魅力的な職業なため、データサイエンティストへの転職を検討されている方もいらっしゃるのではないでしょうか？実際、データサイエンティスト職への就職・転職希望者は年々増加しています。しかし、未経験の人材を育成できる会社はまだまだ少なく、未経験からの転職は転職希望者の増加に伴い高まっています。データサイエンティストは求められるスキルの幅が広く
ishideo 2020/11/27
data-science

ml

portfolio

engineer

gcp

doc2vec

embulk

digdag

slack

qiita
リンク
ワークフローエンジンDigdagのまとめ - Qiita
2016/06/15に、トレジャーデータがオープンソースとして公開したワークフローエンジンDigdagのリンク集です。内容は随時更新します。またトレジャーデータではDigdagを自社でTreasure Workflowとして提供しています。こちらの情報も収集しています。変更内容が気になる方は変更履歴をご覧ください。 1. 開催されるイベント 2. オフィシャルページオフィシャルページソースリポジトリ 3. チュートリアル Getting started (英語) Treasure Data社のOSSワークフローエンジン『Digdag』を試してみた #digdag (日本語) Digdag 入門 Digdagのアーキテクチャとコンセプトを理解する Treasure Workflow for ビギナー環境構築編 digファイル書き方編 Digdag公式ドキュメントからDigdagを学ぶ
ishideo 2019/05/14
workflow

digdag

qiita

yaml
リンク
【Python】Scrapy + Digdag でクローラの定期実行 |
Scrapy プロジェクトを Digdag でスケジューリングしてみたので導入の備忘録を残しておきます。環境は MacBook Air (13-inch, Mid 2013), OSX 10.11.6 です。 Scrapy は Web Crawling / Scraping Framework で, mechanize や Beautiful Soup といった特定の機能を提供するライブラリと比べると多機能。基本的な機能に加えて robots.txtポリシー, クロール間隔設定, リトライ処理, 並行処理, scrapydによるデーモン化などもサポートしている。 Installation guide 通りで入ると思うが, 自分の環境 (OSX) では pip で上手くインストールできなかった。[1] 依存ライブラリやバージョンの不一致などの理由から conda でインストールを行う。
ishideo 2019/05/14
python

scrapy

digdag

crawler

scheduling

exception
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx