本文「dag」を検索 - はてなブックマーク

1 - 40 件 / 81件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

dagの検索結果1 - 40 件 / 81件

NewSQLはデータベースに革命を起こすか - NetflixにおけるCockroachDBのユースケース｜ミック
- 410 users
- note.com/mickmack
- テクノロジー
- 2024/04/14
近年のデータベースの新潮流にNewSQLと呼ばれる一群のデータベース製品群の登場がある。そのコンセプトを一言でいうと、RDBとNoSQLのいいとこどりである。SQLインタフェースと強いデータ一貫性（ACID）というRDBの利点と水平方向のスケーラビリティというNoSQLの長所を兼ね備えた夢のようなデータベースである。下図に見られるように、RDBとNoSQLが鋭いトレードオフを発生させていたのに対して、NewSQLではそれが解消されているのが分かる。 RDB vs NoSQL vs NewSQL本当にそのような夢の実現に成功しているか、というのはまだ議論が続いているが（クエリのスループットを出すためにレイテンシを犠牲にしているので本当にトレードオフを解消はしていない、などの問題が指摘されている）、商用でも利用可能な製品としてGoogle Spanner、TiDB、YugabyteDB、Coc
- データベース
- あとで読む
- db
- NewSQL
- Netflix
- database
- データ
- SQL
- 開発
- development
[翻訳]LLMで1年間開発して学んだこと〜LLMプロダクト開発を成功に導くための実践的ガイド〜
- 310 users
- zenn.dev/seya
- テクノロジー
- 2024/06/24
この記事は "What We’ve Learned From A Year of Building with LLMs" という記事を著者の一人である Eugene Yan さんから許可を得て翻訳したものです。 https://applied-llms.org/ Thank you for giving me a permission to translate this wonderful article! 著者の方々 Eugene Yan Bryan Bischof Charles Frye Hamel Husain Jason Liu Shreya Shankar 原文の公開日 2024/６/8 今は大規模言語モデル（LLM）を使った開発がとってもエキサイティングな時期です。この1年間で、LLMは実世界のアプリケーションに対して「十分に良い」ものになりました。そして、年々良くなり、安く
- LLM
- AI
- あとで読む
- 開発
- RAG
- GPT
- プロダクト
- ChatGPT
- 自然言語処理
- programming
『因果推論』（金本拓：オーム社）は因果推論に留まらず現代的なマーケティング分析手法まで網羅したバイブル - 渋谷駅前で働くデータサイエンティストのブログ
- 284 users
- tjo.hatenablog.com
- テクノロジー
- 2024/04/22
因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ作者:金本拓オーム社Amazon 著者の金本さんからご指名でご恵贈いただいたのが、こちらの『因果推論 ―基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ―』です。正直に白状しますと、因果推論とタイトルにつく技術書はここ数年でゴマンと出版されており、本書も紙冊子で頂戴したものの僕はあまり期待せずにページをめくり始めたのでした（ごめんなさい）。ところが、ほんの数ページめくっただけでその内容に僕は仰天しました。グラフィカルで実務家にとっての分かりやすさを重視した因果推論の解説と実践にとどまらず、現代的なマーケティング分析では必須の種々の手法についてまで懇切丁寧に解説とPythonによる実践例が付された本書は、文字通り「マーケティング分析実務家にとってのバイブル」になり得る素晴らしい一冊だと直感し
- マーケティング
- あとで読む
- 統計
- 因果推論
- 本
- AI
- 書籍
- 分析
- 学習
- データ
SQLiteがバージョン管理システムとしてGitを採用しない理由
- 239 users
- gigazine.net
- テクノロジー
- 2023/12/31
GitはLinuxカーネルのソースコード管理に用いるために開発された分散型バージョン管理システムで、GitリポジトリをホスティングするGitHubのユーザー数は1億人を超えます。一方、軽量データベースのSQLiteの開発においてはGitではなくFossilというバージョン管理システムが利用されており、SQLiteの開発陣が「なぜGitを使用しないのか」という理由を公式サイトで説明しています。 Why SQLite Does Not Use Git https://sqlite.org/whynotgit.html なお、Fossilがどんな機能をもつバージョン管理システムなのかについては下記の記事を読むと分かります。 GitとGitHubの機能をひとつのバイナリに詰め込んだ「Fossil」レビュー - GIGAZINE 1：Gitは適切な状況認識を提供しない SQLiteにどんな変更が加え
- git
- SQLite
- あとで読む
- 管理
- ソフトウェア
- GitHub
- 開発
- システム
- Fossil
実務において回帰分析を行うに当たっての注意点を改めて挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
- 204 users
- tjo.hatenablog.com
- テクノロジー
- 2024/07/20
先日のことですが、以下のニュースが統計的学習モデル界隈で話題になっていました。肝心の箇所が会員限定コンテンツなので簡潔にまとめると、従来モデルよりも説明変数に入れる海域の数を増やした上で、Lasso（L1正則化）回帰で多重共線性を抑えつつ汎化性能を高めるというアプローチを取った、というお話です*1。これは回帰分析という基本に立ち返った、昨今の「猫も杓子も生成AI」という流れからは一線を画した試みで、いかにも玄人好みという感があるなと僕も感じた次第です。一方で、僕が身を置く広告・マーケティング業界でもMMM (Media/Marketing Mix Models)を初めとして様々なタイプの回帰分析が広く行われていますが、個人的に見聞する範囲では冗談でなく本当にピンキリで、中には「そんなデタラメな回帰分析で本当に役員会の意思決定に使っているんですか？？？」みたいなケースも珍しくありません。
- 統計
- あとで読む
- データ
- 分析
- 学習
- AI
- データ分析
- マーケティング
- 数学
2024年版：独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス＆定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
- 199 users
- tjo.hatenablog.com
- テクノロジー
- 2024/02/23
毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って「初級＆中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらいという課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる＆僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると
- 統計
- あとで読む
- 書籍
- 学習
- 分析
- データ
- リスト
- 本
- book
- Python
WebAssembly所感
- 145 users
- zenn.dev/qnighy
- テクノロジー
- 2024/05/12
WebAssemblyをちょっといじってみて思ったところをまとめてみます。設計思想 WebAssembly/designに設計文書がまとまっています。特にHighLevelGoals.mdから読み取れるポイントは以下の4点です。サンドボックス化された環境であること。移植性があること。つまり、特定の実CPUアーキテクチャ等に依存しないこと。少なくともC/C++の(十分に高速な)コンパイルターゲットとして機能すること。安定した仕様を持つこと。サンドボックスという観点からは、先行技術として以下のようなものが特筆に値します。 Webサンドボックス JavaScript および asm.js Javaアプレット Flash (ActionScript) NaCl, PNaCl Web以外のサンドボックス OSのユーザーランド、特にLinux userland これらのサンドボックスとの比
モダンなタスク管理を可能にするSnowflake Python API
- 89 users
- zenn.dev/dataheroes
- テクノロジー
- 2024/03/15
結論 Taskを管理するならSnowflake Python APIを使おう Snowflake Python APIとは Snowflake公式のPythonのオブジェクト管理ライブラリ「snowflake.core」のことです(Public Beta)。Snowflake Python Connectorとは全く別物です。 Snowflake Python APIを使用すると、Pythonコードを使ってSnowflakeのリソース(Table、Warehouse、Task、Snowpark Container ServiceのCompute Poolなど)を管理することができます。本記事では、Snowflake Python APIを使ってSnowflakeのタスクとDAG（Directed Acyclic Graph）を管理する方法を詳しく解説します。これにより、Streamlit
- snowflake
- あとで読む
- python
- API
- 設定
【2024年】AWS全サービスまとめ | DevelopersIO
- 69 users
- dev.classmethod.jp
- テクノロジー
- 2024/01/12
こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開しているAWS全サービスまとめの2024年版です。こんにちは。サービス開発室の武田です。このエントリは、2018年から毎年公開している AWS全サービスまとめの2024年版です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの？」という疑問を自分なりに理解するためにまとめました。今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2023年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 247個です。まとめるにあ
- aws
- あとで読む
- まとめ
- techfeed
- サービス
- システム
- 技術
全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
- 50 users
- buildersbox.corp-sansan.com
- テクノロジー
- 2023/12/16
こんにちは。研究開発部 Architectグループの中村です。本記事は Sansan Advent Calendar 2023 の16日目の記事です。今回は、私達のチームで開発&運用している全社横断データ分析基盤のデータレイヤの再設計、及びdbtの導入を進めているという事例について紹介します。既存のデータ基盤に対して、dbtの導入を検討されている方の参考になれば幸いです。（本稿ではdbtとはについては触れませんので、ご了承ください） TL;DR 歴史的経緯全社横断データ基盤が生まれる前全社横断データ基盤立ち上げ期課題立ち上げ期に作られたデータマートがカオスに・・・課題の解決に向けてデータレイヤの再設計 Transformツールの選定 dbtへの移行戦略その他dbt移行におけるTips チームでの開発の標準化 Cosmosの導入検証データカタログのホスティングまと
- dbt
- あとで読む
- data
- データ
- ツール
【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog
- 46 users
- tech.algoage.dmm.com
- テクノロジー
- 2023/10/04
こんにちは、Ops-dataチームの上村(@contradiction29) です。以前、弊社内で運用されているデータ分析基盤を移行するにあたり、設計の方針を練る記事を投稿しました。 tech.algoage.dmm.com 今回はその続きとして、移行プロジェクトの実際の進行に焦点を当てて記事を書いていきたいと思います。はじめにこれまでのあらすじ：運用していく中でつらみがたまってきた弊社のデータ分析基盤。開発しづらいし、運用もつらいし、何よりこのまま運用を続ければ確実に停止してしてしまう。End of Service Life (EOSL) は目前に迫っています。移行するしかない状況です。とはいっても、単純に移行するだけでは、現場のアナリストやエンジニア、社内ユーザー、そしてその先にあるクライアントのニーズに応え、事業価値に貢献することはできません。真の「価値」に貢献するためには「思
- Snowflake
- dbt
- あとで読む
- data
- データ
- blog
Async Rust Is A Bad Language
- 42 users
- bitbashing.io
- テクノロジー
- 2023/09/09
But to get at whatever the hell I mean by that, we need to talk about why async Rust exists in the first place. Let’s talk about: Modern Concurrency: They’re Green, They’re Mean, & They Ate My Machine Suppose we want our code to go fast. We have two big problems to solve: We want to use the whole computer. Code runs on CPUs, and in 2023, even my phone has eight of the damn things. If I want to use
dbt導入におけるデータモデリング環境整備 - pixiv inside
- 42 users
- inside.pixiv.blog
- テクノロジー
- 2024/06/18
はじめに初めまして。プラットフォーム開発部にてデータ基盤の整備をしているazukiと申します。今回はdbt(Data build tool)を導入した経緯と非中央集権的なdbtの使い方についてご紹介したいと思います。今回は導入に関してまとめていますので、dbtの運用面の詳細は別記事で解説予定です。データモデリングツール導入の背景ピクシブではプロダクトの多さを理由に非中央集権データ組織を採用しています。ドメインチームがメインでデータの取り組みやデータモデリングを行い、データ駆動推進室やデータ基盤チームはそのサポートや整備を担当しています。その背景に関しては、【PIXIV MEETUP 2023】の方でお話していますのでぜひご覧下さい。 speakerdeck.com 今までBigQueryのデータ加工SQLは自社で開発したツールで管理していました。 pythonから変数埋め込み
この1年半で実施した「16の人事施策」を振り返る｜風音屋（かざねや）
- 41 users
- note.com/kazaneya
- テクノロジー
- 2024/03/20
代表の @yuzutas0 です。風音屋（@Kazaneya_PR）では「1人目の人事担当」を募集しようとしています。これまでは代表である私が中心となって人事系の施策を進めてきました。「事業は人なり」ということで、人事に関する書籍を30冊ほど読み漁り、1つ1つ試行錯誤を重ねています。この記事では、私自身の思考の整理を兼ねて、これまでの取り組みをシェアします。風音屋という会社が「人事の重要性と本気で向き合っている会社なんだな」「人事をきちんとやろうとしているんだな」と伝わってもらえると嬉しいです。 ⚠️注意事項：・人事周りのルールは今後変わっていく可能性があります。最新状況についてはカジュアル面談でお問い合わせください。・「これがベストだ！」と押し付けたり、「これが上手くいった！」とアピールする意図はありません。率直に振り返りと課題意識を書きました。むしろ反省点と学びだらけです。・
- hr
- 人事
- あとで読む
- 会社
- 経営
分析基盤へのデータ連携処理をEmbulkからAmazon Aurora S3 Export機能に切り替えた話 - BASEプロダクトチームブログ
- 40 users
- devblog.thebase.in
- テクノロジー
- 2024/03/27
はじめにこんにちは！Data Platformチームでデータエンジニアとして働いている @shota.imazeki です。分析基盤の構築・運用などの側面から社内のデータ活用の促進を行っています。 BASEではAurora MySQLにあるデータをEmbulkを用いてBigQueryに連携しています。BigQueryへ連携されたデータは分析基盤としてLookerなどを通して社内利用されています。このデータ連携処理にはいくつかの課題があり、それを解決するためにEmbulkからAurora S3 Export機能を用いた連携処理に切り替えることにしましたので、それについて紹介していきたいと思います。 ※この切り替えについては現状、試験的に一部のDBのみの切り替えとなっていますが、運用上の大きな課題が出てこなければ徐々に切り替えていく予定です。切替前のデータ連携処理先述した通り、BAS
Devin を含むAIソフトウェアエンジニアと周辺技術のざっくり紹介 - Algomatic Tech Blog
- 40 users
- tech.algomatic.jp
- テクノロジー
- 2024/04/05
こんにちは。LLM STUDIO 機械学習エンジニアの宮脇（@catshun_）です。本記事では最近注目を集めている AI ソフトウェアエンジニアに関するプロダクトについてざっくりと紹介します。社内勉強会に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、本記事を読んだ方の議論のネタ程度になってくれれば幸いです。おことわり本記事では AI ソフトウェアエンジニアに関する詳細な解説は含みません。 Devin を参考に AI ソフトウェアエンジニアと呼称していますが、主語が大きく曖昧性の高い表現を使用しています。詳細については参照元をご確認ください。不十分また不適切な言及内容がございましたらご指摘いただけますと幸いです。プロダクト等の利用時は必ずライセンスや利用規約を参照して下さい。本記事の目次プログラム生成を伴う推論 Self-Refine (
SDDLで学ぶWindowsのアクセス制御 - ラック・セキュリティごった煮ブログ
- 38 users
- devblog.lac.co.jp
- テクノロジー
- 2023/11/13
北原です。今回は、Windows OSを守るセキュリティ機能の中でも重要な役割を担う、アクセス制御に関する話題を解説します。 UnixやLinuxでは「Everything is a file」と言われていますが、Windows OSではファイルやプロセスをはじめとする全てのものがオブジェクトとして管理されており、それぞれが ACL（Access Control List：アクセス制御リスト）によりアクセス制御されています。 ACLは、アカウントに与えているアクセス権限を個別に定義した ACE（Access Control Entry：アクセス制御エントリ）と呼ばれる情報のリストです。例えば、Windows OSでファイルのプロパティを開くと、以下の図のようにACLが視覚的に確認できます。 DACLの確認例ファイルやディレクトリなどでは、Windows OS標準の機能でこのように
ビジネスの実務で「因果」を推測するということ - 渋谷駅前で働くデータサイエンティストのブログ
- 38 users
- tjo.hatenablog.com
- テクノロジー
- 2024/02/28
統計的因果推論と言えばすっかり統計学分野ではお馴染みのアプローチになった感があり、また機械学習分野でも扱うテーマが複雑化するにつれて注目が高まり続けているトピックスという印象があります。このブログでも2016年ぐらいから因果推論に関する記事をちらほら書くようになり、僕個人にとってもまた因果推論と言えば馴染み深い概念になってきたという感があります。一方で、ビジネス実務の現場においても「因果推論」という言葉は使われないにせよ、かなりはっきりと「因果」についての知見もしくは説明可能性が求められるようになってきた、という印象が個人的にはあります。それは良くも悪くもDXブームでありとあらゆるビジネスに関わる事由がデータ化され、「相関」だけなら簡単に見つけられるようになったことで、相関だけからは見えてこない「因果」をはっきりさせたいという願望が浮かび上がってきた、ということなのかもしれません。そ
LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説 - Algomatic Tech Blog
- 31 users
- tech.algomatic.jp
- テクノロジー
- 2024/03/19
はじめにこんにちは。Algomatic LLM STUDIO 機械学習エンジニアの宮脇（@catshun_）です。 Wang+’23 - A Survey on Large Language Model Based Autonomous Agents ChatGPT が発表されてからおよそ 1 年が経ち、AutoGPT, BabyAGI, HuggingGPT, Generative Agents, ChatDev, Mind2Web, Voyager, MetaGPT, Self-Recovery Prompting, OpenCodeInterpreter, AutoAgents などなど、大規模言語モデル (LLM) の抱負な知識および高度な推論能力を活用した LLM エージェント (AIエージェント) が発表されています。直近ではコード生成からデバッグ、デプロイまで自律的に行う
- LLM
- AI
- 自然言語処理
- あとで読む
- python
- tool
実践IPFS入門
- 30 users
- gihyo.jp
- テクノロジー
- 2023/10/24
菊池将和（きくちまさかず）外資系証券会社で金融商品開発責任者を経て，ハーバード大学でソフトウェア・エンジニアリングの修士号を取得。ブロックチェーンエンジニアとしてSecuritize Japanに参画後，2020年のハッカソンでEthereum Foundation，Protocol Labsから賞を受賞したことをきっかけにConsenSys主催のアクセラレータに採択される。現在はWeb3メンターやETHGlobalハッカソンの審査員を務める一方，スイスを拠点にSecured Finance AGを立ち上げ，DeFi（分散型金融）・デジタル資産領域における革命的なFixed Income市場の整備を先導。設立半年で$4Mを調達。内閣府Trusted Web推進協議会のタスクフォース委員も務める。第1章　IPFSについて 1.1　IPFSの概要 1.1.1　IPFSの概念と定義 1.1.
Snowflakeの力を引き出すためのdbtを活用したデータ基盤開発の全貌 - CARTA TECH BLOG
- 25 users
- techblog.cartaholdings.co.jp
- テクノロジー
- 2023/12/23
当記事は、dbtのカレンダー | Advent Calendar 2023 - Qiita の23日目の記事です。こんにちは、株式会社CARTA MARKETING FIRMのデータエンジニア、@pei0804です。データエンジニアリングのほか、組織運営やデータエンジニア育成にも携わっています。本記事では、Snowflakeを中心とした当社のデータ基盤「Vision」と、その中核であるdbtの利用について深掘りします。dbtを活用することで、SQLのみでデータパイプラインを効率的に構築し、作業の効率化を図っています。 dbt導入の詳しい導入背景は以下のスライドでご覧いただけます：広告レポーティング基盤に、dbtを導入したら別物になった話 / tokyo-dbt-meetup-4 - Speaker Deck。私たちのチームでは、ビジネスに直接価値を提供しているdbtモデルの開発はプロ
- dbt
- あとで読む
- database
- 開発
- *あとで
実験の再現性を高めるデータバージョン管理（DVC）の紹介 - techtekt
- 24 users
- techtekt.persol-career.co.jp
- テクノロジー
- 2024/04/24
データバージョンの管理とは？データバージョンの管理とは、バイナリデータのバージョンを管理することを指します。データバージョンの管理は、Git 等でのコードのバージョン管理をバイナリデータに拡張しています。実験の再現性を高められるメリットがあります。 DVC とは？データのバージョンを管理する機能をもつオープンソースソフトウェアです。データのハッシュをテキストファイルで保持し git でバージョン管理します。また、yaml ファイルで実行パイプラインを定義して監視対象データが更新された際にハッシュを更新することで、新しいハッシュ値を含んだデータをバージョン管理します。更新されたデータファイルはキャッシュディレクトリに保存され、必要なタイミングで自動的に復元されます。データのリモートリポジトリを定義することで、データ一式を簡単なコマンド操作で S3 等へ push / pull すること
- git
- あとで読む
公式GoクライアントindigoでBlueskyのAPIを使ってみた - 小野マトペの納豆ペペロンチーノ日記
- 24 users
- matope.hatenablog.com
- テクノロジー
- 2023/08/17
みなさんはまだXで消耗してますか？Blueskyに移住中の小野マトペです。 Go言語でBlueskyにポストを投稿するコードを書いたのですが、ベータ版とあってドキュメントも少なくやや難儀したので、メモとして残します。記事を通じて、Blueskyのアーキテクチャのユニークさも少しだけ伝われば良いなと思います。クライアントには、Blueskyの公式Goリポジトリ github.com/bluesky-social/indigo のクライアント実装を使います。ただし、開発中で、今後使い方が変わる可能性もあるので気をつけてください。 github.com 概要 Bluesky は、大規模分散ソーシャルアプリケーションのための汎用連合プロトコル AT Protocol 上に構築されるアプリケーション実装であるという建て付けです。AT Protocolでは、クライアントやサーバーは XRPC という
- go
- Bluesky
- API
- プログラミング
資料2-1：豊田先生御講演資料
- 21 users
- www.scj.go.jp
- 学び
- 2024/04/24
鈴鹿医療科学大学豊田長康 2024/04/22 日本学術会議「研究力強化と学術会議への期待」 2024/04/22 1 日本の研究競争力低下の因果推論（事前配布資料）資料２－１ 論文データ Clarivate社の文献データベース（以下DB）であるWeb of Science Core Collection のデータを、分析ツール InCites Benchmarking & Analytics（以下InCites）を用いて分析 なお、発表者はInCitesとSciValの両方を利用できる環境にあるが、所期の目的の分析はSciValでは困難なため、InCitesで分析した。 文部科学省科学技術・学術政策研究所（以下NISTEP）の分析データ 他のデータ OECD.Statの公開データ 文部科学省、国立大学法人等のデータ 2 本発表のデータの入手元 2024/0
- サイエンス
- あとで読む
- 統計
- 科学
- 大学
- 日本
- 政治
FindyにおけるDataformの活用とその効果 - Findy Tech Blog
- 21 users
- tech.findy.co.jp
- テクノロジー
- 2024/07/01
こんにちは。 2024/05よりファインディ株式会社にデータエンジニアとして入社した田頭(tagasyksk)です。本記事では、データ変換サービスであるDataformについてその活用方法や導入後の効果についてご紹介します。弊社では、現在次のような構成でデータ基盤を構成しており、BigQuery内でのデータ変換にDataformを利用しています。この構成を踏まえてご覧いただければ幸いです。それでは見ていきましょう！ Dataformについて導入の背景データ基盤に必要な機能が揃っており、簡単に運用を始められることクエリ作成のハードルが非常に低いこと導入後の効果 FindyでのDataform運用導入しての課題改善点今後の展望データの品質向上データモデリング終わりに Dataformについてサービスの説明については、公式ドキュメントを引用します。 Dataform は
- あとで読む
dbt exposureによるデータ基盤アウトプットの登録を自動化しました - Timee Product Team Blog
- 16 users
- tech.timee.co.jp
- テクノロジー
- 2024/03/18
はじめに課題感・背景使用しているBIツールについて BIツールの使用ボリューム感についてやったこと：概要やったこと：詳細 referenced tableにテーブル名ではなくdbtモデル名が入るようにしたことについて各種アウトプットの公開設定をmeta情報として付与する方針としたことについて tagを追加してexposureの検索性を向上させたこと exposureのnameにシートとダッシュボードのタイトルを反映する方針にしたこと今後の発展保守運用の設計カラムレベルリネージュ ✖️ exposure おわりに We're Hiring!! はじめにこんにちは。okodooonです！！データ基盤を参照したアウトプットが社内に溢れかえっていませんか？弊社は追いきれていないLookerStudioやConnectedSheetがめちゃくちゃ溢れかえっていました。そんな折
- dbt
- ツール
Terraformの実装コードを、動かしながら読む | フューチャー技術ブログ
- 14 users
- future-architect.github.io
- テクノロジー
- 2024/03/26
Terraform連載2024 の10本目記事です。はじめにこんにちは。CSIG（Cyber Security Innovation Group）の棚井です。 Terraform 連載ということでそういえば、実装コードは Go で書かれていたなコマンドの使い方はインフラエンジニアの皆様が書いてくれるはずなので、コードリーディングしようかなとの考えに至り、ソースコードリーディング自体をブログ化しました。参考になる点が1つでもあれば幸いです。エディタの準備今回のコードリーディングでは VSCode を利用します。 Go のコードジャンプやテスト実行のため、以下の拡張機能を追加します。 GoGo OutlinerGo Test Explorerまた、コードリーディングのお供として「GitHub Copilot」も追加します。 GitHub アカウントで Copilot を有効化する方法や
- Terraform
- あとで読む
Google Cloud ComposerでGPUを使ったタスクを安定稼働するために行ったこと - ZOZO TECH BLOG
- 14 users
- techblog.zozo.com
- テクノロジー
- 2023/10/19
はじめにこんにちは、ML・データ部MLOpsブロックの松岡です。本記事ではCloud Composerのワークフローにおいて、GPUを使うタスクで発生したGoogle CloudのGPU枯渇問題と、その解決のために行った対策を紹介します。 ZOZOが運営するZOZOTOWN・WEARでは、特定の商品やコーディネート画像に含まれるアイテムの類似商品を検索する類似アイテム検索機能があります。本記事ではこの機能を画像検索と呼びます。画像検索では類似商品の検索を高速に行うため、画像特徴量の近傍探索Indexを事前に作成しています。近傍探索Indexはワークフローを日次実行して作成しています。このワークフローでは大きく次のように処理を行っています。当日追加された商品の情報を取得し、商品情報をもとに商品画像を取得する。物体検出器で商品画像から商品が存在する座標とカテゴリーを検出する。検出
- あとで読む
【インターンレポート】LINEの大規模ETL batch pipelineにおけるdbtの導入によるデータ分析での課題解決の検証
- 12 users
- engineering.linecorp.com
- テクノロジー
- 2023/09/20
LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog こんにちは、早稲田大学政治経済学経済学科学部3年の滝田愛澄と申します。2023年8月7日から6週間、LINE株式会社のIU Data Connectチームにて、就業型インターンシップに参加させていただきました。本インターンでは、LINEの大規模ETL batch pipelineであるVinitusが現在抱えている課題を解決することを目的に、data build tool (dbt) の調査とdbtを用いた新たなworkflowのプロトタイプの設計・実装に取り組みました。このレポートでは、現在のVinitusが抱えている課題を確認し、dbtの導入によってどのようにそれらの課題を解決できるか、具体的にこのプロトタイプでは何をど
- dbt
- あとで読む
Netflix Japan - Watch TV Shows Online, Watch Movies Online
- 11 users
- www.netflix.com
- テクノロジー
- 2024/04/19
'); doc.close(); } if (!doc) throw Error('base not supported'); var baseTag = doc.createElement('base'); baseTag.href = base; doc.getElementsByTagName('head')[0].appendChild(baseTag); var anchor = doc.createElement('a'); anchor.href = url; return anchor.href; } finally { if (iframe) iframe.parentNode.removeChild(iframe); } }()); } // An inner object implementing URLUtils (either a native URL // ob
- ネタ
Causal Discovery Toolboxで簡単にデータの因果関係を解析してみよう - ENGINEERING BLOG ドコモ開発者ブログ
- 10 users
- nttdocomo-developers.jp
- テクノロジー
- 2024/05/13
TL;DR この記事では，Causal Discovery Toolbox（cdt）を用いて観測データから因果関係を簡単に解析する方法を紹介します．cdtは，Pythonで利用可能なツールで複数の因果分析モデルとアルゴリズムを提供しデータから因果関係を推定し視覚化することができます．特に，PCアルゴリズム，GES，LiNGAMなどの主要なアルゴリズムを使用した因果探索の手順とサンプルコードを提供し，それぞれの性能評価も行います． TL;DR はじめに因果探索とは Causal Discovery Toolbox(cdt) 環境構築利用できるアルゴリズム 1.PCアルゴリズム (PC) 2.CAM (Causal addtive model) 3.CGNN (Causal Generative Neural Networks) 4.GES (Greedy Equivalence Sear
共産党赤旗、「セカンドレイプの町草津」フラワーデモの記事をこっそり削除 : 痛いニュース(ﾉ∀`)
- 8 users
- itainews.com
- 政治と経済
- 2023/12/12
共産党赤旗、「セカンドレイプの町草津」フラワーデモの記事をこっそり削除 1 ：名無しさん＠涙目です。：2023/12/11(月) 14:20:50.31 ID:HhMdEi4l0●.net ところが、今日（10日）、18:00頃に確認したところ、赤旗記事が消えていたのである。12月7〜10日のいつかは正確には確定できないが（今日あたりは見たような気もする）、私がツリーを書いている間に、赤旗、いや、共産党は記事を消したのだ。なぜ？批判の盛り上がりに反応したからに決まっている！ pic.twitter.com/h57giUIrZd— 弁護士吉峯耕平 (@kyoshimine) December 10, 2023 3: 名無しさん＠涙目です。(日本のどこか) [US] 2023/12/11(月) 14:21:57.93 ID:iI53njZf0 人権侵害だろ… 4: 名無しさん＠涙目です。
- あとで読む
Surrogate index：短期で観測できる指標を用いた長期効果の推定 | CyberAgent Developers Blog
- 8 users
- developers.cyberagent.co.jp
- テクノロジー
- 2023/11/28
はじめに 2023年9月の1ヶ月間、AI事業本部協業リテールメディアディビジョンにて、「CA Tech JOB」というインターンシップに参加した東京大学大学院経済学研究科修士1年の西田鴻志です。本記事では、インターンシップ中に取り組んだ、短期で観測できる指標を活用した長期的な処置効果の推定と、その小売データ分析への応用について紹介します。背景施策の効果検証において、その長期的な影響について関心があることは多いと思います。例えば、あるマーケティング施策について、施策直後の売上といった短期の影響だけでなく、顧客生涯価値（LTV）といった長期的な影響を知りたいというニーズがあります。協業リテールメディアディビジョンにおいても、施策の長期的な効果を評価するための分析は行われていました。長期的な効果を分析するときには、分析に必要なデータを観測するために時間がかかるという課題があります。これに
Git as debugging tool
- 7 users
- lucasoshiro.github.io
- テクノロジー
- 2024/03/31
Are you sure? Debugging with Git? What are the tools that comes on your mind when someone say “debug”? Let me guess: a memory leak detector (e.g. Valgrind); a profiler (e.g. GNU gprof); a function that stops your program and gives you a REPL (e.g. Python’s breakpoint and Ruby’s byebug); something that we call a “debugger” (like GDB, or something similar embedded on the IDEs); or even our old frien
- Git
Welcome to Claro! - The Claro Programming Language (DRAFT)
- 7 users
- docs.clarolang.com
- テクノロジー
- 2024/02/28
Welcome to Claro! Claro is a statically typed JVM language that provides a well-lit path to building simple, highly concurrent, and scalable applications. Dependency Management Done Right Claro was designed with modern build tooling in mind: Swap any dependency without changing a single line of source code Runtime "Dependency Injection" frameworks are a thing of the past First class Module system
- あとで読む
[動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析！ #ちょっぴりDD | DevelopersIO
- 6 users
- dev.classmethod.jp
- テクノロジー
- 2023/09/04
[動画公開] Amazon Athena (Iceberg) x dbt ではじめるデータ分析！ #ちょっぴりDD データアナリティクス事業本部のコンサルティングチームの石川です。AWS主催のオンラインカンファレンス、ちょっぴり DiveDeep する AWS の時間にて「Amazon Athena (Iceberg) x dbt ではじめるデータ分析！」というテーマにて登壇しました。セッション動画と資料が公開されました。セッション概要コンサルティングチームでは、Amazon RedshiftやSnowflakeと「dbt」を用いたサーバレスなデータプラットフォームである「dbt-template」ソリューションと、コンサルティングサービスをご提供しております。今回は、「dbt-template」のAmazon Athena対応で得られた技術調査の結果と、テーブルフォーマット「Iceb
- dbt
- data
- AWS
- あとで読む
Rustで実装しながら学ぶWebSocketの基本
- 6 users
- zenn.dev/ohke
- テクノロジー
- 2023/11/21
WebSocketを双方向通信のために使うプロトコルでしょ、という感じのうっすら理解で誤魔化していた[1]のですが、IoTアプリケーションぽいものを作ることがあって、理解を深めるためにあらためて学びました、という投稿です。今回はWebSocketでエコーするサーバーを、TCPライブラリだけを用いてRustで実装していきます。コードは以下です。 WebSocketとは RFC 6455で定義された、主に双方向でやり取りするために用いられる通信プロトコルです。 WebSocketが直接用いるプロトコルはTCPですが、ハンドシェイクはHTTP(S)によって行われます。WebSocketを使うプロトコルとして、MQTT over WebSocketやSTOMPなどがあります。最近のWebアプリケーションではごく普通に用いられてます。企業サイトなどでよく見る問い合わせ用のチャットフォームなどは、
- Rust
- あとで読む
Snowflake 向けの DevOps の取り組みと現状の課題についてまとめてみた
- 6 users
- zenn.dev/dataheroes
- テクノロジー
- 2023/10/16
本記事の背景本記事は、某所で密かに行われていた Snowflake DevOps 情報交換会 Season 1 最終回の議論用に共有した内容です。本会は、 DevOps を中心に、また DevOps とは直接は関係ないテーマも含め、その時々において関心のあるテーマを取り扱っていましたが、今回は最終会ということで、本来のテーマである DevOps において、私個人が中心的テーマであると考える構成管理やデプロイの自動化について議論したいと思い、整理しました。中心的テーマを再び取り上げようと考えたきっかけの 1 つが Snowflake Data Superhero の Tomas が LinkedIn で EXECUTE IMMEDIATE FROM という新しい構文について紹介しているのを発見したことです。これはステージ上の SQL ファイルを直接実行できるという機能です。 Tomas
[レポート] Amazon MWAA と AWS Step Functions を比べてみた #AWSreInvent #API307 | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2023/11/29
[レポート] Amazon MWAA と AWS Step Functions を比べてみた #AWSreInvent #API307 こんにちは、muroです。AWS事業本部サービス開発室でopswitchの開発・運用を担当しています。opswitchは今年の1月にApache Airflowベースのアーキテクチャから、AWS Step Functionsに移行しました。今回 re:Invent で Amazon MWAA と AWS Step Functions のそれぞれの長所短所を学ぶセッションがあったので、自身の理解度を確認するために受講してきました。セッションの概要タイトル Comparing Amazon MWAA and AWS Step Functions 概要 Organizations looking to orchestrate ETL data pipel
- aws
- あとで読む
Prompt Flowをローカルで動かす＆コードで管理する | フューチャー技術ブログ
- 5 users
- future-architect.github.io
- テクノロジー
- 2024/02/12
はじめにこんにちは、SAIG/MLOpsチームでアルバイトをしている板野です。 AzureのPrompt Flowをローカル環境で動かし、作成したフローをコードで管理する方法をご紹介します。 Prompt Flowとは、Azure Machine Learning上の機能で、Azure OpenAIで提供されているLLMを利用したアプリケーション開発を円滑にするためのツールです。実際にLLMアプリケーションを開発する場合、「プロンプトを入力して終わり」ではなく、ベクトル検索など複数の要素を組み合わせることもあります。このため、Prompt Flowでは処理のフローをDAG(有向非巡回グラフ)で可視化することで、開発効率が大きく向上します。 Prompt FlowはPythonライブラリ（2023/09/27時点ではMITライセンス）として提供されており、Azureのコンソール画面だけでな
- LLM
- Azure
- python
- あとで読む