[7ページ] *dataの人気記事 986件 - はてなブックマーク

241 - 280 件 / 986件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

*dataの検索結果241 - 280 件 / 986件

On GraphQL-to-SQL
- 30 users
- productionreadygraphql.com
- テクノロジー
- 2020/05/23
GraphQL has a reputation for its N+1 problem which can often happen when implemented naively. This leads to a lot of us trying to solve the issue of data fetching with GraphQL in the most efficient way possible. Besides the popular Dataloader approach, another very common way of tackling this problem is by taking a GraphQL query, and coming up with the exact SQL needed to resolve it: // example fr
- GraphQL
- SQL
- あとで読む
- database
Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1
- 30 users
- logmi.jp
- テクノロジー
- 2019/07/03
2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Deep Dive into Spark SQL with Advanced Performance Tuning」に登壇したのは、Databricks Inc.の上新卓也氏。講演資料はこちら Spark SQLの仕組みとパフォーマンスチューニング上新卓也氏：それでは発表を始めます。『Deep Dive into Spark SQL with Advanced Performance Tuning』ということで、Spark SQ
- Spark
- SQL
- あとで読む
- performance
未観測でも因果探索したい！BottomUpParceLiNGAMとCAM-UVの紹介 - Qiita
- 30 users
- qiita.com/kirikei
- テクノロジー
- 2022/12/11
この記事はNTTコミュニケーションズアドベントカレンダー12日目の記事です。こちらの記事では、巷で話題の統計的因果探索の手法群を総合的に集めたlingamライブラリの紹介と、実際に利用した例を紹介します。この手法群の元祖かつ代表であるLiNGAMは様々なサイトで紹介されているので、今回は未観測変数を考慮したBottomUpParceLiNGAM 非線形かつ未観測変数を考慮したCAM-UV の２種についてLiNGAMプロジェクトの公式チュートリアルを参考に紹介します。さらに、巷のオープンデータに適用してみて考察を行います。なお、この記事では各手法の性質については記述しますが、理論的な背景や式の導出の解説はしませんので、あらかじめご了承ください（ここから先は自分の目で（以下略））統計的因果探索とは統計的因果探索は複数の仮定を基にデータから因果グラフを生成する手法のことです。主に離散変数
- 統計
- あとで読む
- qiita
- データ
- python
複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ
- 30 users
- blog.engineer.adways.net
- テクノロジー
- 2022/03/25
こんにちは、インフラの天津です。今日は複数アカウントの AWS Security Hub 検出結果の可視化についてお話したいと思います。前提モチベーション AWS Security Hub とは構想ツール・サービスの選定検出結果データのエクスポートについて可視化用データベース（またはクエリサービス）と可視化ツールについて構築全体像検出結果データエクスポート検出結果データの S3 -> GCS への転送と BigQuery へのインポート Security Hub からエクスポートしたデータには BigQuery のカラム名に使用できない文字(以下禁則文字)が使用されている件自動判別で生成されたスキーマでインポートした際に INTEGER 型のカラムに STRING 型のデータが入ってくることがありインポートエラーが発生する件 AWS アカウントデータの S3 ->

AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ
- 30 users
- www.m3tech.blog
- テクノロジー
- 2022/10/31
こんにちは、10月後半の2週間、エムスリーのAI・機械学習チームでインターンをしていた後藤です。今回は私の行ったタスクと、インターン生からみてエムスリーはどのような会社なのかについて書いていこうと思います。他の学生の方々のインターン選びやBigQueryのテスト手法に悩んでいるエンジニアの方々の参考になれば幸いです。 BigQueryのローカルテスト基盤を作った話背景 BigQuery Emulatorの登場 bqemulatormanagerの作成スキーマの自動取得並列処理への対応テストコードの導入 BigQuery Emulatorを使用する際に気をつけるべきポイントインターンの話進め方について AI・機械学習チームについて終わりに BigQueryのローカルテスト基盤を作った話背景 AI・機械学習チームでは、BigQueryに日々蓄積されている大規模データから所望
分散密ベクトル探索エンジンValdとSentence-BERTを使った類似文書検索を試す - エムスリーテックブログ
- 30 users
- www.m3tech.blog
- テクノロジー
- 2021/06/07
エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 最近、社内で情報検索論文輪読会を立ち上げました。情報検索論文読み会のスケジュールそこでNGT-ONNGについての論文*1を紹介したところ1時間の予定のところを盛り上がりすぎて2時間超えてしまいました。大盛り上がりのついでに、今回は情報検索論文輪読会で紹介した近似最近傍探索ライブラリNGTを内部で利用するValdを使って、類似文書検索がどのように出来るのか、現状の問題を解決できるのかを試したのでその結果を報告します。 Overview 弊社が抱える類似文書検索の課題 Sentence-BERT Valdを使った近似最近傍探索 NGT Vald Vald×Sententce-BERTで類似文書
- BERT
- nlp
- 機械学習
- search
- 自然言語処理
スタートアップにおけるデータ活用文化の醸成に向けて - ANDPAD Tech Blog
- 29 users
- tech.andpad.co.jp
- テクノロジー
- 2022/10/20
ANDPADのデータグループでマネージャーをしている土居です。アンドパッドには2022年4月にJOINしデータスチュワードとして社内における様々なビジネス課題の解決に奮闘しております。入社して1ヶ月後の5月からはデータグループのマネージャーになり、中長期的なデータ活用の取組方針の策定やグループマネジメント業務を行っております。タイトルにある通り、本ブログではスタートアップであるアンドパッドにおいてどのように「データ活用文化の醸成」を行い、ビジネス価値を出していこうとしているのかについてお話したいと思います。入社時に感じたことデータ組織の再構築 1. 組織名の変更 2. 組織のミッションの言語化データグループのミッション各チームのミッション 3. OKR方式採用による目標の明確化データ活用文化の醸成に向けてさいごに入社時に感じたこと当社は建築・建設業界における Vertic
BigQueryのローカル検証用にbigquery-emulatorを触ってみた。ついでにPythonから接続してみる - Qiita
- 29 users
- qiita.com/Hisaaki-Kato
- テクノロジー
- 2022/11/07
BigQueryのローカル検証用にbigquery-emulatorを触ってみた。ついでにPythonから接続してみるPythonBigQueryemulatorGoogleCloud はじめにみなさん、BigQueryが絡む処理のローカル開発やテストどうしてますか？BigQueryは公式のエミュレーターが提供されていないのでけっこう困ること多いんじゃないでしょうか？私はとりあえず、ローカルではなく専用の環境を用意してそこに接続する形にしていましたが、業務委託の方などに入っていただくことが増えると権限周りで少々悩ましいことも多いです。ただ数ヶ月前に、goccyさんという方が開発されたGo製のOSSbigquery-emulatorが公開され、こうした問題に解消の兆しが見えてきました。(開発者の方にはリスペクトしかありません！) 少し前までは提供されていない機能も多かったのですが、開発
DuckDB-Wasm: Efficient Analytical SQL in the Browser
- 29 users
- duckdb.org
- テクノロジー
- 2021/10/30
TL;DR: DuckDB-Wasm is an in-process analytical SQL database for the browser. It is powered by WebAssembly, speaks Arrow fluently, reads Parquet, CSV and JSON files backed by Filesystem APIs or HTTP requests and has been tested with Chrome, Firefox, Safari and Node.js. You can try it in your browser at shell.duckdb.org or on Observable. DuckDB-Wasm is fast! If you’re here for performance numbers, h
- wasm
- sql
- webassembly
- db
- browser
- CSV
- JSON
- performance
LinkedInが開発した時系列モデル“Greykite”の理論と実装 - ぱぐみの部屋
- 29 users
- www.pagumi-bayesian.com
- テクノロジー
- 2022/11/18
時系列データのモデリングとして、以下のような手法がメジャーかなと思います。 ARIMA Prophet 状態空間モデル RNN LSTM DeepAR 今回は、2021年に発表された比較的新しい手法であるGreykiteのご紹介をしていきます。注意：本記事は2022年11月時点の情報をもとに記載しております。ライブラリの変更等により本記事の記載内容が古くなる可能性がありますが、ご了承ください。 Greykiteとは? LinkedInが2021年にOSSとして公開した時系列予測モデルです。機械学習分野の国際会議であるKDD2022でも発表されたようです。 KDD2022よりLinkedInによる時系列予測OSS Greykite (https://t.co/wpsCnuak2t) の紹介論文。コアとなるSilverkiteというアルゴリズムの紹介が中心で解釈可能性と速度が売り。Proph
「俯瞰」可視化が情報探索・分析を変える
- 28 users
- speakerdeck.com/hayataka88
- テクノロジー
- 2022/12/28
下記のイベントでLTした資料です。私はDay 1に「「俯瞰」可視化が情報探索・分析を変える」というテーマで発表しました。データ可視化ショーケースイベント Data Visualization meetup 2022 https://peatix.com/event/3452708 「俯瞰」可視化に関する、①アルゴリズム、②背景思想、情報探索・分析を変える可能性、③関連プレイヤーを話しました。
20年前のMySQL、今のMySQL
- 28 users
- speakerdeck.com/yoku0825
- テクノロジー
- 2019/12/16
2019/12/01 PHP Conference Japan 2019 https://phpcon.php.gr.jp/2019/
- mysql
- あとで読む
Cloud Composerにデータマート集計基盤を移行しました - ZOZO TECH BLOG
- 28 users
- techblog.zozo.com
- テクノロジー
- 2023/02/13
こんにちは、MLデータ部データ基盤ブロックの奥山（@pokoyakazan）です。趣味の範疇ですが、「ぽこやかざん」という名前でラジオ投稿や大喜利の大会に出たり、「下町モルモット」というコンビで週末に漫才をしたりしています。私は普段、全社データ基盤の開発・運用を担当しており、このデータ基盤はGCPのBigQuery上に構築されています。そして、データ基盤内の各テーブルは、大きく分けて以下の2種類に分類されます。システムDBのデータやログデータなどが、特に加工されることなく連携されている一次テーブル一次テーブルから必要なデータを使いやすい形に集計したデータマート本記事では、後者のデータマートを集計するジョブを制御するワークフローエンジンを、DigdagからCloud Composerに移行した事例について紹介します。Cloud Composerとは、GCPにてApache Airflo
- あとで読む
Cloud Storageへのデータ転送で課金爆死してしまった件 - G-gen Tech Blog
- 28 users
- blog.g-gen.co.jp
- テクノロジー
- 2023/11/21
G-genの田中です。当記事では、Cloud Storage を利用する中で、意図していない高額の請求が発生してしまった事例について解説していきます。はじめに背景 Cloud Storage とは Cloud Storage の料金 Storage Transfer Service とは事件のあらまし背景落とし穴莫大な課金の発生後日譚はじめに背景今回、G-gen でサポートさせて頂いているお客様が Storage Transfer Service を利用して Cloud Storage へデータ移行を行ったところ、3日間で数十万円の課金が発生してしまったという事件があり、注意喚起のために記事化させて頂くことになりました。本記事は、お客様名の許諾を得た上で、実際に起きた内容を少し改変して記事化しました。お客様の社内事情のため数値等を事実とは違うものにして記載していますが
- cloud
- あとで読む
分析組織を「分析」する｜NEO CAREER Data Analytics Blog｜note
- 28 users
- note.com/neo_analytics
- テクノロジー
- 2021/08/30
3行まとめ・分析組織のロードマップとフェーズを分析・分析組織の戦略と組織体制を分析・分析組織を運営する上での注意事項を列挙データソリューショングループの天野です。最近運動不足を解消するために体組成や歩数をモニタリングしており、徐々に成果が出ています。「継続は力なり、計測も力なり」ですね。前回公開の記事から時間が空いてしまいましたが、今回は事業会社の分析部門責任者の観点から分析組織を「分析」するというテーマにて記事を書きました。具体的には分析組織の運営に関わるロードマップやフェーズ毎の役割を始め、個社毎に策定するデータ戦略に用いられる要素や分析組織の体制パターン、そして知っておくことや避けた方が良いことなどを「分析」します。「分析」というワードがありますが持論をまとめているだけで、データがまったく出てこないので客観性に乏しくデータ分析者には物足りない内容かもしれませんが、ひとつ
ワークフロー基盤としてのEKSクラスター運用のポイントとEKS on Fargate検証 - Gunosy Tech Blog
- 28 users
- tech.gunosy.io
- テクノロジー
- 2019/12/17
本記事は、Gunosy Advent Calendar 2019 17日目の記事です。昨日の記事は、中村さんによる Pythonしか知らない新卒がGunosyに入るとこうなる - Gunosy Tech Blog でした。はじめにワークフロー基盤についてシステム概要その日はいきなり訪れた原因究明対策反省点まとめ EKS on Fargateについて検証のポイント検証内容まとめ最後にはじめにはじめましてこんにちは、Gunosy Tech Lab1 Data Reliability & MLOps Group2の大関（@mageyuki）と申します。弊チームでは、 Gunosyにおける統合データ基盤集約したデータを活用した機械学習基盤 Gunosyの社是である「数字は神よりも正しい」を根底から支える、重要な2つの基盤の開発運用を行っています。私は主にAWS上
- kubernetes
- あとで読む
「新しいおうち探し」のためのAIアシスト検索〜 Yahoo!不動産の技術紹介
- 28 users
- techblog.yahoo.co.jp
- テクノロジー
- 2022/05/23
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog Yahoo!不動産のフロントエンド、バックエンドの開発を担当しているアンドン聖司と申します。 Yahoo!不動産では、店舗での対面接客と同等の物件提案が体験できるようなサービスを目指し、AIがアシスタントとなってユーザーの物件探しをお手伝いをしてくれるような機能を提供しています。深層学習やクラスタリングといった技術・手法を用いて、このAIアシスト機能を提供しています。先日のYahoo! JAPAN Tech Conference 2022の内容をベースに、これらの技術の紹介と、登壇で語りきれなかった内容をご紹介します。 AIアシスト検索とは従来の不動産サイトでは、ユーザーが条件を設定して絞り込みを行い、物件の検索を行います。（
- 機械学習
- yahoo
- 検索
- あとで読む
- 統計
- AI
一週間で構築できる！お手軽データウェアハウス
- 28 users
- k11i.biz
- テクノロジー
- 2021/12/17
Legalscape (リーガルスケープ) アドベントカレンダー 2021 の 12/16 (木) のエントリです。本日のエントリは、突貫工事的に一週間程度1で構築したデータウェアハウスについてお送りいたします。データウェアハウス構築前夜 2021 年 6 月に予定をしている Legalscape 正式版リリースが刻々と迫り、みなが慌ただしく仕事をしている 5 月下旬、ビジネス上の様々な理由からユーザのアクティビティログを保持して分析・集計するデータ基盤、すなわちデータウェアハウスが必要になりました。 Legalscape ではそれまで、プロダクト上でのユーザの行動に伴って発生するアクティビティログはすべて (書籍の全文検索に用いているものと同じ) Elasticsearch クラスタにインデックスしていました。アクティビティログを利用する際は、このインデックスに対して Kibana
- データ
- あとで読む
スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka
- 28 users
- speakerdeck.com/recruitengineers
- テクノロジー
- 2022/01/31
2022/01/27_スタディサプリのデータ基盤を支える技術 2022 －RECRUIT TECH MEET UP #3－での、橘高の講演資料になります
BigQuery MLでスロット使用量が急増しているプロジェクトやユーザーを異常検知する - yasuhisa's blog
- 28 users
- www.yasuhisay.info
- テクノロジー
- 2022/03/07
背景どうやって異常を検知するか BigQuery MLでの異常検知検知できるモデルの種類共通設定データの前準備モデルの学習モデルを元にスロット使用量が異常に増加していないか予測する所感背景 BigQueryはオンデマンドとフラットレート(定額料金)があるオンデマンドはスキャン量がお金に直結するため、INFORMATION_SCHEMA.JOBS_BY_*などを使ってクエリ警察をしている方も多いはず INFORMATION_SCHEMAに代表されるデータ管理に役に立つ現場のノウハウを最近会社のTech Blogに書いたので、そちらも見てね一方で、フラットレートに関しては定額使いたい放題のプランであるため、オンデマンドよりはクエリ警察をしていない場合もある見れるなら見たいが、どうしても支出に直結するオンデマンドを優先して見てしまいがち。工数も限られているが、あまりに自由
データ組織のトポロジー｜Jun Ernesto Okumura
- 28 users
- note.com/pacocat
- 暮らし
- 2021/12/24
この記事について最近発売された『チームトポロジー』（以後、本書）を読んだのですが、チーム体制やコミュニケーションの設計について汎用的にまとめられていてとても良い読書体験でした。私自身、データ組織をどのように設計していくか日頃考えており、本書を読み進めながら、考えが構造化され、課題の解像度が高まった気がします。現在、私は株式会社エウレカで、BIチーム（分析チーム）、AIチーム、Data Managementチーム（データ基盤チーム）、の3チームのマネジメントをしています。日々生まれるデータを価値に転換し、同時にプライバシーやセキュリティなどのガバナンスを徹底するために、全社的なデータ戦略を推進していく立場です。大雑把に「データ活用」と括ってしまいましたが、意思決定をサポートするのための活動（BI）、ユーザー向けの機能開発を伴う活動（AI）、それらの活動を効率よく進めるための活動（Data
- 組織
- management
- data
- あとで読む
- データ
gokartのMLパイプラインをKubernetesで並列分散実行できるライブラリkannonを作った話 - エムスリーテックブログ
- 28 users
- www.m3tech.blog
- テクノロジー
- 2023/03/14
初めまして！2023年3月前半にエムスリーのAIチームで10日間インターンに参加していた小栗 (@irungo_ic )です。インターンでは、エムスリー発の機械学習パイプラインOSSであるgokart をKubernetes上で高速にかつ簡単に実行できるようになるライブラリであるkannon('cannon'と同じ発音！)をゼロから実装し、OSSとして公開しました。 github.com この記事ではkannonの技術的な解説、インターンに参加した感想をお伝えします！ gokartの概要 gokartの抱えていた課題シングルスレッドでの逐次実行により実行時間が長くなってしまう GKEのリソースを効率的に使えない kannonの概要 kannonの使い方 gokart kannon gokart kannon 補足 kannonのアーキテクチャ kannonの実装 1. Task Que
データベース用語の「シャーディング」はMMORPGの「ウルティマオンライン」が由来かもしれない
- 27 users
- gigazine.net
- アニメとゲーム
- 2023/04/15
1つのテーブルを複数のデータベースサーバーに分割して記録するデータベースの負荷分散方法を「シャーディング」と呼びます。このシャーディングという言葉が、老舗大規模多人数同時参加型オンラインRPG(MMORPG)の「ウルティマオンライン」に由来していることを、ウルティマオンラインのゲームデザイナーだったラフ・コスター氏が解説しています。 Database “sharding” came from UO? – Raph's Website https://www.raphkoster.com/2009/01/08/database-sharding-came-from-uo/ コスター氏によると、「シャーディング」という言葉の用例をGoogleで検索した中で最も古いものが、2009年に書かれたFriendstarとFlickrの元従業員だったエンジニアのブログだったそうです。Flickrは今でこ
Apache Arrowの最新情報（2020年7月版） - 2020-07-31 - ククログ
- 27 users
- www.clear-code.com
- テクノロジー
- 2020/07/31
Apache ArrowのPMC（Project Management Commitee、プロジェクト管理チームみたいな感じ）のメンバーの須藤です。みなさんはApache Arrowを知っていますか？最近、ついに1.0.0がリリースされたんですよ。私がApache Arrowの最新情報をまとめた2018年9月から毎年「今年中に1.0.0がでるぞ！」と言っていた1.0.0がついにリリースされたんです！ 1.0.0を機に安心して使えるようになります。（どう安心なのかは後で説明します。） Apache Arrowはすでにデータ処理界隈で重要なコンポーネントになりつつありますが、数年後にはもっと重要になっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので毎年Apache Arrowの最新情報をまとめています。1.0.0がリリースされたので2020年7月現在
MOVで実践したサーバーAPI実装の超最適化について [MOBILITY:dev]
- 27 users
- www.slideshare.net/slideshow
- テクノロジー
- 2019/10/31
DeNAのオートモーティブ事業本部スマートタクシー事業部システム開発部部長惠良和隆が 2019/10/31 に MOBILITY:dev で登壇した内容をご紹介します。Read less
dbtとDataformを比較し、dbtを使うことにした - Attsun blog
- 27 users
- attsun1031.github.io
- テクノロジー
- 2021/02/12
TL;DRdbt, Dataformについて簡単に紹介dbtDataform比較対応するプラットフォーム主要な機能外部ツールとの接続性運用時のあれこれ両者のPros/Consまとめ私たちの選択どちらを使うべきなのか？選ばれたのは、dbtでしたまとめ最近、業務でDWH / Datamartの整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところdbtとDataformがツールとして有力そうだったので、比較してみました。 TL;DRdbtは機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。DataformはWebビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbtに比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じ
超爆速なcuDFとPandasを比較した - Taste of Tech Topics
- 26 users
- acro-engineer.hatenablog.com
- テクノロジー
- 2020/12/10
皆さんこんにちは。 @tereka114です。今年末はKaggleで開催される面白いコンペも多くて日々、エンジョイしています。最近は巨大なデータを扱うことが増えており、Pandasだと時間がかかりすぎて効率が悪いと感じています。そのため、データを高速に処理できるcuDFを利用することも多くなってきました。この記事ではcuDFの魅力と扱う際の注意点を説明していきます。 ※この記事は「Pythonその2 アドベントカレンダー」10日目の記事です。 qiita.com cuDFとは cuDFはNVIDIAさんが開発している、Pandasの代わりに利用することができるGPUのライブラリです。最も大きな特徴はGPUで計算するため、高速であることです。主に、カテゴリ変数ごとの平均計算や、テーブル同士の結合といった、時間のかかるテーブル処理で、効果を発揮します。 github.com cuD
- pandas
- cudf
- python
- GPU
- あとで読む
- HotEntry
- コンピュータ
rails statsと企業価値 - algonote
- 26 users
- ja.algonote.com
- テクノロジー
- 2023/05/01
開発スピードが遅いのか、作っているものの筋が悪いのか前口上: rails statsで企業価値は測れるか？ rails stats はRailsリポジトリの統計情報が取れる便利コマンドです。LaravelでもLaravel Statsを使って php artisan stats で同様のことができます。結構リポジトリの内情を丸裸にするコマンドで、モデルやコントローラーのサイズからアプリの規模感が掴めますし、コードとテストの割合からしっかりテストが書かれているかがわかります。 Webサービスの事業価値は大きく見れば売上や成長率、より細かく見ると業態やtoBかtoCか、どこの産業向けか、アクティブユーザー数などで決まります。一方でIPO以降の売上成長率は従業員数に比例しているという話もあり、ビジネススキームが決まってしまえば後は頭数に比例するとも言えそうです。 Four Keysなどの開発
- Rails
- article
- ruby
- あとで読む
分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)
- 26 users
- lab.mo-t.com
- テクノロジー
- 2022/07/05
タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。本番DBから分析基盤への連携処理を改善した事例を紹介します。※ 本記事の対象読者はETLツールを利用している方を対象にしていますはじめに本記事では、タクシーアプリ「GO」の DB から分析基盤への同期処理を約7時間から約10分に改善した事例を紹介します。まず、既存の処理および改善前の状況を説明し、次に改善にあたり実施した分析、その分析をもとにチーム内で実施した議論を経て、最終的にどのような実装を行ったのか紹介させて頂きます。同期処理についてGO の DB は Cloud SQL 上で構築されており、分析基盤への同期処理は GKE 上で Embulk を起動し、リードレプリカに対してクエリを投げて一度 GCS に結果を格納します。その後、GC
Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ
- 26 users
- tech.classi.jp
- テクノロジー
- 2021/08/19
こんにちは、データプラットフォームチームでデータエンジニアをやっている滑川(@tomoyanamekawa)です。以前紹介したデータ分析基盤であるソクラテスの改善のためにCloud Composer(Airflow)で行っている処理のdbtへの置き換えを検討しましたが、導入を見送りました。調べてみてdbtに対するわかりみも深まったので、その供養のために検討内容を公開します。同じように検討している方の参考になれば幸いです。 dbtとは DWH(Data Ware House)でのquery管理やデータの品質、データリネージの問題を解決してくれるツールです。すでに先人たちがいろいろな記事を公開してくれているので、詳細は説明しませんがこちらの文がdbtをよく表しています。 ELTの「T」を担当するツールデータの前処理における作業をELT（Extract、Load、Transform）と
- dbt
- データ
アクティブメタデータの所感｜Rytm / Quollio
- 26 users
- note.com/rytmq
- 暮らし
- 2022/07/18
冒頭2022年現在、データ界隈で良く聞く概念の一つに、Active Metadataがある。最も、日本では未だ広く浸透していない概念ではあるが、北米ではData MeshやData Fablic、Metrics Layer等のバズワード(?)と同じように界隈を賑わしているものであり、こと ”データが資源” である21世紀の企業経営においては（現時点で少なくとも北米においては）最重要トピックの一つであると言って過言でない。本日は、データの最前線を賑わしているアクティブメタデータについて、まだ日本語での記事も多くないので、思うところを書いてみることにした。背景ときっかけ既にご存知の方も多いと思うが；象徴となったのは、Gartner社が2021年8月にMagic Quadrant for Metadata Managementの廃止を宣言し、代わりに Market Guide for Act
MySQL 8.0.20 でHASH JOINが効くケースが拡大した - mita2 database life
- 26 users
- mita2db.hateblo.jp
- テクノロジー
- 2020/05/04
TLDR; MySQL 8.0.20 から INNER JOIN だけじゃなくて、Semi joinや Left/Right outer join でも HASH JOIN が使えるようになったよ MySQL 8.0.20 では (EXPLAIN ANALYZEではなく）EXPLAIN でも、HASH JOINが使われているか、表示されるようになったよ MySQL 8.0.19 から、optimizer_switch で HASH JOIN の OFF/ON がコントロールできなくなったよ MySQL 8.0.20 Release Note Hash joins are now used any time a nested block loop would be employed. This means that hash joins can be used for the followi
- mysql
- あとで読む
- db
Elasticsearch で Learning-to-Rank を試してみた！ - Qiita
- 26 users
- qiita.com/wararaki
- テクノロジー
- 2019/12/23
この記事は、ただの集団 AdventCalendar 2019の21日目の記事です。はじめに担当日前日に「Elasticsearch で Learning-to-rank やりたいので、環境構築の手順とその使い方についてまとめてね。ヨロピコ！」と振られたので、今回は Elasticsearch with learning-to-rank の構築手順とその使い方を紹介します。今回作成したものはコチラ Learning-to-rank とは検索エンジンにおける learning-to-rank とは、機械学習と検索するデータを使って、検索結果のランキングの順序を改善する手法のことです。順序学習やランキング学習とも呼ばれています。今回は、Elasticsearch の learning-to-rank のプラグインを使います。learning-to-rank のレポジトリにある de
- elasticsearch
- あとで読む
- docker
- qiita
- 機械学習
- 学習
- search
BigQuery MLで商品一覧画面の並び順を改善して売上を40%上げた話 - OVERS
- 26 users
- overs.zigexn.co.jp
- テクノロジー
- 2022/12/01
目次はじめに自己紹介内容概要基本設計 TCVのビジネスモデル施策内容システム構成フェーズ１: とりあえずAutoMLを使ってみるフェーズ２: 目的変数を変えるフェーズ３: BigQuery MLの導入による検証高速化フェーズ４: 国別フェーズ５: 回帰ではなく分類へフェーズ６とその先へおわりにはじめに自己紹介じげん開発Unitデータ分析基盤チームの伊崎です。開発Unitは特定の事業部に所属しない全社横断組織です。その中で、データ分析基盤チームは全社のデータ基盤の整備、データ利活用を担当しています。私個人としては、大学で純粋数学を学んだ後、前職でエントリーレベルの機械学習エンジニアとして働きました。現職では半分データエンジニア、半分データサイエンティストとして働いています。プライベートでKaggleに参加し、銅メダルを獲得した経験があります（最近は活動
dbt Labs のベストプラクティス全部違反してみた。そして dbt project evaluator を使って全部直してみた。
- 25 users
- zenn.dev/mjunya1030
- テクノロジー
- 2022/12/11
dbt Labs のベストプラクティス全部違反してみた。そして dbt project evaluator を使って全部直してみた。サマリ dbt Labs では、dbt のプロジェクト、並びに変換パイプラインに関するベストプラクティスを紹介しています。さらに、いくつかのベストプラクティスについては、自動で評価可能な dbt project evaluator というツールも公開されています。今回は、dbt project evaluator で評価可能な、20 個のベストプラクティスを全て「違反」した dbt プロジェクトを１から作成し、このツールを当てて評価した上で、修正をかけました。実際にツールがうまく検知してくれるのかを確認し、検知された項目を修正する場合の手続きとその難所や、現実的な運用方法をまとめています。 ※この記事は dbtアドベントカレンダー2022 の 12/1
データアナリストの成長段階｜Jun Ernesto Okumura
- 25 users
- note.com/pacocat
- 政治と経済
- 2021/02/22
自己紹介私は現在、マッチングアプリのPairsを運営するエウレカという会社でデータ組織のマネジメントを行っています。役割としては、BIチーム（データアナリストチーム）、AIチーム、Data Managementチーム（データ基盤チーム）の3チームの戦略推進が主になります。実際どのようなことをしているのかは以下の記事をご覧ください。この記事について今回記事を書こうと思ったきっかけは、データアナリストのキャリアについて自分の考えをまとめたかったからです。「データを使って意思決定に貢献する」「データからインサイトを得る」…と多くの組織がデータ分析に注力している中で、分析者であるところのデータアナリストが実際どのようなキャリアを歩んでいるかは、まだ情報が少ない印象を持っています。そもそも「データアナリスト」という役職から想像される人物像は組織によってバラバラです。指標をレポートする人、データ
300GB/day出力されるログ基盤をFluent Bit + Fargate + NLBで再構築したら、エンジニアの作業効率が上がった - クラウドワークスエンジニアブログ
- 25 users
- engineer.crowdworks.jp
- テクノロジー
- 2020/12/24
これはクラウドワークスアドベントカレンダー 24日目の記事です。前日は畑中さんの制作会社出身のデザイナーが事業会社に入って感じた５つの悩み事でした。事業会社とデザイン制作会社の違いから生まれる悩みをどう解決したかが伝わる記事でした。クラウドワークスSREチームの @kangaechu です。最近はM1 Macを購入しました。M1 Macはアプリケーションの対応状況がまだまだなので、Goをソースからクロスコンパイルするなど、今までやったことがないことができてちょっと楽しいです。でももう少しネイティブのアプリが揃うと嬉しいな。アドベントカレンダーはSREチームに入ってからの2年間にチームでやってきたことに続き、2つめのエントリとなります。前回の記事で、Docker化したシステムの一つとしてfluentd（ログ基盤）を挙げました。ここではそのログ基盤についての詳細を書いていきます。
- fluentd
- ログ
- aws
- あとで読む
Kyash QAチームの改善の取り組みについて - Kyash Product Blog
- 25 users
- blog.kyash.co
- テクノロジー
- 2021/08/11
はじめにこんにちは、Kyashの品質管理を担当している Tokki です。 Kyash QAチームの歩みについてお話できたらと思います。 Kyashの品質管理（Quality Assurance）ってどんなチーム Kyashでは、品質管理チームを英語表記で QA（Quality Assurance）チームと呼んでいます。会社のバリューの一つに、『One Team』があります。プロダクトリリースに関する一連の活動（企画、開発、テスト、運用）において、チームメンバーが一つになって運用する中で、品質活動についてもチームメンバーが一つになって取り組んでいくことを目指しています。その中でQAは、プロダクトの品質を最大限保証するために必要な品質活動を行う、クリエイティブな専門家でありたいと考えています。 1人目の社内QAとしての入社私は2020年10月に社内で1人目のQA専門職として入社しまし
- テスト
- あとで読む
- tech
- 開発
Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
- 25 users
- techblog.yahoo.co.jp
- テクノロジー
- 2022/05/25
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告におけるデータマーケティングソリューションでは、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析や機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで
- aws
- データ
- data
- あとで読む
- Hudi
qrnというDBベンチマークツールを作った - so what
- 25 users
- so-wh.at
- テクノロジー
- 2020/05/13
qrnというDBベンチマークツールを作りました。 github.com これは何？羅列されたクエリを実行するだけのDBベンチマークツールです。今のところMySQLにしか対応していませんが、PostgreSQLへの対応はそんなに難しくないと考えています。羅列したクエリを実行するだけなので、クエリのログ（MySQLならgeneral log）をほぼそのままテストデータにすることができます。逆に同じクエリを異なるパラメーターで実行するようなことはできないので、そういうむきであればJdbcRunnerなどを使った方がいいと思います。 Installation https://github.com/winebarrel/qrn/releases から最新版をダウンロードしてください。 Usage $ echo '{"query":"select 1"}' >> data.jsonl $ ec