並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 986件

新着順 人気順

*dataの検索結果241 - 280 件 / 986件

  • On GraphQL-to-SQL

    GraphQL has a reputation for its N+1 problem which can often happen when implemented naively. This leads to a lot of us trying to solve the issue of data fetching with GraphQL in the most efficient way possible. Besides the popular Dataloader approach, another very common way of tackling this problem is by taking a GraphQL query, and coming up with the exact SQL needed to resolve it: // example fr

      On GraphQL-to-SQL
    • Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1

      2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Deep Dive into Spark SQL with Advanced Performance Tuning」に登壇したのは、Databricks Inc.の上新卓也氏。講演資料はこちら Spark SQLの仕組みとパフォーマンスチューニング 上新卓也氏:それでは発表を始めます。『Deep Dive into Spark SQL with Advanced Performance Tuning』ということで、Spark SQ

        Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1
      • 未観測でも因果探索したい!BottomUpParceLiNGAMとCAM-UVの紹介 - Qiita

        この記事はNTTコミュニケーションズアドベントカレンダー12日目の記事です。 こちらの記事では、巷で話題の統計的因果探索の手法群を総合的に集めたlingamライブラリの紹介と、実際に利用した例を紹介します。この手法群の元祖かつ代表であるLiNGAMは様々なサイトで紹介されているので、今回は 未観測変数を考慮したBottomUpParceLiNGAM 非線形かつ未観測変数を考慮したCAM-UV の2種についてLiNGAMプロジェクトの公式チュートリアルを参考に紹介します。さらに、巷のオープンデータに適用してみて考察を行います。なお、この記事では各手法の性質については記述しますが、理論的な背景や式の導出の解説はしませんので、あらかじめご了承ください(ここから先は自分の目で(以下略)) 統計的因果探索とは 統計的因果探索は複数の仮定を基にデータから因果グラフを生成する手法のことです。主に離散変数

          未観測でも因果探索したい!BottomUpParceLiNGAMとCAM-UVの紹介 - Qiita
        • 複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ

          こんにちは、インフラの天津です。今日は 複数アカウントの AWS Security Hub 検出結果の可視化についてお話したいと思います。 前提 モチベーション AWS Security Hub とは 構想 ツール・サービスの選定 検出結果データのエクスポートについて 可視化用データベース(またはクエリサービス)と可視化ツールについて 構築 全体像 検出結果データエクスポート 検出結果データの S3 -> GCS への転送と BigQuery へのインポート Security Hub からエクスポートしたデータには BigQuery のカラム名に使用できない文字(以下禁則文字)が使用されている件 自動判別で生成されたスキーマでインポートした際に INTEGER 型のカラムに STRING 型のデータが入ってくることがありインポートエラーが発生する件 AWS アカウントデータの S3 ->

            複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ
          • AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ

            こんにちは、10月後半の2週間、エムスリーのAI・機械学習チームでインターンをしていた後藤です。 今回は私の行ったタスクと、インターン生からみてエムスリーはどのような会社なのかについて書いていこうと思います。 他の学生の方々のインターン選びやBigQueryのテスト手法に悩んでいるエンジニアの方々の参考になれば幸いです。 BigQueryのローカルテスト基盤を作った話 背景 BigQuery Emulatorの登場 bqemulatormanagerの作成 スキーマの自動取得 並列処理への対応 テストコードの導入 BigQuery Emulatorを使用する際に気をつけるべきポイント インターンの話 進め方について AI・機械学習チームについて 終わりに BigQueryのローカルテスト基盤を作った話 背景 AI・機械学習チームでは、BigQueryに日々蓄積されている大規模データから所望

              AI・機械学習チームでのインターンでBigQueryのローカルテスト基盤を作った話 - エムスリーテックブログ
            • 分散密ベクトル探索エンジンValdとSentence-BERTを使った類似文書検索を試す - エムスリーテックブログ

              エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 好きな言語はGo。仕事では主に検索周りを担当しています。 Overview 最近、社内で情報検索論文輪読会を立ち上げました。 情報検索論文読み会のスケジュール そこでNGT-ONNGについての論文*1を紹介したところ1時間の予定のところを盛り上がりすぎて2時間超えてしまいました。 大盛り上がりのついでに、今回は情報検索論文輪読会で紹介した近似最近傍探索ライブラリNGTを内部で利用するValdを使って、類似文書検索がどのように出来るのか、現状の問題を解決できるのかを試したのでその結果を報告します。 Overview 弊社が抱える類似文書検索の課題 Sentence-BERT Valdを使った近似最近傍探索 NGT Vald Vald×Sententce-BERTで類似文書

                分散密ベクトル探索エンジンValdとSentence-BERTを使った類似文書検索を試す - エムスリーテックブログ
              • スタートアップにおけるデータ活用文化の醸成に向けて - ANDPAD Tech Blog

                ANDPADのデータグループでマネージャーをしている土居です。アンドパッドには2022年4月にJOINしデータスチュワードとして社内における様々なビジネス課題の解決に奮闘しております。入社して1ヶ月後の5月からはデータグループのマネージャーになり、中長期的なデータ活用の取組方針の策定やグループマネジメント業務を行っております。 タイトルにある通り、本ブログではスタートアップであるアンドパッドにおいてどのように「データ活用文化の醸成」を行い、ビジネス価値を出していこうとしているのかについてお話したいと思います。 入社時に感じたこと データ組織の再構築 1. 組織名の変更 2. 組織のミッションの言語化 データグループのミッション 各チームのミッション 3. OKR方式採用による目標の明確化 データ活用文化の醸成に向けて さいごに 入社時に感じたこと 当社は建築・建設業界における Vertic

                  スタートアップにおけるデータ活用文化の醸成に向けて - ANDPAD Tech Blog
                • BigQueryのローカル検証用にbigquery-emulatorを触ってみた。ついでにPythonから接続してみる - Qiita

                  BigQueryのローカル検証用にbigquery-emulatorを触ってみた。ついでにPythonから接続してみるPythonBigQueryemulatorGoogleCloud はじめに みなさん、BigQueryが絡む処理のローカル開発やテストどうしてますか?BigQueryは公式のエミュレーターが提供されていないのでけっこう困ること多いんじゃないでしょうか? 私はとりあえず、ローカルではなく専用の環境を用意してそこに接続する形にしていましたが、業務委託の方などに入っていただくことが増えると権限周りで少々悩ましいことも多いです。 ただ数ヶ月前に、goccyさんという方が開発されたGo製のOSSbigquery-emulatorが公開され、こうした問題に解消の兆しが見えてきました。(開発者の方にはリスペクトしかありません!) 少し前までは提供されていない機能も多かったのですが、開発

                    BigQueryのローカル検証用にbigquery-emulatorを触ってみた。ついでにPythonから接続してみる - Qiita
                  • DuckDB-Wasm: Efficient Analytical SQL in the Browser

                    TL;DR: DuckDB-Wasm is an in-process analytical SQL database for the browser. It is powered by WebAssembly, speaks Arrow fluently, reads Parquet, CSV and JSON files backed by Filesystem APIs or HTTP requests and has been tested with Chrome, Firefox, Safari and Node.js. You can try it in your browser at shell.duckdb.org or on Observable. DuckDB-Wasm is fast! If you’re here for performance numbers, h

                      DuckDB-Wasm: Efficient Analytical SQL in the Browser
                    • LinkedInが開発した時系列モデル“Greykite”の理論と実装 - ぱぐみの部屋

                      時系列データのモデリングとして、以下のような手法がメジャーかなと思います。 ARIMA Prophet 状態空間モデル RNN LSTM DeepAR 今回は、2021年に発表された比較的新しい手法であるGreykiteのご紹介をしていきます。 注意:本記事は2022年11月時点の情報をもとに記載しております。ライブラリの変更等により本記事の記載内容が古くなる可能性がありますが、ご了承ください。 Greykiteとは? LinkedInが2021年にOSSとして公開した時系列予測モデルです。機械学習分野の国際会議であるKDD2022でも発表されたようです。 KDD2022よりLinkedInによる時系列予測OSS Greykite (https://t.co/wpsCnuak2t) の紹介論文。コアとなるSilverkiteというアルゴリズムの紹介が中心で解釈可能性と速度が売り。Proph

                      • 「俯瞰」可視化が情報探索・分析を変える

                        下記のイベントでLTした資料です。私はDay 1に「「俯瞰」可視化が情報探索・分析を変える」というテーマで発表しました。 データ可視化ショーケースイベント Data Visualization meetup 2022 https://peatix.com/event/3452708 「俯瞰」可視化に関する、①アルゴリズム、②背景思想、情報探索・分析を変える可能性、③関連プレイヤーを話しました。

                          「俯瞰」可視化が情報探索・分析を変える
                        • 20年前のMySQL、今のMySQL

                          2019/12/01 PHP Conference Japan 2019 https://phpcon.php.gr.jp/2019/

                            20年前のMySQL、今のMySQL
                          • Cloud Composerにデータマート集計基盤を移行しました - ZOZO TECH BLOG

                            こんにちは、MLデータ部データ基盤ブロックの奥山(@pokoyakazan)です。趣味の範疇ですが、「ぽこやかざん」という名前でラジオ投稿や大喜利の大会に出たり、「下町モルモット」というコンビで週末に漫才をしたりしています。私は普段、全社データ基盤の開発・運用を担当しており、このデータ基盤はGCPのBigQuery上に構築されています。そして、データ基盤内の各テーブルは、大きく分けて以下の2種類に分類されます。 システムDBのデータやログデータなどが、特に加工されることなく連携されている一次テーブル 一次テーブルから必要なデータを使いやすい形に集計したデータマート 本記事では、後者のデータマートを集計するジョブを制御するワークフローエンジンを、DigdagからCloud Composerに移行した事例について紹介します。Cloud Composerとは、GCPにてApache Airflo

                              Cloud Composerにデータマート集計基盤を移行しました - ZOZO TECH BLOG
                            • Cloud Storageへのデータ転送で課金爆死してしまった件 - G-gen Tech Blog

                              G-genの田中です。当記事では、Cloud Storage を利用する中で、意図していない高額の請求が発生してしまった事例について解説していきます。 はじめに 背景 Cloud Storage とは Cloud Storage の料金 Storage Transfer Service とは 事件のあらまし 背景 落とし穴 莫大な課金の発生 後日譚 はじめに 背景 今回、G-gen でサポートさせて頂いているお客様が Storage Transfer Service を利用して Cloud Storage へデータ移行を行ったところ、3日間で数十万円の課金が発生してしまったという事件があり、注意喚起のために記事化させて頂くことになりました。 本記事は、お客様名の許諾を得た上で、実際に起きた内容を少し改変して記事化しました。お客様の社内事情のため数値等を事実とは違うものにして記載していますが

                                Cloud Storageへのデータ転送で課金爆死してしまった件 - G-gen Tech Blog
                              • 分析組織を「分析」する|NEO CAREER Data Analytics Blog|note

                                3行まとめ ・分析組織のロードマップとフェーズを分析 ・分析組織の戦略と組織体制を分析 ・分析組織を運営する上での注意事項を列挙 データソリューショングループの天野です。 最近運動不足を解消するために体組成や歩数をモニタリングしており、徐々に成果が出ています。「継続は力なり、計測も力なり」ですね。 前回公開の記事から時間が空いてしまいましたが、今回は事業会社の分析部門責任者の観点から分析組織を「分析」するというテーマにて記事を書きました。 具体的には分析組織の運営に関わるロードマップやフェーズ毎の役割を始め、個社毎に策定するデータ戦略に用いられる要素や分析組織の体制パターン、そして知っておくことや避けた方が良いことなどを「分析」します。「分析」というワードがありますが持論をまとめているだけで、データがまったく出てこないので客観性に乏しくデータ分析者には物足りない内容かもしれませんが、ひとつ

                                  分析組織を「分析」する|NEO CAREER Data Analytics Blog|note
                                • ワークフロー基盤としてのEKSクラスター運用のポイントとEKS on Fargate検証 - Gunosy Tech Blog

                                  本記事は、Gunosy Advent Calendar 2019 17日目の記事です。 昨日の記事は、中村さんによる Pythonしか知らない新卒がGunosyに入るとこうなる - Gunosy Tech Blog でした。 はじめに ワークフロー基盤について システム概要 その日はいきなり訪れた 原因究明 対策 反省点 まとめ EKS on Fargateについて 検証のポイント 検証内容 まとめ 最後に はじめに はじめましてこんにちは、Gunosy Tech Lab1 Data Reliability & MLOps Group2の大関(@mageyuki)と申します。 弊チームでは、 Gunosyにおける統合データ基盤 集約したデータを活用した機械学習基盤 Gunosyの社是である「数字は神よりも正しい」を根底から支える、重要な2つの基盤の開発運用を行っています。 私は主にAWS上

                                    ワークフロー基盤としてのEKSクラスター運用のポイントとEKS on Fargate検証 - Gunosy Tech Blog
                                  • 「新しいおうち探し」のためのAIアシスト検索 〜 Yahoo!不動産の技術紹介

                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog Yahoo!不動産のフロントエンド、バックエンドの開発を担当しているアンドン聖司と申します。 Yahoo!不動産では、店舗での対面接客と同等の物件提案が体験できるようなサービスを目指し、AIがアシスタントとなってユーザーの物件探しをお手伝いをしてくれるような機能を提供しています。深層学習やクラスタリングといった技術・手法を用いて、このAIアシスト機能を提供しています。 先日のYahoo! JAPAN Tech Conference 2022の内容をベースに、これらの技術の紹介と、登壇で語りきれなかった内容をご紹介します。 AIアシスト検索とは 従来の不動産サイトでは、ユーザーが条件を設定して絞り込みを行い、物件の検索を行います。(

                                      「新しいおうち探し」のためのAIアシスト検索 〜 Yahoo!不動産の技術紹介
                                    • 一週間で構築できる! お手軽データウェアハウス

                                      Legalscape (リーガルスケープ) アドベントカレンダー 2021 の 12/16 (木) のエントリです。 本日のエントリは、突貫工事的に一週間程度1で構築したデータウェアハウスについてお送りいたします。 データウェアハウス構築前夜 2021 年 6 月に予定をしている Legalscape 正式版リリースが刻々と迫り、みなが慌ただしく仕事をしている 5 月下旬、ビジネス上の様々な理由からユーザのアクティビティログを保持して分析・集計するデータ基盤、すなわちデータウェアハウスが必要になりました。 Legalscape ではそれまで、プロダクト上でのユーザの行動に伴って発生するアクティビティログはすべて (書籍の全文検索に用いているものと同じ) Elasticsearch クラスタにインデックスしていました。アクティビティログを利用する際は、このインデックスに対して Kibana

                                        一週間で構築できる! お手軽データウェアハウス
                                      • スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka

                                        2022/01/27_スタディサプリのデータ基盤を支える技術 2022 -RECRUIT TECH MEET UP #3-での、橘高の講演資料になります

                                          スタディサプリでのBigQuery移管と実践的活用術 / meetup_kittaka
                                        • BigQuery MLでスロット使用量が急増しているプロジェクトやユーザーを異常検知する - yasuhisa's blog

                                          背景 どうやって異常を検知するか BigQuery MLでの異常検知 検知できるモデルの種類 共通設定 データの前準備 モデルの学習 モデルを元にスロット使用量が異常に増加していないか予測する 所感 背景 BigQueryはオンデマンドとフラットレート(定額料金)がある オンデマンドはスキャン量がお金に直結するため、INFORMATION_SCHEMA.JOBS_BY_*などを使ってクエリ警察をしている方も多いはず INFORMATION_SCHEMAに代表されるデータ管理に役に立つ現場のノウハウを最近会社のTech Blogに書いたので、そちらも見てね 一方で、フラットレートに関しては定額使いたい放題のプランであるため、オンデマンドよりはクエリ警察をしていない場合もある 見れるなら見たいが、どうしても支出に直結するオンデマンドを優先して見てしまいがち。工数も限られている が、あまりに自由

                                            BigQuery MLでスロット使用量が急増しているプロジェクトやユーザーを異常検知する - yasuhisa's blog
                                          • データ組織のトポロジー|Jun Ernesto Okumura

                                            この記事について最近発売された『チームトポロジー』(以後、本書)を読んだのですが、チーム体制やコミュニケーションの設計について汎用的にまとめられていてとても良い読書体験でした。私自身、データ組織をどのように設計していくか日頃考えており、本書を読み進めながら、考えが構造化され、課題の解像度が高まった気がします。 現在、私は株式会社エウレカで、BIチーム(分析チーム)、AIチーム、Data Managementチーム(データ基盤チーム)、の3チームのマネジメントをしています。日々生まれるデータを価値に転換し、同時にプライバシーやセキュリティなどのガバナンスを徹底するために、全社的なデータ戦略を推進していく立場です。大雑把に「データ活用」と括ってしまいましたが、意思決定をサポートするのための活動(BI)、ユーザー向けの機能開発を伴う活動(AI)、それらの活動を効率よく進めるための活動(Data

                                              データ組織のトポロジー|Jun Ernesto Okumura
                                            • gokartのMLパイプラインをKubernetesで並列分散実行できるライブラリkannonを作った話 - エムスリーテックブログ

                                              初めまして!2023年3月前半にエムスリーのAIチームで10日間インターンに参加していた小栗 (@irungo_ic )です。 インターンでは、エムスリー発の機械学習パイプラインOSSであるgokart をKubernetes上で高速にかつ簡単に実行できるようになるライブラリであるkannon('cannon'と同じ発音!)をゼロから実装し、OSSとして公開しました。 github.com この記事ではkannonの技術的な解説、インターンに参加した感想をお伝えします! gokartの概要 gokartの抱えていた課題 シングルスレッドでの逐次実行により実行時間が長くなってしまう GKEのリソースを効率的に使えない kannonの概要 kannonの使い方 gokart kannon gokart kannon 補足 kannonのアーキテクチャ kannonの実装 1. Task Que

                                                gokartのMLパイプラインをKubernetesで並列分散実行できるライブラリkannonを作った話 - エムスリーテックブログ
                                              • データベース用語の「シャーディング」はMMORPGの「ウルティマオンライン」が由来かもしれない

                                                1つのテーブルを複数のデータベースサーバーに分割して記録するデータベースの負荷分散方法を「シャーディング」と呼びます。このシャーディングという言葉が、老舗大規模多人数同時参加型オンラインRPG(MMORPG)の「ウルティマオンライン」に由来していることを、ウルティマオンラインのゲームデザイナーだったラフ・コスター氏が解説しています。 Database “sharding” came from UO? – Raph's Website https://www.raphkoster.com/2009/01/08/database-sharding-came-from-uo/ コスター氏によると、「シャーディング」という言葉の用例をGoogleで検索した中で最も古いものが、2009年に書かれたFriendstarとFlickrの元従業員だったエンジニアのブログだったそうです。Flickrは今でこ

                                                  データベース用語の「シャーディング」はMMORPGの「ウルティマオンライン」が由来かもしれない
                                                • Apache Arrowの最新情報(2020年7月版) - 2020-07-31 - ククログ

                                                  Apache ArrowのPMC(Project Management Commitee、プロジェクト管理チームみたいな感じ)のメンバーの須藤です。 みなさんはApache Arrowを知っていますか?最近、ついに1.0.0がリリースされたんですよ。私がApache Arrowの最新情報をまとめた2018年9月から毎年「今年中に1.0.0がでるぞ!」と言っていた1.0.0がついにリリースされたんです! 1.0.0を機に安心して使えるようになります。(どう安心なのかは後で説明します。) Apache Arrowはすでにデータ処理界隈で重要なコンポーネントになりつつありますが、数年後にはもっと重要になっているだろうプロジェクトです。データ処理界隈に興味がある人は知っておくと役に立つはずなので毎年Apache Arrowの最新情報をまとめています。1.0.0がリリースされたので2020年7月現在

                                                    Apache Arrowの最新情報(2020年7月版) - 2020-07-31 - ククログ
                                                  • MOVで実践したサーバーAPI実装の超最適化について [MOBILITY:dev]

                                                    DeNAのオートモーティブ事業本部スマートタクシー事業部システム開発部 部長 惠良 和隆 が 2019/10/31 に MOBILITY:dev で 登壇した内容をご紹介します。Read less

                                                      MOVで実践したサーバーAPI実装の超最適化について [MOBILITY:dev]
                                                    • dbtとDataformを比較し、dbtを使うことにした - Attsun blog

                                                      TL;DRdbt, Dataformについて簡単に紹介dbtDataform比較対応するプラットフォーム主要な機能外部ツールとの接続性運用時のあれこれ両者のPros/Consまとめ私たちの選択どちらを使うべきなのか?選ばれたのは、dbtでしたまとめ最近、業務でDWH / Datamartの整備やデータ品質の担保を効率的に行いたくなる事情があり、調査したところdbtとDataformがツールとして有力そうだったので、比較してみました。 TL;DRdbtは機能が充実しており、カスタマイズするポイントも多く様々な要件に対応できそうです。反面、理解し使いこなすための学習コストがかかります。DataformはWebビューによる開発体験が非常に良いです。機能もほとんどはわかりやすく、迷うことも少ないです。一方、dbtに比較して融通はききづらいです。どちらも十分な機能は備えている素晴らしいツールだと感じ

                                                      • 超爆速なcuDFとPandasを比較した - Taste of Tech Topics

                                                        皆さんこんにちは。 @tereka114です。 今年末はKaggleで開催される面白いコンペも多くて日々、エンジョイしています。 最近は巨大なデータを扱うことが増えており、Pandasだと時間がかかりすぎて効率が悪いと感じています。 そのため、データを高速に処理できるcuDFを利用することも多くなってきました。 この記事ではcuDFの魅力と扱う際の注意点を説明していきます。 ※この記事は「Pythonその2 アドベントカレンダー」10日目の記事です。 qiita.com cuDFとは cuDFはNVIDIAさんが開発している、Pandasの代わりに利用することができるGPUのライブラリです。 最も大きな特徴はGPUで計算するため、高速であることです。 主に、カテゴリ変数ごとの平均計算や、テーブル同士の結合といった、時間のかかるテーブル処理で、効果を発揮します。 github.com cuD

                                                          超爆速なcuDFとPandasを比較した - Taste of Tech Topics
                                                        • rails statsと企業価値 - algonote

                                                          開発スピードが遅いのか、作っているものの筋が悪いのか 前口上: rails statsで企業価値は測れるか? rails stats はRailsリポジトリの統計情報が取れる便利コマンドです。LaravelでもLaravel Statsを使って php artisan stats で同様のことができます。 結構リポジトリの内情を丸裸にするコマンドで、モデルやコントローラーのサイズからアプリの規模感が掴めますし、コードとテストの割合からしっかりテストが書かれているかがわかります。 Webサービスの事業価値は大きく見れば売上や成長率、より細かく見ると業態やtoBかtoCか、どこの産業向けか、アクティブユーザー数などで決まります。一方でIPO以降の売上成長率は従業員数に比例しているという話もあり、ビジネススキームが決まってしまえば後は頭数に比例するとも言えそうです。 Four Keysなどの開発

                                                            rails statsと企業価値 - algonote
                                                          • 分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)

                                                            タクシーアプリ「GO」、法人向けサービス「GO BUSINESS」、タクシーデリバリーアプリ「GO Dine」の分析基盤を開発運用している伊田です。本番DBから分析基盤への連携処理を改善した事例を紹介します。※ 本記事の対象読者はETLツールを利用している方を対象にしています はじめに本記事では、タクシーアプリ「GO」の DB から分析基盤への同期処理を約7時間から約10分に改善した事例を紹介します。まず、既存の処理および改善前の状況を説明し、次に改善にあたり実施した分析、その分析をもとにチーム内で実施した議論を経て、最終的にどのような実装を行ったのか紹介させて頂きます。 同期処理についてGO の DB は Cloud SQL 上で構築されており、分析基盤への同期処理は GKE 上で Embulk を起動し、リードレプリカに対してクエリを投げて一度 GCS に結果を格納します。その後、GC

                                                              分析基盤へのデータ同期を約40倍早くしてみた | MoT Lab (GO Inc. Engineering Blog)
                                                            • Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ

                                                              こんにちは、データプラットフォームチームでデータエンジニアをやっている滑川(@tomoyanamekawa)です。 以前紹介したデータ分析基盤であるソクラテスの改善のためにCloud Composer(Airflow)で行っている処理のdbtへの置き換えを検討しましたが、導入を見送りました。 調べてみてdbtに対するわかりみも深まったので、その供養のために検討内容を公開します。 同じように検討している方の参考になれば幸いです。 dbtとは DWH(Data Ware House)でのquery管理やデータの品質、データリネージの問題を解決してくれるツールです。 すでに先人たちがいろいろな記事を公開してくれているので、詳細は説明しませんがこちらの文がdbtをよく表しています。 ELTの「T」を担当するツール データの前処理における作業をELT(Extract、Load、Transform)と

                                                                Airflowの処理の一部をdbtに移行しようとして断念した話 - Classi開発者ブログ
                                                              • アクティブメタデータの所感|Rytm / Quollio

                                                                冒頭2022年現在、データ界隈で良く聞く概念の一つに、Active Metadataがある。最も、日本では未だ広く浸透していない概念ではあるが、北米ではData MeshやData Fablic、Metrics Layer等のバズワード(?)と同じように界隈を賑わしているものであり、こと ”データが資源” である21世紀の企業経営においては(現時点で少なくとも北米においては)最重要トピックの一つであると言って過言でない。 本日は、データの最前線を賑わしているアクティブメタデータについて、まだ日本語での記事も多くないので、思うところを書いてみることにした。 背景ときっかけ既にご存知の方も多いと思うが;象徴となったのは、Gartner社が2021年8月にMagic Quadrant for Metadata Managementの廃止を宣言し、代わりに Market Guide for Act

                                                                  アクティブメタデータの所感|Rytm / Quollio
                                                                • MySQL 8.0.20 でHASH JOINが効くケースが拡大した - mita2 database life

                                                                  TLDR; MySQL 8.0.20 から INNER JOIN だけじゃなくて、Semi joinや Left/Right outer join でも HASH JOIN が使えるようになったよ MySQL 8.0.20 では (EXPLAIN ANALYZEではなく)EXPLAIN でも、HASH JOINが使われているか、表示されるようになったよ MySQL 8.0.19 から、optimizer_switch で HASH JOIN の OFF/ON がコントロールできなくなったよ MySQL 8.0.20 Release Note Hash joins are now used any time a nested block loop would be employed. This means that hash joins can be used for the followi

                                                                    MySQL 8.0.20 でHASH JOINが効くケースが拡大した - mita2 database life
                                                                  • Elasticsearch で Learning-to-Rank を試してみた! - Qiita

                                                                    この記事は、ただの集団 AdventCalendar 2019の21日目の記事です。 はじめに 担当日前日に「Elasticsearch で Learning-to-rank やりたいので、環境構築の手順とその使い方についてまとめてね。ヨロピコ!」と振られたので、今回は Elasticsearch with learning-to-rank の構築手順とその使い方を紹介します。 今回作成したものはコチラ Learning-to-rank とは 検索エンジンにおける learning-to-rank とは、機械学習と検索するデータを使って、検索結果のランキングの順序を改善する手法のことです。順序学習やランキング学習とも呼ばれています。 今回は、Elasticsearch の learning-to-rank のプラグイン を使います。learning-to-rank のレポジトリにある de

                                                                      Elasticsearch で Learning-to-Rank を試してみた! - Qiita
                                                                    • BigQuery MLで商品一覧画面の並び順を改善して売上を40%上げた話 - OVERS

                                                                      目次 はじめに 自己紹介 内容概要 基本設計 TCVのビジネスモデル 施策内容 システム構成 フェーズ1: とりあえずAutoMLを使ってみる フェーズ2: 目的変数を変える フェーズ3: BigQuery MLの導入による検証高速化 フェーズ4: 国別 フェーズ5: 回帰ではなく分類へ フェーズ6とその先へ おわりに はじめに 自己紹介 じげん開発Unitデータ分析基盤チームの伊崎です。 開発Unitは特定の事業部に所属しない全社横断組織です。 その中で、データ分析基盤チームは全社のデータ基盤の整備、データ利活用を担当しています。 私個人としては、大学で純粋数学を学んだ後、前職でエントリーレベルの機械学習エンジニアとして働きました。現職では半分データエンジニア、半分データサイエンティストとして働いています。 プライベートでKaggleに参加し、銅メダルを獲得した経験があります(最近は活動

                                                                        BigQuery MLで商品一覧画面の並び順を改善して売上を40%上げた話 - OVERS
                                                                      • dbt Labs のベストプラクティス全部違反してみた。そして dbt project evaluator を使って全部直してみた。

                                                                        dbt Labs のベストプラクティス全部違反してみた。そして dbt project evaluator を使って全部直してみた。 サマリ dbt Labs では、dbt のプロジェクト、並びに変換パイプラインに関するベストプラクティスを紹介しています。 さらに、いくつかのベストプラクティスについては、自動で評価可能な dbt project evaluator というツールも公開されています。 今回は、dbt project evaluator で評価可能な、20 個のベストプラクティスを全て「違反」した dbt プロジェクトを1から作成し、このツールを当てて評価した上で、修正をかけました。 実際にツールがうまく検知してくれるのかを確認し、検知された項目を修正する場合の手続きとその難所や、現実的な運用方法をまとめています。 ※この記事は dbtアドベントカレンダー2022 の 12/1

                                                                          dbt Labs のベストプラクティス全部違反してみた。そして dbt project evaluator を使って全部直してみた。
                                                                        • データアナリストの成長段階|Jun Ernesto Okumura

                                                                          自己紹介私は現在、マッチングアプリのPairsを運営するエウレカという会社でデータ組織のマネジメントを行っています。役割としては、BIチーム(データアナリストチーム)、AIチーム、Data Managementチーム(データ基盤チーム)の3チームの戦略推進が主になります。実際どのようなことをしているのかは以下の記事をご覧ください。 この記事について 今回記事を書こうと思ったきっかけは、データアナリストのキャリアについて自分の考えをまとめたかったからです。「データを使って意思決定に貢献する」「データからインサイトを得る」…と多くの組織がデータ分析に注力している中で、分析者であるところのデータアナリストが実際どのようなキャリアを歩んでいるかは、まだ情報が少ない印象を持っています。 そもそも「データアナリスト」という役職から想像される人物像は組織によってバラバラです。指標をレポートする人、データ

                                                                            データアナリストの成長段階|Jun Ernesto Okumura
                                                                          • 300GB/day出力されるログ基盤をFluent Bit + Fargate + NLBで再構築したら、エンジニアの作業効率が上がった - クラウドワークス エンジニアブログ

                                                                            これは クラウドワークス アドベントカレンダー 24日目の記事です。前日は 畑中 さんの制作会社出身のデザイナーが事業会社に入って感じた5つの悩み事でした。事業会社とデザイン制作会社の違いから生まれる悩みをどう解決したかが伝わる記事でした。 クラウドワークスSREチームの @kangaechu です。最近はM1 Macを購入しました。M1 Macはアプリケーションの対応状況がまだまだなので、Goをソースからクロスコンパイルするなど、今までやったことがないことができてちょっと楽しいです。でももう少しネイティブのアプリが揃うと嬉しいな。 アドベントカレンダーはSREチームに入ってからの2年間にチームでやってきたことに続き、2つめのエントリとなります。前回の記事で、Docker化したシステムの一つとしてfluentd(ログ基盤)を挙げました。ここではそのログ基盤についての詳細を書いていきます。

                                                                              300GB/day出力されるログ基盤をFluent Bit + Fargate + NLBで再構築したら、エンジニアの作業効率が上がった - クラウドワークス エンジニアブログ
                                                                            • Kyash QAチームの改善の取り組みについて - Kyash Product Blog

                                                                              はじめに こんにちは、Kyashの品質管理を担当している Tokki です。 Kyash QAチームの歩みについてお話できたらと思います。 Kyashの品質管理(Quality Assurance)ってどんなチーム Kyashでは、品質管理チームを英語表記で QA(Quality Assurance)チームと呼んでいます。 会社のバリューの一つに、『One Team』があります。プロダクトリリースに関する一連の活動(企画、開発、テスト、運用)において、チームメンバーが一つになって運用する中で、品質活動についてもチームメンバーが一つになって取り組んでいくことを目指しています。 その中でQAは、プロダクトの品質を最大限保証するために必要な品質活動を行う、クリエイティブな専門家でありたいと考えています。 1人目の社内QAとしての入社 私は2020年10月に社内で1人目のQA専門職として入社しまし

                                                                                Kyash QAチームの改善の取り組みについて - Kyash Product Blog
                                                                              • Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話

                                                                                ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。データ統括本部でYahoo!広告のデータエンジニアをしている江島です。 本記事では、Yahoo!広告のデータ分析環境であるデータレイク上のデータを、Apache Hudi を用いてレコード単位で削除可能にした事例を紹介します。 Yahoo!広告のデータ分析環境 Yahoo!広告における データマーケティングソリューション では、ヤフーの持つ圧倒的な量と質のデータを活用し、消費者理解や広告効果分析を目的としたさまざまな商品を提供しています。 これらの商品を提供するための裏側には広告に関する膨大なログや多種多様なサービスのログを使ってデータ分析や機械学習を行うためのデータ基盤が必要です。データマーケティングソリューションで

                                                                                  Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話
                                                                                • qrnというDBベンチマークツールを作った - so what

                                                                                  qrnというDBベンチマークツールを作りました。 github.com これは何? 羅列されたクエリを実行するだけのDBベンチマークツールです。 今のところMySQLにしか対応していませんが、PostgreSQLへの対応はそんなに難しくないと考えています。 羅列したクエリを実行するだけなので、クエリのログ(MySQLならgeneral log)をほぼそのままテストデータにすることができます。 逆に同じクエリを異なるパラメーターで実行するようなことはできないので、そういうむきであればJdbcRunnerなどを使った方がいいと思います。 Installation https://github.com/winebarrel/qrn/releases から最新版をダウンロードしてください。 Usage $ echo '{"query":"select 1"}' >> data.jsonl $ ec

                                                                                    qrnというDBベンチマークツールを作った - so what

                                                                                  新着記事