並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 460件

新着順 人気順

*Dataの検索結果281 - 320 件 / 460件

  • Rの作図におけるベストな配色の選び方 - yokaのblog

    論文のFigはほぼRで描いているのだけど、複雑なデータをコンパクトに見せるためにカラフルな図を作ることが多い。そこでいつも悩むのが「いかに効率よく配色するか」ということだ。カスタムの配色セットを作ってみたり、カラーパレットのパッケージをあれこれ試してみたりしたのだけど、自分なりに今落ち着いているのがkhromaとcirclizeという2つのパッケージなので簡単に紹介したい。 khromaはPaul Tol’s Colour Schemesに準じたカラーパレットを出力できるパッケージだ。このカラースキームの特長として、 カラーユニバーサル モノクロ印刷した際の視認性も考慮 質データ(Qualitative)、2極データ(Diverging)、連続データ(Sequential)のそれぞれに対応した複数のカラーパレットが準備されている という点が挙げられる。自分が知る限りでは、最も綿密な考慮の上

      Rの作図におけるベストな配色の選び方 - yokaのblog
    • AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった

      米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)が2022年7月12日(米国時間)、データウエアハウス(DWH)をサーバーレス化した「Amazon Redshift Serverless」の一般提供を開始した。ユーザー企業は容量設計が一切不要でDWHを利用できる。 サーバーレスと言っても、本当にサーバーがなくなったわけではない。これまでのAmazon Redshiftは使い始める際に、ユーザー企業はDWHクラスターで使用する仮想マシンのサイズなどを決める必要があった。仮想マシンの使用料金は1時間単位の従量課金で、クエリーを実行していない場合であっても料金が発生していた。 それに対してAmazon Redshift Serverlessの場合は、ユーザー企業は仮想マシンのサイズなどを決める必要はない。クエリーの実行時に自動的にノードが起動して処理が始まり、処理が

        AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった
      • 【2023年版】Google ColabでSQLを使う【DuckDB, JupySQL】 - Qiita

        0. 使うもの JupySQLとDuckDBを使う。 JupySQLは以前紹介したipython-sqlと似たようなライブラリだが、現在あまり更新されていないipython-sqlに対して、(i) バグを修正し、(ii) 機能を追加しているものである。基本的な使い方はipython-sqlと変わらない。 DuckDBはSQLiteのOLAP版という立ち位置らしい。お手軽に使え、分析用途に強いDBだと理解している1。 ということで、実際に簡単に使う方法を見ていく。 1. 諸々準備 !pip install jupysql duckdb-engine # データ(csvファイル)のダウンロード !wget https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv

          【2023年版】Google ColabでSQLを使う【DuckDB, JupySQL】 - Qiita
        • ノンパラメトリックな方法を用いた探索的データ分析 - Qiita

          はじめに 千葉大学/Nospareの米倉です.今回はノンパラメトリックな方法(分析で用いる分布を仮定しない)を用いた,探索的データ分析について解説します.ノンパラメトリックな方法を用いることにより,モデルの特定化の失敗の影響を抑えたり,またパラメトリックな方法を用いる際の予備的分析になると思います.また簡単なA/Bテストにもいいのかなと思います. Empirical Cumulative Distribution Function(ECDF) Empirical Cumulative Distribution Function(ECDF)とは,累積分布関数を経験分布を用いて推定(データから推定)したものです.確率変数$X$が$x$以下になる確率$P(X\leq x)$を累積分布関数といいます.これをデータから推定したものがECDFです.推定方法は簡単で,例えば次のJuliaのコードではso

            ノンパラメトリックな方法を用いた探索的データ分析 - Qiita
          • AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO

            id price total price_profit total_profit discount visible name created updated 1 20000 300000000 4.56 67.89 789012.34 True QuietComfort 35 2019-06-14 2019-06-14 23:59:59 PyArrow3.0.0用のLambda Layerを作成する Lambda動作環境の選定 今回は、TSVファイルに軽量・高速に変換するためAWS Lambdaを用います。Lambdaは、パッケージフォーマットとして、従来どおりLambda関数を用いる方法に加えて、コンテナイメージがサポートされました。複数のLambdaアプリケーションや関数から再利用されることを考慮して、デプロイパッケージは、Layerを用います。 Lambdaの制約事項 デプロイパッケ

              AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO
            • Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介

              著者: Arpit Agarwal 本ブログ記事は「Introducing Apache Hadoop Ozone: An Object Store for Apache Hadoop」(2018/10/08投稿)の日本語翻訳記事です。また、原文の投稿はClouderaとHortonworks合併前に記述されたものであり、いくつかのリンク、リソースにはアクセスできない場合があります。 *訳注: 元記事公開時点では 0.2.1-alpha 版が最新でしたが、日本語翻訳時(2020/3/9)は0.4.1-alpha版が公開されています。 1. はじめにApache Hadoop 分散ファイルシステム(HDFS)はビッグデータ用のデファクトファイルシステムになっています。現実世界では、HDFSがどれほどスケーラブルで堅牢であるのかを忘れがちです。私たちのお客様は数千ノードのクラスターを実行してい

              • データプロダクトとは何か

                2023/9/26に開催された「Data Analyst Career Study #3」の登壇資料です。 https://tech-track.connpass.com/event/294384/ ■ スライド中のリンク一覧 Data as a product vs data products. What are the differences? - towards data science https://towardsdatascience.com/data-as-a-product-vs-data-products-what-are-the-differences-b43ddbb0f123 Designing Data Products - towards data science https://towardsdatascience.com/designing-data-prod

                  データプロダクトとは何か
                • 技術書典13でBigQueryデータ基盤本を頒布する予定です - 本日も乙

                  2022/09/10 訂正 以下の記事で正式告知させていただきました。 https://blog.jicoman.info/2022/09/announcement-techbook-fest-bigqueryblog.jicoman.info 先週は夏季休暇をいただいていましたが、技術書典13に向けた新刊の執筆で終わってしまいました・・・。今までサボっていた自分が悪いのですが。まだまだ執筆が終わっていませんが、ようやく終わりが見えてきたので告知します! どんな本? タイトルは「WebエンジニアのためのBigQueryデータ基盤入門」(仮)です。データエンジニアリング未経験な私がここ1年ぐらいBigQueryでデータ基盤構築していたので、その知見などを同人誌にしてみました。 データ基盤と聞くと、データエンジニアやデータサイエンティスト、機械学習エンジニア、会社によってはITインフラエンジニ

                    技術書典13でBigQueryデータ基盤本を頒布する予定です - 本日も乙
                  • 大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto 講演資料)

                    大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介 基本から最新バージョン3.0まで Open Source Conference 2020 Online/Kyoto 2020年8月28日 講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータ 技術開発本部 猿田 浩輔Read less

                      大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto 講演資料)
                    • GitHub - mlcraft-io/mlcraft: Synmetrix – open source semantic layer / Boost your LLM precision

                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                        GitHub - mlcraft-io/mlcraft: Synmetrix – open source semantic layer / Boost your LLM precision
                      • UberのMarketing Mix Modeling論文を読んでみた所感 - Leverages データ戦略ブログ

                        はじめに 初めまして、データ戦略室データサイエンスグループの徳田です。 以前のブログでMarketing Mix Modeling(MMM)を取り上げましたが、弊社では日々手探りの状況でMMMに取り組んでおります。Uber、FaceBook、Googleなどの企業の事例や論文から学びつつ、業務をおこなっております。今回は、その中でUberのMMM論文の紹介をしていきます!なお、MMMの詳細を知りたい方は、前のブログを見ていただければと思います。 目次 UberのMMMの取り組み 背景 方法 結果 論文を読んだ所感 参考文献 UberのMMMの取り組み 今回紹介するのは、こちらの論文(Title:Bayesian Time Varying Coefficient Model with Applications to Marketing Mix Modeling)です。本論文のポイントとしては

                          UberのMarketing Mix Modeling論文を読んでみた所感 - Leverages データ戦略ブログ
                        • 金融系データサイエンスカオスマップ2020年版 - ただのペンギンぶろぐ

                          今回のエントリでは金融系におけるデータサイエンス案件のカオスマップです。2020年版における以下の4分野における取り組みをまとめてご紹介いたします。 銀行 証券 資産運用 保険 ①銀行向けデータサイエンス案件 与信分析系 ②証券会社向けデータサイエンス案件 対面証券における営業効率最適化系 統計的な取引執行最適化 ③資産運用会社向けデータサイエンス案件 投資判断系 データ収集・アグリゲーション・分析系 リスク管理系 トレーディング戦略系 ④保険会社向けデータサイエンス案件 [損害保険]クレームが生じる要因分析 [損害保険]営業効率最適化系 [生命保険]デジタル診断系 ①銀行向けデータサイエンス案件 与信分析系 銀行の本業は預金者からの預金を融資して、その利子で利益を出すことです。ただし、貸し出す先はのべつ幕なしに誰でも良いというわけではありません。そのためしっかりとした融資先を見極める必要

                            金融系データサイエンスカオスマップ2020年版 - ただのペンギンぶろぐ
                          • 日本語プロットの文字化けストレスを低減する - RStudio v1.4とraggパッケージを使う - cucumber flesh

                            RStudio v1.4とraggパッケージの登場でRStudio上で日本語の作図が面倒な指定不要で行えるようになりました。記事中で紹介する方法をとれば、RStudioのPlotsパネルに出力する図が文字化けしなくなります。RStudioユーザで日本語での作図を行う方にはぜひ知っていてもらいたいtipsです。 すごい!確かにグラフィックデバイスにAGGを指定すれば、ggplot2で日本語表示する際に面倒な ggplot2::theme_*(base_family = ) をしなくても、問題なく日本語が表示される。ハッピー( ^ω^ ) https://t.co/DL1ec5wj9U— Uryu Shinya (@u_ribo) 2021年2月17日 なお、この記事の元ネタは https://www.tidyverse.org/blog/2021/02/modern-text-feature

                              日本語プロットの文字化けストレスを低減する - RStudio v1.4とraggパッケージを使う - cucumber flesh
                            • Google BigQueryのデータをSQLコマンド「EXPORT DATA」で直接Google Cloud Storageにエクスポート出来るようになりました! | DevelopersIO

                              先日(2020/10/16)のGCP/Google BigQueryのリリースノートにて、幾つかの興味深いトピックがありました。詳細については下記公式ブログをご参照ください。 その中で、外部ストレージに関する読み書き(Reading from and writing to external storage)に関するものも含まれていました。関連する文章を上記エントリから抜粋します。 BigQuery provides users the ability to read data in external storage buckets. The new SQL commands allow users to configure tables within BigQuery pointing to these buckets as well as export data from queries

                                Google BigQueryのデータをSQLコマンド「EXPORT DATA」で直接Google Cloud Storageにエクスポート出来るようになりました! | DevelopersIO
                              • ChatGPT API を使って BigQuery SQL を自然言語で記述する CLI を作った - Qiita

                                クエリで実現したいことを自然言語で書けば ChatGPT が BigQuery SQL に変換してくれる CLI (Command Line Interface) を langchain で作りました。 https://github.com/algas/bigquery-generator-ai クエリに関連する BigQuery のテーブル名(複数可)を渡すとそのテーブルのスキーマ(だけ)を取得します。 テーブルのデータ内容は取得しない(データ取得権限を付与しない)ので機密漏えいの心配はありません。 対象読者 次のいずれかに当てはまる BigQuery ユーザを対象としています。 SQL を書くのが苦手な人 SQL を書くのが苦手な人に SQL を書いてもらう必要がある人 ChatGPT を使ったアプリケーション開発に興味がある人 アプリケーションの概要 このツールが何をするのかを簡単に

                                  ChatGPT API を使って BigQuery SQL を自然言語で記述する CLI を作った - Qiita
                                • tidymodelsで覚えるRでのモデル構築と運用 / tidymodels2020

                                  リポジトリ http://github.com/uribo/190831_fukuokar15

                                    tidymodelsで覚えるRでのモデル構築と運用 / tidymodels2020
                                  • Postgres WASMを支える技術

                                    Intro 10月3日にWebAssemblyを用いてWebブラウザにx86の仮想マシンを構成することで、PostgreSQLをWebブラウザ上で実行可能にした「Postgres WASM」がオープンソースで公開されました。 以前から気になっていたSupabaseが公開していたこと、最初にSnapletという企業がOSSで公開しておりそれをフォークして完成させたこと、色々気になることばかりでしたので自分なりに調べて深掘りしてみました。

                                      Postgres WASMを支える技術
                                    • メダリオンアーキテクチャ

                                      メダリオンアーキテクチャとはメダリオンアーキテクチャとは、レイクハウスのデータを論理的に整理するために用いられるデータ設計を意味します。データがアーキテクチャの 3 つのレイヤー(ブロンズ → シルバー → ゴールドのテーブル)を流れる際に、データの構造と品質を増分的かつ漸次的に向上させることを目的としています。メダリオンアーキテクチャは、「マルチホップ」アーキテクチャとも呼ばれます。 レイクハウスアーキテクチャのメリットシンプルなデータモデルわかりやすく、導入が容易増分 ETL が可能未加工データからのテーブル再作成がいつでも可能ACID トランザクション、タイムトラベルレイクハウスとはレイクハウスは、データレイクとデータウェアハウスの優れた要素を取り入れた新しいデータプラットフォームアーキテクチャです。モダンレイクハウスは、拡張性と性能に優れたデータプラットフォームです。未加工データと

                                        メダリオンアーキテクチャ
                                      • dbtとLookerにたどり着いたデータ基盤 ~混ざり合う境界線を考える~

                                        「Looker User Meetup Online #8」にて登壇した内容となっております

                                          dbtとLookerにたどり着いたデータ基盤 ~混ざり合う境界線を考える~
                                        • ElasticsearchとXGBoostを組み合わせた検索ランキング作成と評価

                                          最近検索周りで「機械学習による検索ランキング改善ガイド」という本が出版されて気になって読んでみたので、それを読んで勉強しつつ手を動かしてみてわかったことや感想を紹介してみようと思います。 この記事に書くこと&書かないこと この記事では以下のようなことに焦点を当てて書きます。 ElasticsearchとXGBoostを組み合わせたときの性能・負荷変化の実験 Elasticsearch上での特徴量エンジニアリングの体験 逆に、実験の下準備といったことについては最低限しか書かないので具体的なElasticsearchの使い方等については他の記事もしくは書籍を参照してください。 実験を行う検索システムの構成 書籍で使われているコードをベースとして色々と自分で実験を行いました。 実験を通して知りたかったこと 自分の手を動かして実験することで知りたかったことをまとめると以下のようになります。 Ela

                                            ElasticsearchとXGBoostを組み合わせた検索ランキング作成と評価
                                          • GoからZetaSQLを使う

                                            Photo by David Thielen on UnsplashIntroductionGoを使ってBigQueryやSpannerのSQLをフォーマットしたりパースしたりしたいなと思い調べたらGoogleが公開しているZetaSQLというライブラリにたどり着きました。 ただZetaSQLはC++とJavaで書かれていたのですが、他にGo製のOSSなどもなく自前でSQLパーサーをちゃんと書くのも大変なのでこれを使ってどうにかできないか模索した話になります。 最終的にはGoからZetaSQLを呼び出すserverを作りました。↓ naoto0822/zetasql-server GitHub - naoto0822/zetasql-server: This is server parsing/analyzing ZetaSQL (ongoing).

                                              GoからZetaSQLを使う
                                            • ChatGPTとNoteableによる科学技術情報分析

                                              ChatGPTとNoteableプラグインを使って、科学技術情報分析ができるかを試した記録と所感メモです。本資料では、下記の分析プロセスにおける活用を試しています。 1. 論文情報収集 arXivから指定した検索条件にヒットするプレプリント情報を収集する。 2. 書誌情報分析 時系列推移、カテゴリ集計、著者集計を実施する。 3. テキストマイニング キーフレーズ抽出・集計、クラスタリングと解釈、 俯瞰可視化(二次元可視化)を実施する。 汚いままですが、実際のChatGPTとのやり取りや、生成されたスクリプトも資料の中でURLを公開しています。参考になれば幸いです。 noteでも簡単な説明と補足・追加コメントをまとめました。 https://note.com/hayataka88/n/ndfd913dab62f

                                                ChatGPTとNoteableによる科学技術情報分析
                                              • ベクトル検索の苦手を克服。ナレッジグラフでRAGを作る

                                                TL;DR ベクトル検索だと、複数のステップを踏まないと答えられない質問の検索がむずい 「TomにEmil Eifrém(Neo4jのCEO)を紹介してくれる人は?」とかを検索むずい ナレッジグラフは構造化データと非構造化データをうまく扱えてベクトル検索の苦手を補える 課題はあるけどナレッジグラフは、Neo4jとLangchainで構築できるよ。 はじめに 今回はベクトル検索の苦手分野をどうしても補ってあげたいとおもっている筆者やまぐちが、ベクトル検索の苦手を補ってあげられるナレッジグラフに関してまとめていこうと思います。 少々長い記事ですが、ベクトル検索を労ってあげたいと思っている方はぜひ読んでください。 ベクトル検索の限界 以前の記事の最後にも少しだけ記載しましたが、ベクトル検索は以下の問題点があります。 必要な情報がTop Kのドキュメントには含まれていない可能性がある。 チャンクの

                                                  ベクトル検索の苦手を克服。ナレッジグラフでRAGを作る
                                                • 分散 SQLite の mvSQLite でタイムトラベルにおねがい

                                                  Docker Compose の --scale で「実際に何か動かしてみよう」と mvSQLite を利用してみたところ、Time travel などが予想以上に面白かったので記事にしてみました。 mvSQLite とは? 表題から推測できるように分散する SQLite なのですが、他にも特徴があるので詳細は README の Features を読んでいただくのが良いかと(丸投げ)。 Full feature-set from SQLite: mvsqlite integrates with SQLite using either a custom VFS layer or FUSE at your choice. Since it is a layer "below" SQLite itself, all of SQLite's features are available. Tim

                                                    分散 SQLite の mvSQLite でタイムトラベルにおねがい
                                                  • GeoPandasは100万行の夢を見るか - Qiita

                                                    年末オープンジオかくし芸大会 でおなじみの、FOSS4GAdventカレンダー2018の23日目です。 はじめに この記事は 地図や位置のデータをPythonで処理したい Python初学者 QGISちょっとわかる PostGISやMySQLなどのサーバー系はちょっとしんどい 商用GISソフトは手元にない 暗中模索話だいすき という方むけの検証記事です。どうぞよろしくおねがいいたします。 きっかけ いろいろとアレで大量のcsvファイルをなだめたりすかしたりクリーニングしたりするために、PythonのライブラリであるPandasをよく使っています。Pandasについては多くの知見があるため割愛しますが、表形式のデータを取り扱うのに様々な命令があるため、結構便利ですし、今後もいろいろ使ってみたいなあと考えています。 ※こちらのパンダさんとはちょっと関係がないかもしれませんが、どこかでなにかつな

                                                      GeoPandasは100万行の夢を見るか - Qiita
                                                    • 【新機能】LOAD DATA文(Cross-cloud transfer)でS3のファイルをBigQueryテーブルへロードできるようになりました | DevelopersIO

                                                      データアナリティクス事業本部、池田です。 昨日、BigQueryの LOAD DATA 文(Cross-cloud transfer)が GA となりました。 【 BigQuery release notes > November 09, 2022 】 【 Cross-cloud transfer from Amazon S3 】 ※執筆時点では日本語のガイドは未更新 もともと BigQuery Omni の 外部テーブル でAmazon S3など別クラウドのストレージを参照することはできました。 ↓この辺は以前ブログにしています。 S3からBigQueryへ連携する方法いろいろ(Omni/Transfer Service) ※現在はストレージへのアクセスなどは BigLake の機能として整備されました。 ただし、S3の場合、その外部テーブルは aws-us-east-1 という特別なリ

                                                        【新機能】LOAD DATA文(Cross-cloud transfer)でS3のファイルをBigQueryテーブルへロードできるようになりました | DevelopersIO
                                                      • 国民生活時間調査の公開データをLooker Studioで可視化してみた|GAラボ

                                                        NHK放送文化研究所が公開している「国民生活時間調査」のデータをLooker Studio(旧:Googleデータポータル)で可視化したダッシュボードを公開します。時間軸、年齢、性別、職業などの切り口で日本人の1日の生活行動に関する情報を得ることができます。 このような一般公開されているパブリックデータからは様々な知見を得ることができます。また、活用する一つの手段としてLookerスタジオのようなBIツールが非常に有用です。 この記事で公開する情報がなにかお役に立てれば幸いです。 ※本稿でご紹介している内容を参考に実施する取り組みはすべて自己責任でお願い致します。 記事の内容は2021年6月時点で確認している情報を追記しています。万が一記述内容に誤りがある場合はTwitterのDMなどでご連絡頂ければ幸いです。何卒よろしくお願い致します。 2022年10月12日に、Googleデータポータ

                                                        • 生存時間分析入門 | 株式会社ARISE analytics(アライズ アナリティクス)

                                                          初めまして。Social Innovation Divisionの木本と申します。 普段の業務では、ヘルスケアアプリで収集されるデータの分析を行っています。 本記事では生存時間分析について概要を説明した後、通信会社の顧客離脱に関するサンプルデータを用いたマーケティング分野での活用例を紹介します。 生存時間分析とは あるイベント(例えば疾病発症)が起きるまでの時間に焦点を当てる分析方法を生存時間分析といいます。 例えばAさんが何年後に「疾病を発症するか」知りたいとします。生存時間分析を行うと、Aさんについて、①生存関数と呼ばれる時点ごとの生存確率の予測値が取得できます。また、②生存確率に対する発症タイミングを予測することができます。 生存時間分析の流れ あるデータに対して生存時間分析を用いる場合、生存期間とイベント発生有無について整理する必要が出てきます。 ここでイベント発生無しと定義したデ

                                                            生存時間分析入門 | 株式会社ARISE analytics(アライズ アナリティクス)
                                                          • Rollupちゃんと理解してる? - Qiita

                                                            はじめに SQLには、単純なGroup byによる集計計算に加え、Rollup, Cube, Grouping Setsなどの指定カラムに対して追加集計計算を行う便利な機能があります。特にRollupは小計や総計を取得するのに便利で身近な存在ですが、動きをしっかり把握していないと集計対象が複雑になった場合にピンポイントで必要な集計を得るのが難しくなります。 例えば、以下の例では一つのカラムだけを対象にRollupを使用して総計を取得していますが、Group Byの対象が複数カラムになった場合に総計だけを取得するにはどう記述すればよいでしょうか? また、4つの複合カラムで集計する場合に総計と特定のひとつのカラムの小計だけ取りたい場合はどうでしょう? select item, sum(qty), count(*) from test_rollup group by rollup(item);

                                                              Rollupちゃんと理解してる? - Qiita
                                                            • フロントエンド DB で運用コストゼロ

                                                              最近はサーバーレスの SQLite が人気みたいですが、個人的には sql.js-httpvfs が好きです。 個人開発で運用コストをゼロにしたいなら、こちらのほうが気楽です。 sql.js-httpvfs は Accept-Ranges を利用して、 DB のすべてのデータを fetch することなく、必要な時にバイト単位での fetch を実現します。 つまり DB をフロントエンドに置いた運用開発ができます。 バイト単位での fetch を実現する Accept-Ranges の仕組みは、フロントエンド新時代を支える技術になる気がしています。 静的 DB はフロントエンドへ移行する ほとんどの開発において DB / ネットワークが最初にボトルネックになります。 昔から bytes-level fetch ができればフロントエンドに DB を置けるのにとは思っていたので、 Accept

                                                              • Argo Workflowsの設定や文法

                                                                というような感じになっていて、目的や供与可能なコスト分を考えながらここらへんをうまいこと組み合わせてデータ基盤というのは構築される。 最近では多くの企業でデータエンジニアというポジションが募集されており、データエンジニアは何をしているかというとここらへんの構築・整備を行う。 正直なところデータエンジニアの仕事というのはエンジニアリング的に難しいことは何もなくて、基本的に社内政治に振り回されながら泥臭い作業を行うだけの妖怪になるという悲しい役割に終始するのだけれど、ひとまず業務としてはワークフローエンジンの整備を行う。 ワークフローエンジンに何を使うかについては結構トレンドがあり、少し前(だいたい5年前とか?)はDigdagを使うのが主流だったのだけれど最近はユーザーも離れてしまいあまり開発も活発ではなくなってしまっており(DigdagはJavaで作られているのだが最近のLog4jの問題が発

                                                                  Argo Workflowsの設定や文法
                                                                • SQLの批判、40年後

                                                                  Carlin Engより。 著者注: この投稿は、Hacker Newsのトップページに掲載されました。そこでの議論にお付き合い下さい。 SQL言語は、IBMのSystem R データベースの一部として、1974年に初めて登場しました。それから50年近くが経ち、SQLは産業用データベースの大部分を操作するための事実上の標準言語になりました。その使用法は、アプリケーションのプログラミングやデータ分析という2つの領域に分かれています。私の12年間のキャリア(データ・エンジニアとデータ・サイエンティスト)の大部分は後者に関するもので、SQLは私が最も多く使ってきた言語です。SQLの生産性は非常に高いのですが、その反面、多くの欠点や特殊性があることにも気付きました。私は主に実践者の立場から見ていますが、こうした「現実世界」の問題には、もっと基本的な、あるいは理論的な裏付けがあるのではないかと、いつ

                                                                  • Snowflakeで感情分析を試してみようとして失敗した話 - Qiita

                                                                    はじめに 最近急激に暑くなってきましたね... この記事を書いている前の週にSnowflake Summit 2023が開催され、DWH×AIがさらに加速するような内容がさまざま発表され、私もすっかりSnowflakeに御熱なわけですが、SnowflakeでAIモデルを動かしてみたいと思い、いろいろ試行錯誤をした内容をまとめておこう!ということで、この記事を書いていこうと思います。 初めてのQiitaでの記事投稿でかなり緊張しており、拙い部分が多いと思いますが、Snowflakeの特徴的な部分をお伝えできればと思います! この記事の対象者 Snowflake×AIに興味がある方 Snowflakeで感情分析をやってみたい方 ONNXをSnowflakeで使うにはどうすればいいのかわからない方 この記事の内容 完成図の確認 利用する技術の説明 感情分析をSnowflakeで行うための準備 や

                                                                      Snowflakeで感情分析を試してみようとして失敗した話 - Qiita
                                                                    • 年間200名採用のSmartHRが実践する「中途採用レポーティング」のクフウ|ひな

                                                                      こんにちは。SmartHR 採用ユニットの日永と申します。 SmartHRでは、年間200名程度を目標とした中途採用を行なっています。その採用活動については色々なところでオープンにしていますが、この記事では、中途採用のレポーティングにおける工夫について書きたいと思います。 数値の集計やレポートは作って満足しがちですが、正しい情報を必要に応じてさくっと取得して、本来時間を割くべきものに集中できるのが理想ですよね。私自身、「これ完璧なのでは...?😳 」という解はまだまだ見つけられていないのですが、ちょうど1年前の自分の悩みが少しだけ改善されてきたので、このタイミングで書いてみることにしました。 日々募集ポジションがオープンしたりクローズしたり、目標人数が変わったり、社外に出している求人票と社内の管理上のポジション名が違ったり、各ポジションで採用フローが違ったり、中途採用の目標管理が複雑すぎ

                                                                        年間200名採用のSmartHRが実践する「中途採用レポーティング」のクフウ|ひな
                                                                      • バッチ処理系の刷新とArgo Workflow移行

                                                                        これはPTAアドベントカレンダーの7日目の記事です。 5年間運用されてきたバッチ処理系を刷新し、Argo Workflowを用いたバッチ処理系に移行したのでその紹介記事です。 背景 GKE上でバッチ処理のワークロードを実行しており、ワークフローエンジンとしてDigdagを採用していました。ユースケースとしては定期実行のバッチ処理、ETL、機械学習等。 Digdagを用いたワークフロー定義はシンプルかつ運用に必要な機能を提供してくれています。実際のワークフロー内部の処理としては、ワークフローの各タスクにおいては基本的にはロジックは持たずKubernetes Jobの実行のみを行います。そのためにDigdagとKubernetes Job間で協調動作するための仕組みが独自で用意されていました。このようなバッチ処理系が約5年程運用されてきました。 この仕組で今まで元気に動いてはいたのですが次のよ

                                                                          バッチ処理系の刷新とArgo Workflow移行
                                                                        • LinkedIn製のOSSデータカタログ「DataHub」の概要とチュートリアル | DevelopersIO

                                                                          どうも!DA部の春田です。 先日までre:Invent2020のAnalytics系のセッションレポートを書いていたのですが、海外企業のほとんどがデータポータルなるものを構築・稼働させていた点が印象的でした。このデータポータルを構成する要素の中でも、最近データカタログというサービスが注目を集めており、まだ成熟しきっていない分野ですが、探してみると新興OSSが結構見つかるんですよね。 さて、その中でも今回はLinkedIn製のOSSデータカタログ、DataHubについてご紹介していきたいと思います。 DataHubとは? DataHubは一言で言うと、データソースのメタデータの検索とディスカバリーを実現するツールです。LinkedIn社の長年のメタデータ管理の経験の末、設計思想として以下の5点が掲げられています。 DataHub: A generalized metadata search

                                                                            LinkedIn製のOSSデータカタログ「DataHub」の概要とチュートリアル | DevelopersIO
                                                                          • BigQuery Remote FunctionsからCloud Functions 2nd genを呼び出す際にハマったポイントを振り返る - RareJob Tech Blog

                                                                            こんにちは、DMP(Data Management Platform)グループの平井です。毎日デコポンを食べています。美味しい。 タイトルの通り、BigQuery Remote FunctionsからCloud Functions 2nd genを呼び出す際にハマったポイントがあったので共有します。 今回のケース Remote Functionsとは ハマりポイント再現 Cloud Functions 2nd genとは Cloud Functions 2nd genをデプロイ BigQuery Connections作成 Remote Funcitonを作成 権限付与 まとめ 今回のケース まずどのような場面でRemote Functionsを使用したのか説明します。 レアジョブグループには新旧2つのデータ基盤があります。 順次移行作業を進めており、その中でRを利用した集計処理を新しいデ

                                                                              BigQuery Remote FunctionsからCloud Functions 2nd genを呼び出す際にハマったポイントを振り返る - RareJob Tech Blog
                                                                            • ミツモアを支えるデータ分析基盤あるいはStitchとdbtを用いたELTについて - ミツモア Tech blog

                                                                              ※ こちらはミツモアAdvent Calendar 2021の12/20分の記事です。 こんにちは、ミツモアCTOの柄澤(@fmy)です。今回は、ちょうど1年半前ぐらいに整備したミツモアデータ分析基盤についてご紹介いたします。(記事にするのが遅くなってすみません) 全体像 ミツモアのデータパイプラインの全体像は以下のようになっています。 ミツモアのデータパイプライン このパターンはETL(Extract / Transform / Load)ではなくELTと言われ、ExtractとLoadを行ったのちに、データウェアハウスの中でTransformを実施する戦略となっています。BigQueryに代表される今日のデータウェアハウスは膨大なデータを保持し、大量の並列処理を可能とする能力があるので、一旦データウェアハウスにあらゆるデータを入れたのちに、自由にデータの変換処理をする方が筋が良いように

                                                                                ミツモアを支えるデータ分析基盤あるいはStitchとdbtを用いたELTについて - ミツモア Tech blog
                                                                              • BigQuery の Execution Plan を体感&可視化で理解してパフォーマンスチューニングする - Qiita

                                                                                この記事では、BigQuery に搭載されている Query execution graphs を用いて、なんとなくクエリのパフォーマンスを最適化する方法を説明します。 ほとんどの項目が経験と憶測で書かれているので、あくまで参考程度にお願いします。 Query execution graphs とは Query execution graphs とは、BigQuery が SQL クエリを解釈して実行計画を作成する際に生成される内部表現です。Execution graphs は、クエリの各ステップをノードとして表し、ノード間のデータフローをエッジとして表します。また、グラフを見ることで、クエリの実行順序や依存関係、並列度やリソース消費などを把握することができます。 主に以下のようなノード(ステージ)があります。 Input: データセットからデータを読み込むノード。テーブルデータの統計情報

                                                                                  BigQuery の Execution Plan を体感&可視化で理解してパフォーマンスチューニングする - Qiita
                                                                                • 宣言的かつ安全に管理するElasticsearch/Declarative management for Elasticsearch

                                                                                  第49回Elasticsearch勉強会での発表資料です。 https://www.meetup.com/tokyo-elastic-fantastics/events/287299123/

                                                                                    宣言的かつ安全に管理するElasticsearch/Declarative management for Elasticsearch

                                                                                  新着記事