[8ページ] *Dataの人気記事 460件 - はてなブックマーク

281 - 320 件 / 460件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

*Dataの検索結果281 - 320 件 / 460件

Rの作図におけるベストな配色の選び方 - yokaのblog
- 5 users
- yokazaki.hatenablog.com
- 学び
- 2020/03/26
論文のFigはほぼRで描いているのだけど、複雑なデータをコンパクトに見せるためにカラフルな図を作ることが多い。そこでいつも悩むのが「いかに効率よく配色するか」ということだ。カスタムの配色セットを作ってみたり、カラーパレットのパッケージをあれこれ試してみたりしたのだけど、自分なりに今落ち着いているのがkhromaとcirclizeという2つのパッケージなので簡単に紹介したい。 khromaはPaul Tol’s Colour Schemesに準じたカラーパレットを出力できるパッケージだ。このカラースキームの特長として、カラーユニバーサルモノクロ印刷した際の視認性も考慮質データ(Qualitative)、2極データ(Diverging)、連続データ(Sequential)のそれぞれに対応した複数のカラーパレットが準備されているという点が挙げられる。自分が知る限りでは、最も綿密な考慮の上
- r
- tips
AWSのDWH「Redshift」がサーバーレスに進化、10年で内部構造はこんなに変わった
- 5 users
- xtech.nikkei.com
- テクノロジー
- 2022/07/22
米Amazon Web Services（アマゾン・ウェブ・サービス、AWS）が2022年7月12日（米国時間）、データウエアハウス（DWH）をサーバーレス化した「Amazon Redshift Serverless」の一般提供を開始した。ユーザー企業は容量設計が一切不要でDWHを利用できる。サーバーレスと言っても、本当にサーバーがなくなったわけではない。これまでのAmazon Redshiftは使い始める際に、ユーザー企業はDWHクラスターで使用する仮想マシンのサイズなどを決める必要があった。仮想マシンの使用料金は1時間単位の従量課金で、クエリーを実行していない場合であっても料金が発生していた。それに対してAmazon Redshift Serverlessの場合は、ユーザー企業は仮想マシンのサイズなどを決める必要はない。クエリーの実行時に自動的にノードが起動して処理が始まり、処理が
- DWH
- AWS
【2023年版】Google ColabでSQLを使う【DuckDB, JupySQL】 - Qiita
- 5 users
- qiita.com/_jinta
- テクノロジー
- 2023/03/03
0. 使うもの JupySQLとDuckDBを使う。 JupySQLは以前紹介したipython-sqlと似たようなライブラリだが、現在あまり更新されていないipython-sqlに対して、(i) バグを修正し、(ii) 機能を追加しているものである。基本的な使い方はipython-sqlと変わらない。 DuckDBはSQLiteのOLAP版という立ち位置らしい。お手軽に使え、分析用途に強いDBだと理解している1。ということで、実際に簡単に使う方法を見ていく。 1. 諸々準備 !pip install jupysql duckdb-engine # データ（csvファイル）のダウンロード !wget https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv
- python
ノンパラメトリックな方法を用いた探索的データ分析 - Qiita
- 5 users
- qiita.com/s-yonekura
- テクノロジー
- 2021/11/05
はじめに千葉大学/Nospareの米倉です．今回はノンパラメトリックな方法（分析で用いる分布を仮定しない）を用いた，探索的データ分析について解説します．ノンパラメトリックな方法を用いることにより，モデルの特定化の失敗の影響を抑えたり，またパラメトリックな方法を用いる際の予備的分析になると思います．また簡単なA/Bテストにもいいのかなと思います． Empirical Cumulative Distribution Function(ECDF) Empirical Cumulative Distribution Function(ECDF)とは，累積分布関数を経験分布を用いて推定（データから推定）したものです．確率変数$X$が$x$以下になる確率$P(X\leq x)$を累積分布関数といいます．これをデータから推定したものがECDFです．推定方法は簡単で，例えば次のJuliaのコードではso
- 統計
- あとで読む

AWS LambdaとPyArrow3.0.0を使ってサクッとParquetファイルに変換する | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2021/03/24
id price total price_profit total_profit discount visible name created updated 1 20000 300000000 4.56 67.89 789012.34 True QuietComfort 35 2019-06-14 2019-06-14 23:59:59 PyArrow3.0.0用のLambda Layerを作成する Lambda動作環境の選定今回は、TSVファイルに軽量・高速に変換するためAWS Lambdaを用います。Lambdaは、パッケージフォーマットとして、従来どおりLambda関数を用いる方法に加えて、コンテナイメージがサポートされました。複数のLambdaアプリケーションや関数から再利用されることを考慮して、デプロイパッケージは、Layerを用います。 Lambdaの制約事項デプロイパッケ
- python
Apache Hadoop Ozone: Apache Hadoop 用のオブジェクトストアの紹介
- 5 users
- blog.cloudera.co.jp
- テクノロジー
- 2020/04/07
著者: Arpit Agarwal 本ブログ記事は「Introducing Apache Hadoop Ozone: An Object Store for Apache Hadoop」(2018/10/08投稿)の日本語翻訳記事です。また、原文の投稿はClouderaとHortonworks合併前に記述されたものであり、いくつかのリンク、リソースにはアクセスできない場合があります。 *訳注: 元記事公開時点では 0.2.1-alpha 版が最新でしたが、日本語翻訳時(2020/3/9)は0.4.1-alpha版が公開されています。 1. はじめにApache Hadoop 分散ファイルシステム(HDFS)はビッグデータ用のデファクトファイルシステムになっています。現実世界では、HDFSがどれほどスケーラブルで堅牢であるのかを忘れがちです。私たちのお客様は数千ノードのクラスターを実行してい
データプロダクトとは何か
- 5 users
- speakerdeck.com/10xinc
- テクノロジー
- 2023/10/04
2023/9/26に開催された「Data Analyst Career Study #3」の登壇資料です。 https://tech-track.connpass.com/event/294384/ ■ スライド中のリンク一覧 Data as a product vs data products. What are the differences? - towards data science https://towardsdatascience.com/data-as-a-product-vs-data-products-what-are-the-differences-b43ddbb0f123 Designing Data Products - towards data science https://towardsdatascience.com/designing-data-prod
技術書典13でBigQueryデータ基盤本を頒布する予定です - 本日も乙
- 5 users
- blog.jicoman.info
- テクノロジー
- 2022/08/29
2022/09/10 訂正以下の記事で正式告知させていただきました。 https://blog.jicoman.info/2022/09/announcement-techbook-fest-bigqueryblog.jicoman.info 先週は夏季休暇をいただいていましたが、技術書典13に向けた新刊の執筆で終わってしまいました・・・。今までサボっていた自分が悪いのですが。まだまだ執筆が終わっていませんが、ようやく終わりが見えてきたので告知します！どんな本？タイトルは「WebエンジニアのためのBigQueryデータ基盤入門」（仮）です。データエンジニアリング未経験な私がここ1年ぐらいBigQueryでデータ基盤構築していたので、その知見などを同人誌にしてみました。データ基盤と聞くと、データエンジニアやデータサイエンティスト、機械学習エンジニア、会社によってはITインフラエンジニ
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介（Open Source Conference 2020 Online/Kyoto 講演資料）
- 5 users
- www.slideshare.net/slideshow
- テクノロジー
- 2020/08/28
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介基本から最新バージョン3.0まで Open Source Conference 2020 Online/Kyoto 2020年8月28日講演資料 https://event.ospn.jp/osc2020-online-kyoto/ 株式会社NTTデータ技術開発本部猿田浩輔Read less
GitHub - mlcraft-io/mlcraft: Synmetrix – open source semantic layer / Boost your LLM precision
- 5 users
- github.com/mlcraft-io
- テクノロジー
- 2021/06/21
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
- javascript
UberのMarketing Mix Modeling論文を読んでみた所感 - Leverages データ戦略ブログ
- 5 users
- analytics.leverages.jp
- テクノロジー
- 2022/06/16
はじめに初めまして、データ戦略室データサイエンスグループの徳田です。以前のブログでMarketing Mix Modeling（MMM）を取り上げましたが、弊社では日々手探りの状況でMMMに取り組んでおります。Uber、FaceBook、Googleなどの企業の事例や論文から学びつつ、業務をおこなっております。今回は、その中でUberのMMM論文の紹介をしていきます！なお、MMMの詳細を知りたい方は、前のブログを見ていただければと思います。目次 UberのMMMの取り組み背景方法結果論文を読んだ所感参考文献 UberのMMMの取り組み今回紹介するのは、こちらの論文（Title:Bayesian Time Varying Coefficient Model with Applications to Marketing Mix Modeling）です。本論文のポイントとしては
- 統計
- マーケティング
金融系データサイエンスカオスマップ2020年版 - ただのペンギンぶろぐ
- 5 users
- findatas.hatenablog.com
- テクノロジー
- 2020/07/10
今回のエントリでは金融系におけるデータサイエンス案件のカオスマップです。2020年版における以下の４分野における取り組みをまとめてご紹介いたします。銀行証券資産運用保険 ①銀行向けデータサイエンス案件与信分析系 ②証券会社向けデータサイエンス案件対面証券における営業効率最適化系統計的な取引執行最適化 ③資産運用会社向けデータサイエンス案件投資判断系データ収集・アグリゲーション・分析系リスク管理系トレーディング戦略系 ④保険会社向けデータサイエンス案件 [損害保険]クレームが生じる要因分析 [損害保険]営業効率最適化系 [生命保険]デジタル診断系 ①銀行向けデータサイエンス案件与信分析系銀行の本業は預金者からの預金を融資して、その利子で利益を出すことです。ただし、貸し出す先はのべつ幕なしに誰でも良いというわけではありません。そのためしっかりとした融資先を見極める必要
- 統計
- あとで読む
日本語プロットの文字化けストレスを低減する - RStudio v1.4とraggパッケージを使う - cucumber flesh
- 5 users
- uribo.hatenablog.com
- テクノロジー
- 2021/03/29
RStudio v1.4とraggパッケージの登場でRStudio上で日本語の作図が面倒な指定不要で行えるようになりました。記事中で紹介する方法をとれば、RStudioのPlotsパネルに出力する図が文字化けしなくなります。RStudioユーザで日本語での作図を行う方にはぜひ知っていてもらいたいtipsです。すごい！確かにグラフィックデバイスにAGGを指定すれば、ggplot2で日本語表示する際に面倒な ggplot2::theme_*(base_family = ) をしなくても、問題なく日本語が表示される。ハッピー( ^ω^ ) https://t.co/DL1ec5wj9U— Uryu Shinya (@u_ribo) 2021年2月17日なお、この記事の元ネタは https://www.tidyverse.org/blog/2021/02/modern-text-feature
- R
Google BigQueryのデータをSQLコマンド「EXPORT DATA」で直接Google Cloud Storageにエクスポート出来るようになりました！ | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2020/10/16
先日(2020/10/16)のGCP/Google BigQueryのリリースノートにて、幾つかの興味深いトピックがありました。詳細については下記公式ブログをご参照ください。その中で、外部ストレージに関する読み書き(Reading from and writing to external storage)に関するものも含まれていました。関連する文章を上記エントリから抜粋します。 BigQuery provides users the ability to read data in external storage buckets. The new SQL commands allow users to configure tables within BigQuery pointing to these buckets as well as export data from queries
ChatGPT API を使って BigQuery SQL を自然言語で記述する CLI を作った - Qiita
- 5 users
- qiita.com/algas
- テクノロジー
- 2023/03/21
クエリで実現したいことを自然言語で書けば ChatGPT が BigQuery SQL に変換してくれる CLI (Command Line Interface) を langchain で作りました。 https://github.com/algas/bigquery-generator-ai クエリに関連する BigQuery のテーブル名(複数可)を渡すとそのテーブルのスキーマ(だけ)を取得します。テーブルのデータ内容は取得しない(データ取得権限を付与しない)ので機密漏えいの心配はありません。対象読者次のいずれかに当てはまる BigQuery ユーザを対象としています。 SQL を書くのが苦手な人 SQL を書くのが苦手な人に SQL を書いてもらう必要がある人 ChatGPT を使ったアプリケーション開発に興味がある人アプリケーションの概要このツールが何をするのかを簡単に
tidymodelsで覚えるRでのモデル構築と運用 / tidymodels2020
- 5 users
- speakerdeck.com/s_uryu
- テクノロジー
- 2020/10/21
リポジトリ http://github.com/uribo/190831_fukuokar15
- R
- 機械学習
- 勉強
- あとで読む
Postgres WASMを支える技術
- 5 users
- zenn.dev/tkithrta
- テクノロジー
- 2022/11/09
Intro 10月3日にWebAssemblyを用いてWebブラウザにx86の仮想マシンを構成することで、PostgreSQLをWebブラウザ上で実行可能にした「Postgres WASM」がオープンソースで公開されました。以前から気になっていたSupabaseが公開していたこと、最初にSnapletという企業がOSSで公開しておりそれをフォークして完成させたこと、色々気になることばかりでしたので自分なりに調べて深掘りしてみました。
- javascript
メダリオンアーキテクチャ
- 5 users
- www.databricks.com
- テクノロジー
- 2023/11/08
メダリオンアーキテクチャとはメダリオンアーキテクチャとは、レイクハウスのデータを論理的に整理するために用いられるデータ設計を意味します。データがアーキテクチャの 3 つのレイヤー（ブロンズ → シルバー → ゴールドのテーブル）を流れる際に、データの構造と品質を増分的かつ漸次的に向上させることを目的としています。メダリオンアーキテクチャは、「マルチホップ」アーキテクチャとも呼ばれます。レイクハウスアーキテクチャのメリットシンプルなデータモデルわかりやすく、導入が容易増分 ETL が可能未加工データからのテーブル再作成がいつでも可能ACID トランザクション、タイムトラベルレイクハウスとはレイクハウスは、データレイクとデータウェアハウスの優れた要素を取り入れた新しいデータプラットフォームアーキテクチャです。モダンレイクハウスは、拡張性と性能に優れたデータプラットフォームです。未加工データと
- database
dbtとLookerにたどり着いたデータ基盤 ~混ざり合う境界線を考える~
- 5 users
- speakerdeck.com/tenajima
- テクノロジー
- 2022/07/22
「Looker User Meetup Online #8」にて登壇した内容となっております
ElasticsearchとXGBoostを組み合わせた検索ランキング作成と評価
- 5 users
- zenn.dev/yner
- テクノロジー
- 2023/11/03
最近検索周りで「機械学習による検索ランキング改善ガイド」という本が出版されて気になって読んでみたので、それを読んで勉強しつつ手を動かしてみてわかったことや感想を紹介してみようと思います。この記事に書くこと＆書かないことこの記事では以下のようなことに焦点を当てて書きます。 ElasticsearchとXGBoostを組み合わせたときの性能・負荷変化の実験 Elasticsearch上での特徴量エンジニアリングの体験逆に、実験の下準備といったことについては最低限しか書かないので具体的なElasticsearchの使い方等については他の記事もしくは書籍を参照してください。実験を行う検索システムの構成書籍で使われているコードをベースとして色々と自分で実験を行いました。実験を通して知りたかったこと自分の手を動かして実験することで知りたかったことをまとめると以下のようになります。 Ela
- search
- あとで読む
GoからZetaSQLを使う
- 5 users
- naoto0822.medium.com
- テクノロジー
- 2021/12/07
Photo by David Thielen on UnsplashIntroductionGoを使ってBigQueryやSpannerのSQLをフォーマットしたりパースしたりしたいなと思い調べたらGoogleが公開しているZetaSQLというライブラリにたどり着きました。ただZetaSQLはC++とJavaで書かれていたのですが、他にGo製のOSSなどもなく自前でSQLパーサーをちゃんと書くのも大変なのでこれを使ってどうにかできないか模索した話になります。最終的にはGoからZetaSQLを呼び出すserverを作りました。↓ naoto0822/zetasql-server GitHub - naoto0822/zetasql-server: This is server parsing/analyzing ZetaSQL (ongoing).
- golang
ChatGPTとNoteableによる科学技術情報分析
- 5 users
- speakerdeck.com/hayataka88
- テクノロジー
- 2023/06/01
ChatGPTとNoteableプラグインを使って、科学技術情報分析ができるかを試した記録と所感メモです。本資料では、下記の分析プロセスにおける活用を試しています。 1. 論文情報収集 arXivから指定した検索条件にヒットするプレプリント情報を収集する。 2. 書誌情報分析時系列推移、カテゴリ集計、著者集計を実施する。 3. テキストマイニングキーフレーズ抽出・集計、クラスタリングと解釈、俯瞰可視化(二次元可視化)を実施する。汚いままですが、実際のChatGPTとのやり取りや、生成されたスクリプトも資料の中でURLを公開しています。参考になれば幸いです。 noteでも簡単な説明と補足・追加コメントをまとめました。 https://note.com/hayataka88/n/ndfd913dab62f
- python
ベクトル検索の苦手を克服。ナレッジグラフでRAGを作る
- 5 users
- zenn.dev/yamada_quantum
- テクノロジー
- 2024/05/20
TL;DR ベクトル検索だと、複数のステップを踏まないと答えられない質問の検索がむずい「TomにEmil Eifrém（Neo4jのCEO）を紹介してくれる人は？」とかを検索むずいナレッジグラフは構造化データと非構造化データをうまく扱えてベクトル検索の苦手を補える課題はあるけどナレッジグラフは、Neo４jとLangchainで構築できるよ。はじめに今回はベクトル検索の苦手分野をどうしても補ってあげたいとおもっている筆者やまぐちが、ベクトル検索の苦手を補ってあげられるナレッジグラフに関してまとめていこうと思います。少々長い記事ですが、ベクトル検索を労ってあげたいと思っている方はぜひ読んでください。ベクトル検索の限界以前の記事の最後にも少しだけ記載しましたが、ベクトル検索は以下の問題点があります。必要な情報がTop Kのドキュメントには含まれていない可能性がある。チャンクの
- graph
- knowledge
- search
- ai
- programming
分散 SQLite の mvSQLite でタイムトラベルにおねがい
- 5 users
- zenn.dev/hankei6km
- テクノロジー
- 2022/09/08
Docker Compose の --scale で「実際に何か動かしてみよう」と mvSQLite を利用してみたところ、Time travel などが予想以上に面白かったので記事にしてみました。 mvSQLite とは？表題から推測できるように分散する SQLite なのですが、他にも特徴があるので詳細は README の Features を読んでいただくのが良いかと(丸投げ)。 Full feature-set from SQLite: mvsqlite integrates with SQLite using either a custom VFS layer or FUSE at your choice. Since it is a layer "below" SQLite itself, all of SQLite's features are available. Tim
- SQLite
- あとで読む
GeoPandasは100万行の夢を見るか - Qiita
- 5 users
- qiita.com/Yfuruchin
- テクノロジー
- 2020/02/26
年末オープンジオかくし芸大会でおなじみの、FOSS4GAdventカレンダー2018の23日目です。はじめにこの記事は地図や位置のデータをPythonで処理したい Python初学者 QGISちょっとわかる PostGISやMySQLなどのサーバー系はちょっとしんどい商用GISソフトは手元にない暗中模索話だいすきという方むけの検証記事です。どうぞよろしくおねがいいたします。きっかけいろいろとアレで大量のcsvファイルをなだめたりすかしたりクリーニングしたりするために、PythonのライブラリであるPandasをよく使っています。Pandasについては多くの知見があるため割愛しますが、表形式のデータを取り扱うのに様々な命令があるため、結構便利ですし、今後もいろいろ使ってみたいなあと考えています。 ※こちらのパンダさんとはちょっと関係がないかもしれませんが、どこかでなにかつな
- GIS
- Python
【新機能】LOAD DATA文（Cross-cloud transfer）でS3のファイルをBigQueryテーブルへロードできるようになりました | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/10
データアナリティクス事業本部、池田です。昨日、BigQueryの LOAD DATA 文（Cross-cloud transfer）が GA となりました。【 BigQuery release notes > November 09, 2022 】【 Cross-cloud transfer from Amazon S3 】　※執筆時点では日本語のガイドは未更新もともと BigQuery Omni の外部テーブルでAmazon S3など別クラウドのストレージを参照することはできました。 ↓この辺は以前ブログにしています。 S3からBigQueryへ連携する方法いろいろ（Omni/Transfer Service） ※現在はストレージへのアクセスなどは BigLake の機能として整備されました。ただし、S3の場合、その外部テーブルは aws-us-east-1 という特別なリ
- aws
国民生活時間調査の公開データをLooker Studioで可視化してみた｜GAラボ
- 5 users
- googleanalytics-laboratory.com
- 学び
- 2021/06/23
NHK放送文化研究所が公開している「国民生活時間調査」のデータをLooker Studio（旧：Googleデータポータル）で可視化したダッシュボードを公開します。時間軸、年齢、性別、職業などの切り口で日本人の1日の生活行動に関する情報を得ることができます。このような一般公開されているパブリックデータからは様々な知見を得ることができます。また、活用する一つの手段としてLookerスタジオのようなBIツールが非常に有用です。この記事で公開する情報がなにかお役に立てれば幸いです。 ※本稿でご紹介している内容を参考に実施する取り組みはすべて自己責任でお願い致します。記事の内容は2021年6月時点で確認している情報を追記しています。万が一記述内容に誤りがある場合はTwitterのDMなどでご連絡頂ければ幸いです。何卒よろしくお願い致します。 2022年10月12日に、Googleデータポータ
- 知識
生存時間分析入門 | 株式会社ARISE analytics（アライズアナリティクス）
- 5 users
- www.ariseanalytics.com
- テクノロジー
- 2023/10/21
初めまして。Social Innovation Divisionの木本と申します。普段の業務では、ヘルスケアアプリで収集されるデータの分析を行っています。本記事では生存時間分析について概要を説明した後、通信会社の顧客離脱に関するサンプルデータを用いたマーケティング分野での活用例を紹介します。生存時間分析とはあるイベント(例えば疾病発症)が起きるまでの時間に焦点を当てる分析方法を生存時間分析といいます。例えばAさんが何年後に「疾病を発症するか」知りたいとします。生存時間分析を行うと、Aさんについて、①生存関数と呼ばれる時点ごとの生存確率の予測値が取得できます。また、②生存確率に対する発症タイミングを予測することができます。生存時間分析の流れあるデータに対して生存時間分析を用いる場合、生存期間とイベント発生有無について整理する必要が出てきます。ここでイベント発生無しと定義したデ
- 統計
Rollupちゃんと理解してる？ - Qiita
- 5 users
- qiita.com/tlokweng
- テクノロジー
- 2020/07/21
はじめに SQLには、単純なGroup byによる集計計算に加え、Rollup, Cube, Grouping Setsなどの指定カラムに対して追加集計計算を行う便利な機能があります。特にRollupは小計や総計を取得するのに便利で身近な存在ですが、動きをしっかり把握していないと集計対象が複雑になった場合にピンポイントで必要な集計を得るのが難しくなります。例えば、以下の例では一つのカラムだけを対象にRollupを使用して総計を取得していますが、Group Byの対象が複数カラムになった場合に総計だけを取得するにはどう記述すればよいでしょうか？また、4つの複合カラムで集計する場合に総計と特定のひとつのカラムの小計だけ取りたい場合はどうでしょう？ select item, sum(qty), count(*) from test_rollup group by rollup(item);
フロントエンド DB で運用コストゼロ
- 5 users
- marmooo.blogspot.com
- テクノロジー
- 2022/06/05
最近はサーバーレスの SQLite が人気みたいですが、個人的には sql.js-httpvfs が好きです。個人開発で運用コストをゼロにしたいなら、こちらのほうが気楽です。 sql.js-httpvfs は Accept-Ranges を利用して、 DB のすべてのデータを fetch することなく、必要な時にバイト単位での fetch を実現します。つまり DB をフロントエンドに置いた運用開発ができます。バイト単位での fetch を実現する Accept-Ranges の仕組みは、フロントエンド新時代を支える技術になる気がしています。静的 DB はフロントエンドへ移行するほとんどの開発において DB / ネットワークが最初にボトルネックになります。昔から bytes-level fetch ができればフロントエンドに DB を置けるのにとは思っていたので、 Accept
- javascript
- webサービス
Argo Workflowsの設定や文法
- 5 users
- komi.dev
- テクノロジー
- 2022/01/10
というような感じになっていて、目的や供与可能なコスト分を考えながらここらへんをうまいこと組み合わせてデータ基盤というのは構築される。最近では多くの企業でデータエンジニアというポジションが募集されており、データエンジニアは何をしているかというとここらへんの構築・整備を行う。正直なところデータエンジニアの仕事というのはエンジニアリング的に難しいことは何もなくて、基本的に社内政治に振り回されながら泥臭い作業を行うだけの妖怪になるという悲しい役割に終始するのだけれど、ひとまず業務としてはワークフローエンジンの整備を行う。ワークフローエンジンに何を使うかについては結構トレンドがあり、少し前(だいたい5年前とか？)はDigdagを使うのが主流だったのだけれど最近はユーザーも離れてしまいあまり開発も活発ではなくなってしまっており(DigdagはJavaで作られているのだが最近のLog4jの問題が発
- kubernetes
SQLの批判、40年後
- 5 users
- okuranagaimo.blogspot.com
- 学び
- 2022/08/31
Carlin Engより。著者注: この投稿は、Hacker Newsのトップページに掲載されました。そこでの議論にお付き合い下さい。 SQL言語は、IBMのSystem R データベースの一部として、1974年に初めて登場しました。それから50年近くが経ち、SQLは産業用データベースの大部分を操作するための事実上の標準言語になりました。その使用法は、アプリケーションのプログラミングやデータ分析という2つの領域に分かれています。私の12年間のキャリア(データ・エンジニアとデータ・サイエンティスト)の大部分は後者に関するもので、SQLは私が最も多く使ってきた言語です。SQLの生産性は非常に高いのですが、その反面、多くの欠点や特殊性があることにも気付きました。私は主に実践者の立場から見ていますが、こうした「現実世界」の問題には、もっと基本的な、あるいは理論的な裏付けがあるのではないかと、いつ
- SQL
- *program
- history
Snowflakeで感情分析を試してみようとして失敗した話 - Qiita
- 5 users
- qiita.com/Lana2548_t
- テクノロジー
- 2023/07/10
はじめに最近急激に暑くなってきましたね... この記事を書いている前の週にSnowflake Summit 2023が開催され、DWH×AIがさらに加速するような内容がさまざま発表され、私もすっかりSnowflakeに御熱なわけですが、SnowflakeでAIモデルを動かしてみたいと思い、いろいろ試行錯誤をした内容をまとめておこう！ということで、この記事を書いていこうと思います。初めてのQiitaでの記事投稿でかなり緊張しており、拙い部分が多いと思いますが、Snowflakeの特徴的な部分をお伝えできればと思います！この記事の対象者 Snowflake×AIに興味がある方 Snowflakeで感情分析をやってみたい方 ONNXをSnowflakeで使うにはどうすればいいのかわからない方この記事の内容完成図の確認利用する技術の説明感情分析をSnowflakeで行うための準備や
年間200名採用のSmartHRが実践する「中途採用レポーティング」のクフウ｜ひな
- 5 users
- note.com/hinas119
- 暮らし
- 2021/06/29
こんにちは。SmartHR 採用ユニットの日永と申します。 SmartHRでは、年間200名程度を目標とした中途採用を行なっています。その採用活動については色々なところでオープンにしていますが、この記事では、中途採用のレポーティングにおける工夫について書きたいと思います。数値の集計やレポートは作って満足しがちですが、正しい情報を必要に応じてさくっと取得して、本来時間を割くべきものに集中できるのが理想ですよね。私自身、「これ完璧なのでは...？😳 」という解はまだまだ見つけられていないのですが、ちょうど1年前の自分の悩みが少しだけ改善されてきたので、このタイミングで書いてみることにしました。日々募集ポジションがオープンしたりクローズしたり、目標人数が変わったり、社外に出している求人票と社内の管理上のポジション名が違ったり、各ポジションで採用フローが違ったり、中途採用の目標管理が複雑すぎ
バッチ処理系の刷新とArgo Workflow移行
- 5 users
- zenn.dev/karahiyo
- テクノロジー
- 2021/12/07
これはPTAアドベントカレンダーの7日目の記事です。 5年間運用されてきたバッチ処理系を刷新し、Argo Workflowを用いたバッチ処理系に移行したのでその紹介記事です。背景 GKE上でバッチ処理のワークロードを実行しており、ワークフローエンジンとしてDigdagを採用していました。ユースケースとしては定期実行のバッチ処理、ETL、機械学習等。 Digdagを用いたワークフロー定義はシンプルかつ運用に必要な機能を提供してくれています。実際のワークフロー内部の処理としては、ワークフローの各タスクにおいては基本的にはロジックは持たずKubernetes Jobの実行のみを行います。そのためにDigdagとKubernetes Job間で協調動作するための仕組みが独自で用意されていました。このようなバッチ処理系が約5年程運用されてきました。この仕組で今まで元気に動いてはいたのですが次のよ
- workflow
LinkedIn製のOSSデータカタログ「DataHub」の概要とチュートリアル | DevelopersIO
- 5 users
- dev.classmethod.jp
- テクノロジー
- 2021/01/21
どうも！DA部の春田です。先日までre:Invent2020のAnalytics系のセッションレポートを書いていたのですが、海外企業のほとんどがデータポータルなるものを構築・稼働させていた点が印象的でした。このデータポータルを構成する要素の中でも、最近データカタログというサービスが注目を集めており、まだ成熟しきっていない分野ですが、探してみると新興OSSが結構見つかるんですよね。さて、その中でも今回はLinkedIn製のOSSデータカタログ、DataHubについてご紹介していきたいと思います。 DataHubとは？ DataHubは一言で言うと、データソースのメタデータの検索とディスカバリーを実現するツールです。LinkedIn社の長年のメタデータ管理の経験の末、設計思想として以下の5点が掲げられています。 DataHub: A generalized metadata search
- あとで読む
BigQuery Remote FunctionsからCloud Functions 2nd genを呼び出す際にハマったポイントを振り返る - RareJob Tech Blog
- 5 users
- rarejob-tech-dept.hatenablog.com
- テクノロジー
- 2023/02/13
こんにちは、DMP(Data Management Platform)グループの平井です。毎日デコポンを食べています。美味しい。タイトルの通り、BigQuery Remote FunctionsからCloud Functions 2nd genを呼び出す際にハマったポイントがあったので共有します。今回のケース Remote Functionsとはハマりポイント再現 Cloud Functions 2nd genとは Cloud Functions 2nd genをデプロイ BigQuery Connections作成 Remote Funcitonを作成権限付与まとめ今回のケースまずどのような場面でRemote Functionsを使用したのか説明します。レアジョブグループには新旧2つのデータ基盤があります。順次移行作業を進めており、その中でRを利用した集計処理を新しいデ
- bigquery
- あとで読む
ミツモアを支えるデータ分析基盤あるいはStitchとdbtを用いたELTについて - ミツモア Tech blog
- 5 users
- engineering.meetsmore.com
- テクノロジー
- 2021/12/20
※ こちらはミツモアAdvent Calendar 2021の12/20分の記事です。こんにちは、ミツモアCTOの柄澤（@fmy）です。今回は、ちょうど1年半前ぐらいに整備したミツモアデータ分析基盤についてご紹介いたします。（記事にするのが遅くなってすみません）全体像ミツモアのデータパイプラインの全体像は以下のようになっています。ミツモアのデータパイプラインこのパターンはETL（Extract / Transform / Load）ではなくELTと言われ、ExtractとLoadを行ったのちに、データウェアハウスの中でTransformを実施する戦略となっています。BigQueryに代表される今日のデータウェアハウスは膨大なデータを保持し、大量の並列処理を可能とする能力があるので、一旦データウェアハウスにあらゆるデータを入れたのちに、自由にデータの変換処理をする方が筋が良いように
- あとで読む
BigQuery の Execution Plan を体感&可視化で理解してパフォーマンスチューニングする - Qiita
- 5 users
- qiita.com/zakuro
- テクノロジー
- 2023/12/03
この記事では、BigQuery に搭載されている Query execution graphs を用いて、なんとなくクエリのパフォーマンスを最適化する方法を説明します。ほとんどの項目が経験と憶測で書かれているので、あくまで参考程度にお願いします。 Query execution graphs とは Query execution graphs とは、BigQuery が SQL クエリを解釈して実行計画を作成する際に生成される内部表現です。Execution graphs は、クエリの各ステップをノードとして表し、ノード間のデータフローをエッジとして表します。また、グラフを見ることで、クエリの実行順序や依存関係、並列度やリソース消費などを把握することができます。主に以下のようなノード(ステージ)があります。 Input: データセットからデータを読み込むノード。テーブルデータの統計情報
- performance
宣言的かつ安全に管理するElasticsearch/Declarative management for Elasticsearch
- 4 users
- speakerdeck.com/pakio
- テクノロジー
- 2022/08/31
第49回Elasticsearch勉強会での発表資料です。 https://www.meetup.com/tokyo-elastic-fantastics/events/287299123/
- search
- あとで読む