並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 986件

新着順 人気順

*dataの検索結果161 - 200 件 / 986件

  • トランザクション中の文の失敗の扱いの違い - Write and Run

    (読みづらいタイトルだな) ことの発端はこのツイート。 MySQLは、以下を満たさないという理解でいいのか? エラーが出た時にPostgreSQLのようにロールバックを行わないので Atomicity(原子性)・・・トランザクションの実行結果は「全て成功」か「全て失敗」のいずれかでなければならない#mysql— imaharu (@imaharuTech) July 2, 2020 さすがの MySQL でもそこを破ってくることはないだろうと思いつつ、トランザクション野郎としてはちゃんと確かめねばならないと思い、早朝にも関わらず布団から出てラップトップを開いた(午前10時)。 実験1 以下のような docker-compose.yml と sql/script.sql を用意し、実験をする。 version: '3.3' services: db: image: mysql:8 envir

      トランザクション中の文の失敗の扱いの違い - Write and Run
    • CI/CDのボトルネックを把握できていますか?BigQueryでビルド情報ダッシュボードを構築した話

      https://event.cloudnativedays.jp/cicd2021/talks/1152 開発人数が多く、規模の大きいプロダクトでは最終的な成果物をビルドするだけで1時間以上かかってしまうことも珍しくありません。ですが最初からそれほど時間がかかっていたわけではなく、時間とともに巨大化するコードベース、追加されたステップなどによりいつの間にかどこかの処理がボトルネックとなっていることが多いでしょう。 CIサービスの多くは成功/失敗の情報、全体としてのビルド時間の情報は見やすく提供していますが、各ステップの時間やステップのエラー率などの細かい粒度の情報を時系列で確認する機能までは提供されていないことが多いです。そのため、ボトルネック箇所を特定するためには過去の生ビルドログを自分の目で確認するコストが高い作業が必要でした。 そこで、Jenkins, CircleCI, Githu

        CI/CDのボトルネックを把握できていますか?BigQueryでビルド情報ダッシュボードを構築した話
      • BigQueryで行う、 機械学習のための データ前処理

        知識と実践を紡ぐGenAI / Connecting Knowledge and experience with GenAI

          BigQueryで行う、 機械学習のための データ前処理
        • Linuxメモ : Rust製のangle-grinderを使ってコマンドラインでログ分析 - もた日記

          angle-grinder インストール 使い方 Aggregate Operators angle-grinder github.com Rust製のangle-grinder(コマンド名はagrind)はコマンドラインでログを分析できるツール。 インストール README.mdのインストール方法によると、バイナリのダウンロードやcargoでインストールできる(この時の名前はagrindではなくag)。 $ cargo install ag ヘルプメッセージ。 $ agrind --help ag 0.13.0 Russell Cohen <russell.r.cohen@gmail.com> CLI App to slice and dice logfiles USAGE: agrind [FLAGS] [OPTIONS] <query|--self-update> FLAGS: -h

            Linuxメモ : Rust製のangle-grinderを使ってコマンドラインでログ分析 - もた日記
          • 入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog

            データ分析基盤室の otobe(𝕏@UC_DBengineer) です。 事業規模が拡大し、大規模なデータの管理が必要になるにつれて、SnowFlake や BigQuery のようなハイパワーな DWH サービスでデータを加工するケースは多いです。 その際、想定外な高額請求が起こる原因のひとつに、クエリが最適化されておらずスキャン量が増大しているケースがあります。 そのため、クエリのスキャン量を監視・管理することが課金額を減らすうえで有効な手段となることがあります。 本記事では、前半で BigQuery で課金されるスキャン量を監視・管理するまでのプロセスを振り返り、 後半で BigQuery の課金額を減らすために簡単にチェックできることについてお話しします。 BigQuery クエリにおけるスキャン量を監視・管理するに至った理由 BigQuery の課金額が想定より大幅に増加してい

              入社4ヶ月でBigQueryの課金額を減らすために考えたこと - 弁護士ドットコム株式会社 Creators’ blog
            • Google のデータ ビジュアライゼーションに関するマテリアルデザインの記事を Tableau 視点で読む - データ可視化のアイデア帳

              先日話題になった、Google のデータ ビジュアライゼーションの記事が気になったので読んでみました。 material.io この記事はデータを可視化する際の基本的なセオリーから、個々のケースでの DO と DON'T が紹介しています。非常にまとまっている反面、英語であること、それなりの前提知識を必要とするなと感じたので*1 Tableau 的な視点から読んでみた感想をまとめていきます。 なお Tableau 視点ですので、Tableau にない思想やない機能については言及しません。訳してるように見える箇所も意訳ですので、正確性を求める方は元記事を読んでください。 Principle Type Selecting Charts 時系列変化を示す場合 棒グラフと円グラフ 棒グラフは異なるカテゴリーの時間による変化を示すのに使う 円グラフは時系列変化に使わない エリア チャート 積み重ねた

                Google のデータ ビジュアライゼーションに関するマテリアルデザインの記事を Tableau 視点で読む - データ可視化のアイデア帳
              • Operator でどう変わる? これからのデータベース運用 / cndt2019_k8s_operator

                CloudNative Days Tokyo 2019 (2019/07/22 [1G3] 15:40 - 16:20) https://cloudnativedays.jp/cndt2019/ データベースをはじめとするステートフルなアプリケーションはコンテナでの運用と相性が良くないと考えられていましたが、Kubernetesと周辺ツールを活用し運用するための仕組みが整ってきました。また、CRDとCustom Controllerを使い、運用に必要な操作の自動化をする取り組みも注目されています。本セッションではMySQLを取り上げ、Kubernetesを使った場合のデータベース運用や監視方法について従来のVMを使った場合とはどのように変わるのか、それぞれのメリットとデメリットは何か、等の比較を交えながら今後どのように変わっていくかご紹介します。

                  Operator でどう変わる? これからのデータベース運用 / cndt2019_k8s_operator
                • Rust 製の全文検索システム Tantivy を Ruby で使える Tantiny を導入した

                  過去記事ページの UI 考察 ずっと過去記事をどうやって効率よく見せるか(自分自身が効率よく読むか)ばかり考えている。一つ前の記事では絞り込み UI について書いた。ブログというものが生まれたとき、誰も 10 年以上にわたっ... portalshit.net ブログのアクティビティダッシュボード Archive ページにこだわってしまう理由、グラフを表示させてみて(ブログ過去記事をカテゴリーごとに集計してグラフ化 - portal shit!)何となくわかった気がする。過去記事ページとい... portalshit.net このブログの維持管理で一番時間を割いているのが Archives ページだ。しかしアクセスログを見ると自分以外はほとんど利用していない。完全に自己満なのだが、過去の自分を振り返ることができてとても自分には有意義なページだ。 過去記事を振り返るときには検索をしたくなる。

                    Rust 製の全文検索システム Tantivy を Ruby で使える Tantiny を導入した
                  • BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note

                    電通デジタルで機械学習エンジニアをしている今井です。 本記事では、BigQueryで傾向スコア分析を行うための方法について紹介します。 広告効果ってあったの?広告効果とは、広告に接触した場合と接触していない場合とのその後のコンバージョン(例えば、購入金額や継続期間など)の差である、と言えます。 しかしながら、同一ユーザーにおいて、広告に接触した場合と接触していない場合とを同時に観測することはできません。 これを反実仮想(counterfactual)と呼びます。 そこで提案されたのが平均処置効果(average treatment effect, ATE)です。 広告に接触したユーザー群(𝑤=1)と接触していないユーザー群(𝑤=0)とのその後のコンバージョン(𝑦 )の差を広告効果とするものです。 ここで、介入(広告に接触する)の有無以外の条件が公平になるようにユーザー郡が分かれていれ

                      BigQueryで傾向スコア分析|Dentsu Digital Tech Blog|note
                    • データアナリストが活用できる(かもしれない)機械学習

                      Partial Dependence Plotの紹介をします。 https://github.com/nekoumei/DGT_LT/blob/master/DataGatewayTalk_LT.ipynb

                        データアナリストが活用できる(かもしれない)機械学習
                      • Amazon Aurora レプリカ では metadata lock 待ちが発生しない - mita2 database life

                        Amazon Aurora のレプリカは Vanilla MySQL のレプリケーションとは違った仕組みで実現されている。 マスターとレプリカは同じディスクボリュームを参照しており、マスターでの更新はほぼ即時レプリカに反映される。 DB クラスターボリュームは DB クラスターのデータの複数のコピーで構成されます。ただし、クラスターボリュームのデータは、DB クラスターのプライマリインスタンスおよび Aurora レプリカの 1 つの論理ボリュームとして表されます。この結果、すべての Aurora レプリカは、最短のレプリカラグでクエリの結果として同じデータを返します。 レプリカラグは、通常はプライマリインスタンスが更新を書き込んだ後、100 ミリ秒未満です。https://docs.aws.amazon.com/ja_jp/AmazonRDS/latest/AuroraUserGuide

                          Amazon Aurora レプリカ では metadata lock 待ちが発生しない - mita2 database life
                        • BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ

                          こんにちは、エンジニアリンググループ、データ基盤チームの木田です。 最近我が家では手作りピザがブームになっており、週末になると度々生地をこねては家庭内ピザパーティーを開催しております。 息子が盛り付けた手作りピザ (本文とは特に関係ありません) さて、エムスリーではBigQueryをメインのデータウェアハウスとして活用していますが、費用最適化の取り組みの 1つとして一部のデータマートでクラスタ化テーブルの活用を始めました。本日はその導入効果をご紹介できればと思います。 この記事は【データ基盤チーム ブログリレー4日目】です。データ基盤チーム設立の経緯についてはブログリレー1日目の鳥山の記事をぜひご覧ください。 www.m3tech.blog はじめに 費用最適化のアプローチ クラスタ化テーブルとは クラスタ化テーブルの作成方法 実際に速く・安くなるのか 複合キーによるクラスタリング クラス

                            BigQuery上のデータマートをクラスタ化したらクエリコストが9割カットできた話 - エムスリーテックブログ
                          • Elasticsearch の reindex をするために試行錯誤して分かったこと - Uzabase for Engineers

                            こんにちは。NewsPicksでエンジニアやっております崔(チェ)です。現在は Data / Algorithm チームで検索エンジン開発を担当しております。弊社は、検索エンジンとして Elasticsearch を Amazon EC2 に乗せて構築しておりますが、メンテナンスに消極的だった部分があり、これからはマネージド化や検索精度向上など積極的に取り組んでいきたいと考えております(伸びしろしかない!)。今回は、その中でも色んなタスクのボトルネックだったアルゴリズムを変更した話をしたいと思います。ただ、アルゴリズムの詳細よりもそれの変更のために行ったインフラ的な内容にフォーカスしております。ご興味ある方は是非読んでいただけると嬉しいです。 はじめに ちょっとまって、reindex とは? 本題に戻り reindex の実験 実験環境づくり そもそも Elasticsearch のシステ

                              Elasticsearch の reindex をするために試行錯誤して分かったこと - Uzabase for Engineers
                            • 家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ

                              こんにちは。インフラエンジニアの永井(shnagai)です。 最近、家族ノートという「ママリ」内の検索データとQ&Aデータ(現在開発中)を可視化したデータ分析サービスの立ち上げに携わっています。 info-kazokunote.mamari.jp 今回は、家族ノートで使っているデータ基盤の一部であるBigQuery+StepFunctionsで作ったデータレイクの仕組みについてご紹介します。 内容は、ざっくりとこんな話を書こうと思います。 データ基盤作りに至った経緯 AWS→BigQueryにデータ移送するアーキテクチャのpros&cons StepFunctions+Embulk(Fargate)を利用したデータレイクの仕組み データ基盤作りに至った経緯 コネヒトには大きく分けると2つのデータセットがあります。 DB(Aurora)にあるアプリケーションのデータ(業務データやマスターデー

                                家族ノートを支えるBigQuery+StepFunctionsで作るデータレイク - コネヒト開発者ブログ
                              • 大学院講義のネタとしての『あつまれ どうぶつの森』|こかぜなおき

                                1. はじめに2020年3月20日に発売されてから世界中で人気を博している任天堂Switch用ゲームソフト『あつまれ どうぶつの森(以下、あつ森と略)』、かくいう私もハマっております。今回の記事では、『あつ森』を大学院講義の教材として用いたことについてご紹介したいと思います。教材開発等の参考になれば幸いです。 2. 学術的に注目すべきポイント|標準的データ形式イギリスのBBCニュースは、COVID-19の世界的流行に伴う外出自粛期間において、『あつ森』における魚釣りや虫捕り、家の模様替えやどうぶつたちとの日常的なふれあいなど、一見「生産性のない」と思われるような行動が、世界中の人びとの心を癒す効果を持ったことを指摘しています(元記事)。ただし、今回の記事では、このような『あつ森』の心理的効果ではなく、美術館・図書館・博物館など世界中の文化機関が、自らが所有する文化財の画像データを『あつ森』

                                  大学院講義のネタとしての『あつまれ どうぶつの森』|こかぜなおき
                                • 10X の検索を 10x したい パートII - 10X Product Blog

                                  今 Q もお疲れさまでした!10X の @metalunk です. 3ヶ月前に 10X の検索を 10x したい というブログを書きました.その記事にあるとおり,1-3月で検索インフラの改善を実施し,検索速度 10x, インフラコスト 80% 削減という成果をあげました.そして,直近の3ヶ月では検索精度の改善に取り組みました.この記事では今 Q にリリースした機能と,それぞれの効果を説明します. 長い記事になったので飛ばし飛ばし読んでください. どんな Q だったか KPI の変化 Zero match rate Conversion rate リリースした機能 検索キーワードサジェスト システム概要 評価 カテゴリフィルタ 並び順の改善 評価 bigram 解説 評価 シノニム辞書を Search time に展開 解説 イベントログからシノニムルールの生成 解説 改善の背景 KPI D

                                    10X の検索を 10x したい パートII - 10X Product Blog
                                  • 角度の平均や分散を複素数を用いて求める - Qiita

                                    はじめに 角度の平均を単純に計算してはいけない 突然ですが、以下の角度値の平均を求める方法をご存知でしょうか? $$ \lbrace10^\circ, 30^\circ, 350^\circ\rbrace $$ これが普通の数値データであれば、$(10 + 30 + 350) / 3 = 130$のように平均が求まります。 しかし、角度の場合は平均10°となります。図示してみると、確かに10°を中心に分布しています。 なぜ単純計算では求まらないのでしょうか? これには角度の周期性が関係しています。350°は数値上大きく見えますが、実際には0°に近い角度です。本来連続して続いているものを1周期で切断しているため、角度に対して素朴な統計処理をすることはできないのです。 角度データを扱う統計の分野を「角度統計(Circular Statistics, Directional Statistics

                                      角度の平均や分散を複素数を用いて求める - Qiita
                                    • BigQuery で ROW_NUMBER(), RANK() を使うな!

                                      どういうことか たとえば created_at が最も新しいレコード 1 件だけ取ってきたいとか、成績のよいレコード上位 5 件を取ってきたいといったとき、よくある方法として RANK() や ROW_NUMBER() のような番号付け関数を使う方法が思い浮かぶと思いますが、BigQuery ではこれらの関数ではなく ARRAY_AGG() 集計分析関数を使うことが推奨されています。 先に結論を ARRAY_AGG() を使うことでクエリの計算を最適化でき、スロット使用量(計算量)が少なく済みます。スロット使用量の上限を定めている場合、非効率なクエリがいくつも実行されるとキューイングされる可能性があるため理由がなければ ARRAY_AGG() を使いましょう。 ドキュメントによれば ORDER BY 句が各 GROUP BY 句のトップレコードを除くすべてを捨てることができるため効率がいい

                                        BigQuery で ROW_NUMBER(), RANK() を使うな!
                                      • Pythonから利用できるRust製超高速データ分析ライブラリPolarsの実力

                                        Pythonから利用できるRust製超高速データ分析ライブラリPolarsの実力:Rustで始めるWebアプリケーション(終) RustでWebアプリケーションを開発する際に基礎となる要素技術からRustの応用まで、Rustに関するあれこれを解説する本連載。第3回は、Rust製の高速データ分析ライブラリであるPolarsの速度を簡易的に検証し、考察する。 paizaでWebエンジニアをやっています藤田と申します。前回の連載では、RustでWebアプリの基礎となるセッション管理と、SNSのAPIサーバを構築するための実装概略、Rustの強力な型システムによるサーバサイドアプリケーションの記述性について示しました。 今回は、趣向を変えてRust製の高速データ分析ライブラリである「Polars」を利用し、その速度を簡易的に検証、考察します。今回のプロジェクトもGitHubのサンプルリポジトリを用

                                          Pythonから利用できるRust製超高速データ分析ライブラリPolarsの実力
                                        • SQL で Matrix Factorization を実装しました - TVer Tech Blog

                                          こんにちは データを眺めている森藤です TVer ではたくさんのデータがあって、どこをほっくり返してもなんか有用な知見が出てくるので毎日楽しいです。 現状 さて、現状はまだまだこれからなのですが、レコメンドのアルゴリズムや実装について考えるのも仕事の一つです。 レコメンドといえば、いろいろな手法やベースとなる考え方、タイミングなど様々なものがありますが、そのうちの一つとして、協調フィルタリングというものがあります。 これは端的に言うと、「これを見ている人はこれも見ています」的なやつです。 ただ、協調フィルタリングは実世界において適用が難しく、TVer でも多分にもれずそのまま適用するには課題があります。 大きな課題が「ユーザは限られたコンテンツ(エピソード)しか閲覧しないため、これを見た人はこれも見ています」と適用することが難しい、というものです user_id series_id 1 3

                                            SQL で Matrix Factorization を実装しました - TVer Tech Blog
                                          • マーケター自身がデータを管理するために、広告運用にdbtを導入した経緯と効果 - MonotaRO Tech Blog

                                            こんにちは、マーケティング部門広告グループの小林です。この記事ではオンライン広告運用に使っているデータ変換処理をdbtに移行した過程と得られた効果についてご紹介します。 モノタロウでは、全社的なデータ活用研修などにより、マーケティングのようなビジネス系の部署でも、SQLを自身で書いてデータ抽出を行い、数字に基づいた意思決定を行っています。その一方で、集計後の数値のズレやドメイン固有のデータの品質管理など、活用が進んだ企業ならではの課題というのも表面化してくるようになってきました。 オンライン広告運用においては、投下した費用など配信実績のレポーティング、広告媒体へのデータ送信などのいわゆるELTを安定的に回す仕組みが必要になりますが、処理の自動化やデータの品質まで求められるようになると、「データが抽出できる」だけでは限界が見えてきていました。そこで今回、マーケター自身がデータを管理する立場に

                                              マーケター自身がデータを管理するために、広告運用にdbtを導入した経緯と効果 - MonotaRO Tech Blog
                                            • MCMCをフルスクラッチで実装するトレーニング方法 - Qiita

                                              はじめに 東京大学・株式会社Nospareの菅澤です. 今回はベイズ統計を用いたデータ分析を実施する上で欠かせないマルコフ連鎖モンテカルロ法(いわゆるMCMC)をフルスクラッチで実装するためのトレーニング方法と,そのための参考書について紹介いたします. 最近ではstanのように,モデルと事前分布を記述するだけで汎用的にMCMCが実行できてしまう環境が整っていますが, そもそもMCMCがどういう流れで動いているのか理解する stanなどの汎用ツールがうまく使えない(orうまく動かない)場面に遭遇したときに自分の手で実装できるようにする ためには,標準的なモデルでMCMCをフルスクラッチで実際に組んだ経験が重要になってくると思います. 参考書について トレーニングのために私がオススメするのは以下の本です. J. Chan, G. Koop, D. J. Poirier, J. L. Tobia

                                                MCMCをフルスクラッチで実装するトレーニング方法 - Qiita
                                              • 機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用 - エムスリーテックブログ

                                                こんにちは。前回書いた突撃!隣のキーボード M3 2019という記事が、HHKBの公式Twitterアカウントにツイートされ、舞い上がっているエムスリーエンジニアリングGの河合 (@vaaaaanquish) です。 今回はエムスリー AIチームが開発、運用している機械学習プロジェクト向けのPythonライブラリである「gokart」の説明と、その周辺ライブラリとなる「cookiecutter-gokart」「thunderbolt」「redshells」について紹介したいと思います。よろしくお願いします。 はじめに Pipeline化のメリット・デメリット Pipeline化のメリット Pipeline化のデメリット gokart 共通化のための出力ファイル形式の制約と拡張 強力かつ簡易な再現性のためのデータ保持 クラウドサービスやSlack通知のサポート gokartのメリット、デメリ

                                                  機械学習プロジェクト向けPipelineライブラリgokartを用いた開発と運用 - エムスリーテックブログ
                                                • 統計的検定とか有意とか考えれば考えるほど何もわからない - と。

                                                  統計学はやはり人類には早いと思う 仕事で数理統計学を勉強していて、趣味で統計検定1級を取ろうとしているのですが、 今日は統計的検定の話をしようと思っています。 というのも、これが僕の無知によるものなのか、それとも世間一般に言われる誤解なのかはわからないんですが、 統計的検定ってそもそも一体何であるのかについて、よく理解できた形で 議論をしている場面に出会ったことがあまりないと思ったからです。 この記事ではどうにか「検定するには母集団に対する仮説を持つことが重要ですよ」とか「仮説がふんわりしたところで検定すると危ないですよ」とか話しますが、 具体的に「母集団に対する仮説を雑に決めたことで大きな損失を得た事例」をよく知らないので、 説得力に欠ける話になっています。大きな損失を得た事例持ってる方いたら教えてくだし。 どこまでを話すか? 実際、統計的検定や、その結果の判断軸などについては完成した合

                                                    統計的検定とか有意とか考えれば考えるほど何もわからない - と。
                                                  • 「ホットペッパービューティー」美容クリニックでのElasticsearchのユーザー辞書登録による検索改善

                                                    クリニック検索では、Ngramと形態素解析を併用することにより検索結果のヒット数を担保しつつ検索ノイズの増加による悪影響をスコアソートにより軽微なものに抑えています。 施術メニューピックアップのための全文検索では、検索ノイズが少ない形態素解析のみを利用しています。 美容クリニックでの検索における問題 形態素解析では、辞書に含まれている単語の集合に基づいて形態素が認識されます。 Sudachiの辞書において美容医療の専門用語が網羅されておらず、問題が発生します。 形態素解析で専門用語がカバーされていない問題 上記の表の通り、形態素解析では検索漏れが多いです。 例えば、「ダーマペン」は美容医療では人気な単語ですが、Sudachiに搭載されているデフォルトの辞書ではカバーされていないので、形態素として抽出されません。 形態素解析で期待通り認識・分割されない問題 「二重」が「フタエ」でなく「ニジュ

                                                      「ホットペッパービューティー」美容クリニックでのElasticsearchのユーザー辞書登録による検索改善
                                                    • Gunosy のデータ活用を支える統合データ基盤 Baikal の話 - Gunosy Tech Blog

                                                      はじめに Baikal について Baikal を支える技術と工夫 AWS アカウント Terraform ワークフロー基盤 Athena Lake Formation アーキテクチャ Extract & Load データ生成元 AWS アカウントにある RDS からデータ抽出 データ生成元 AWS アカウントにある DynamoDB からデータ抽出 社外の API からデータ抽出 Transform workspace に配置されたデータの変換 データ生成元 AWS アカウント内の生ログ変換 ウェアハウス内での加工 Share 今後の課題 開発の一部を他チームへの委譲 データ異常検知 BI ツールの導入 はじめに DRE チームの hyamamoto です。 新卒の方々が入社されて 4 ヶ月ということで、時の流れの速さを感じています*1。なお、現在、新卒の方々でリレー方式でブログを書いて

                                                        Gunosy のデータ活用を支える統合データ基盤 Baikal の話 - Gunosy Tech Blog
                                                      • 結局、統計モデリングとは何なのか - Qiita

                                                        先日、つれづれなるままに 時系列分析の勉強法の記事『統計初心者が時系列分析を学ぶための勉強法』 を書き殴ってみたところ、反響の大きさに驚きました。 正直、時系列分析なんてかなりニッチな分野だ(3人ぐらいしか読まないだろう)と思ってたからです。 ステイホームしているみなさんが、暇だから時系列分析を使ってFXで一儲けしようとでも考えているんでしょうか。 時系列分析のトピックである、状態空間モデルも統計モデリングの一種なわけですが、本日は、「統計モデリングとは何なのか」について、あらためて考えてみたいと思います。 統計モデリングといえば、みんな大好き緑本『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』です。 緑本はたしかに素晴らしい本ですが、緑本を読んだだけでは、「何が統計モデリングで、何が統計モデリングではないのか」「統計学における

                                                          結局、統計モデリングとは何なのか - Qiita
                                                        • 近傍探索ライブラリ「Annoy」のコード詳解 - ZOZO TECH BLOG

                                                          はじめまして、ZOZO研究所福岡の家富です。画像検索システムのインフラ、機械学習まわりを担当しています。 今回は画像検索システムでお世話になっているAnnoyについてじっくり紹介したいと思います。 目次 目次 Annoyについて 近傍探索について Annoyのソースコードを読むときのポイント AnnoyIndexというクラスのインスタンスを作る インストール過程について PythonのC/C++拡張 Annoyの実装 1. add_item 2. build 3. get_nns_by_vector 4. build再考 他に問題となる点について CPU依存部分 ディスクかメモリか まとめ さいごに Annoyについて Annoyは、SpotifyによるPython近傍探索ライブラリです。 github.com 弊社のテックブログでも以前に取り上げています。 techblog.zozo.c

                                                            近傍探索ライブラリ「Annoy」のコード詳解 - ZOZO TECH BLOG
                                                          • 書評『統計のための行列代数』 | Hippocampus's Garden

                                                            書評『統計のための行列代数』July 19, 2020  |  21 min read  |  3,454 views jabookmathはじめに 『統計のための行列代数』(D. A. Harville 著,伊理正夫 監訳,丸善出版,2012年)を読んだので,まとめと感想を書きます. (そこまでの精読はできていませんが,それでも誤植と思われる箇所が散見されたので,気づいた範囲ですが末尾にまとめておきました.) まとめ+α 原題は『Matrix Algebra from a Statistician’s Perspective』で,統計学者が身につけるべき線形代数の知識や考え方を全2巻でまとめた著名な教科書です.線形代数は重要かつ範囲がとても広く,抑えるべきポイントがわかりづらいと大学時代から感じていたので,こういう応用を見据えた教科書はありがたいです. 一般的な線形代数の教科書ではあまり

                                                              書評『統計のための行列代数』 | Hippocampus's Garden
                                                            • 統計ダッシュボード機能を BigQuery と BI Engine で実装する

                                                              先日、統計ダッシュボード機能(β)をリリースしました。記事をひとつでも公開している場合、Zennにログインすればどなたでも統計情報を表示できます。執筆頻度の確認や閲覧回数の参考にお役立てください。 本稿ではどのように実現したかについて課題とともに記録します。 TL;DR 投稿ページの表示イベントは Google Analytics から BigQuery へ連携しており、イベントデータ(BigQuery)と記事データ(Cloud SQL)をどうJOINさせるかが課題 外部接続でBigQueryからCloud SQLつなぐことにした 統計データ読み出し時、BigQueryを直接使うとクエリ毎に課金されてしまうため、BigQuery BI Engine を使うことにした スケジュールクエリを使い、BI Engineの容量に収まるように集計データを最小限にまとめる チャートは Chart.js

                                                                統計ダッシュボード機能を BigQuery と BI Engine で実装する
                                                              • GitHub - gluesql/gluesql: GlueSQL is quite sticky. It attaches to anywhere.

                                                                GlueSQL is a Rust library for SQL databases that includes a parser (sqlparser-rs), an execution layer, and a variety of storage options, both persistent and non-persistent, all in one package. It is a versatile tool for developers, supporting both SQL and its own query builder (AST Builder). GlueSQL can handle structured and unstructured data, making it suitable for a wide range of use cases. It i

                                                                  GitHub - gluesql/gluesql: GlueSQL is quite sticky. It attaches to anywhere.
                                                                • Snowflakeがもたらした noteのデータ分析の進化

                                                                  DATA CLOUD WORLD TOUR JAPAN Day 2 15:05-15:35 の発表のスライドです。

                                                                    Snowflakeがもたらした noteのデータ分析の進化
                                                                  • ストレージ重要

                                                                    以下動画のテキストです https://youtu.be/NLa53pX-8oM

                                                                      ストレージ重要
                                                                    • さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう

                                                                      tl;drすべてのデータを高品質に保とうとしない。事業フェーズやプロダクト仕様、マネタイズ方法に応じて、品質を守るべきデータを明確に定義し、「品質が守られた箱の中の世界」を明確にする。データ品質維持の前提は、Single Source of Truth。SSOTなDWHを構築することとセットな取り組みであることが大切。データ品質管理のHowとしては、dbtがおすすめ。not_nullやrelationshipなどdbtがもつtest機能を活用し、データ品質監視を実現しよう。当然、dbtだけでは品質は守られない。Data Meshのような議論から運用体制を考えていく必要もある。聞こえのよい新しいものに踊らされる前に、着実に必要なデータ品質を守っていこうね。 こんにちは、こんばんは。Ubie Discoveryのsotaronです。データエンジニアをやったり、小倉唯さんのファンクラブ会員などを

                                                                        さようなら、謎の数値ズレ。dbtを活用してデータ品質管理をはじめよう
                                                                      • データ分析基盤Crois

                                                                        Machine Learning Casual Talks #10 での発表資料です。 リクルートの横断組織であるリクルートコミュニケーションズで開発しているデータ分析基盤のCroisについて紹介させていただきました。

                                                                          データ分析基盤Crois
                                                                        • AWS Neptuneを使ってニュースパスのコメント機能をGraphDBで実装・運用する方法 - Gunosy Tech Blog

                                                                          こんにちは。ニュースパスのサーバーサイドエンジニアをしているmanoです。 昨年末から、ニュースパスで記事にコメントができるようになりました。 そのコメントデータを、AWS Neptuneを使ってグラフ構造で保持しています。 今回は、その実装・運用について書きたいと思います。 AWS Neptuneって? AWS Neptuneは、GraphDBが扱えるAWSのフルマネージドサービスです(詳しくはこちら)。 マスター・レプリカ構成のクラスターを作ることができ、レプリカは最大で15まで並べることができます。 GraphDBとのやりとりについて、Neptuneは「グラフトラバーサル言語」であるGremlinとSPARQLをサポートしているので、このいずれかで実装することになります。私はどちらも「なんじゃそりゃ」というところからのスタートだったので、直感的に書き方がしっくりきたGremlinを使

                                                                            AWS Neptuneを使ってニュースパスのコメント機能をGraphDBで実装・運用する方法 - Gunosy Tech Blog
                                                                          • Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ

                                                                            こんにちは佐藤です。 今回はサービスのデータ分析基盤を作成する際に使用したDataformについて紹介させていただきます。 背景 Dataformについて 導入して良かったこと 依存関係がわかりやすい クエリのテスト 工夫した点 フォルダの構成について データセット名、テーブル名について シャーディングテーブルの定義について 最後に 背景 現在、広告部署に所属する私たちのチームは自社のサービスデータと外部データを分析してユーザーの利用率向上につながる仮説検証をおこなうプロジェクトを進めています。 その中で様々なデータをTableauを用いて分析しており、データソースとして主にBigQueryを使用しているのですが、現状、分析データの加工、集計処理についてBigQueryのスケジュールされたクエリで作成したりtableau側のカスタムクエリで作成したりと対応方法がバラバラで管理自体ができてい

                                                                              Dataformでデータ分析基盤を整備した話 - Adwaysエンジニアブログ
                                                                            • 不動産価格データを使って相場を推測する|komeya

                                                                              以前の記事で、せっかく日本全国の不動産取引価格データが取れたので、もう少し不動産価格モデルについて詳しくやってみる。また、ちょっと進んだ手法についても触れてみたい(これは別記事にしました。詳細はこちら。不動産価格データを使った相場分析ー世田谷区一棟マンション)。 価格データの加工と可視化以前紹介した通り、国土交通省の不動産価格取引情報検索からデータがダウンロードできる。これは全国をカバーしていて、2005年以降の20年近くのデータがある。サイトから一気に全国全期間のデータがダウンロードできる。 全国のデータは取れるが一気に全国データを扱うのは大変なので、簡単なモデルから徐々に複雑にしていく。こないだ世田谷のデータを使ったので、まずは世田谷区のデータを使う。こないだは過去1年に取引されたデータだけだったので、データが存在する10年以上前の取引データも全部使ってみる。前回説明した通り、築年が元

                                                                                不動産価格データを使って相場を推測する|komeya
                                                                              • データ基盤の品質向上への取り組み - Classi開発者ブログ

                                                                                こんにちは、データエンジニアの石井です。 先日公開した記事「社内向けのデータ基盤から集計結果をReverse ETLしてサービスに組み込んだ話」で、ダッシュボード機能のリリースにより、Classiのデータ基盤が「社内用データ基盤」から「ユーザー影響あるシステムの一部」へ進化した話をしました。「ユーザー影響あるシステムの一部」への進化に伴い、データ基盤の品質担保は必要不可欠です。今回は、データ基盤の品質向上に取り組んだKANTプロジェクトについてご紹介します。 KANTプロジェクト 背景・課題 Classiのデータ基盤がユーザー影響あるシステムの一部になる前、つまり社内用データ基盤だった頃には以下のような課題がありました。 データ基盤の状態把握 マルチクラウドにおけるデータ基盤全体の状態把握ができていなかった データ基盤の実行状態(SUCCESS, FAIL, RUNNINGなど)の把握が、

                                                                                  データ基盤の品質向上への取り組み - Classi開発者ブログ
                                                                                • 安全なデータレイクの構築が容易になる AWS Lake Formation がついにリリースされました | DevelopersIO

                                                                                  昨年のre:Invent2018で紹介されたAWS Lake Formation がついにリリースされました。東京リージョンでもリリースされましたので、早速、試してみたいと思います。 ついにきましたLake Formation. データレイクの構築が容易に。 AWS Lake Formation – Now Generally Available | AWS News Blog https://t.co/qBdo8Ubj8O — Junpei Ozono (@jostandard) August 8, 2019 Jeff Barさんよりも、大薗さんの方が情報早かったw AWS Lake Formation とは AWS Lake Formation を試してみました! AWS Lake Formation の設定できる権限のIAMユーザー/IAMロール付与 AWS Lake Formati

                                                                                    安全なデータレイクの構築が容易になる AWS Lake Formation がついにリリースされました | DevelopersIO

                                                                                  新着記事