タグ

pythonとbigQueryに関するmanboubirdのブックマーク (3)

  • アソシエーション分析入門 #03 | uxmeetsdata.com

    すべてのユーザーの行動の観察はできないため、似たユーザーをセグメント(Segment)に分類し、観察すべきセグメントを選定します。優良化の要因となる行動特性を把握するには、優良化している会員と優良化していない会員との間に存在する違いを比較観察すればよいので、観察すべきセグメントとはその二つになりますが、もう少し絞り込むために優良化との相関が強いサブセグメントを見つけます。例えば、優良化と高齢者の相関が強ければ、高齢者同士で比較すれば違いを発見しやすくなるということです。 優良化との相関が強いサブセグメントを見つけるには、まず二つの事象間の相関が仮説として想定されるものについて事実を検証していく検証的アプローチ(Verifying Approach)による分析を行います。今回の場合でいうと、特定の性別や年代、あるいは購買商品カテゴリなどの変数と優良化との間に相関があるという仮説を検証していき

    アソシエーション分析入門 #03 | uxmeetsdata.com
  • BigQuery上の自動テスト開発のススメ

    ​​特にBigQueryのようなカラムナ型ストレージを採用するシステムでは、RDBMSに用意されているユニーク制約や外部参照制約といったレコードに制約を課すことができません。このためテーブルの結合というSQLの簡単な操作でも思わぬ形で整合性を崩す恐れがあります。 ​​また大規模データ処理ではRDBMSでは扱わないような大量のイベントデータを時系列で大量に取り扱う必要があります。このようなイベントデータは、発生源であるアプリケーションのデータウェアハウジングの外部のシステムからの影響を受けやすくなります。加えて、プロダクト開発において、アプリケーションが変化しないということは起こりえないため、データの特性自体も中長期で見た場合に不安定です。

  • Ibis: Python Data Analysis Productivity Framework

    An open source dataframe library that works with any data system Use the same API for nearly 20 backends Fast local dataframes with embedded DuckDB (default), Polars, or DataFusion Iterate locally and deploy remotely by changing a single line of code Compose SQL and Python dataframe code, bridging the gap between data engineering and data science Ibis: the portable Python dataframe library Ibis of

    Ibis: Python Data Analysis Productivity Framework
  • 1