タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

データ分析に関するakatakunのブックマーク (6)

  • BigQueryでユニーク数を推測するHyperLogLog++について - LCL Engineers' Blog

    バックエンドエンジニアの高橋です。 弊社ではデータ分析・可視化のためのデータ基盤としてBigQueryを用いていますが、その中でHyperLogLogアルゴリズムを活用したユニーク数の計測における工夫についてご紹介します。 なお、HyperLogLogアルゴリズム自体については詳細に理解していなくても実用上困ることは少ないのでこの記事では扱いません。詳細についてはネット上の記事を探ったりGoogleが公式に出している論文を当たるといいです。(私も説明できるほど詳細な理解はしてないです) ユニーク数の計測の面倒臭さ Webサイトのアクセス解析において重要な指標としてPV(ページビュー数)とUU(ユニークユーザー数)がありますが、PV数は単純に足し合わせでカウントすればいいのに対し、UUについては重複を排除した上でカウントする必要があるので分析上の取り扱いが面倒です。 簡単なお題で考えてみまし

    BigQueryでユニーク数を推測するHyperLogLog++について - LCL Engineers' Blog
    akatakun
    akatakun 2023/10/03
    この計算コストを抑えるテクニックとして、事前にある程度集計した中間テーブルのようなものを作るケースがありますが、更にHyperLogLogアルゴリズムを組み合わせることでよりスマートになります
  • 分析とはひとことでいうと◯◯◯である|樫田光 | Hikaru Kashida

    こんにちはHikaru Kashida です。 メルカリという会社でデータ分析チームのマネージャをやっています。 前回のnoteでは自己紹介と、これから主に分析関連のことについて書いていこうというお話をしました。 ですので、さっそく『分析』をテーマにひと記事書いてみようと筆を執っています。 この記事で書きたいことと、気をつけたこととりあえずまだ書き始めですので、分析とはなにかということを僕なりの解釈と言葉で書き綴ってみようと思っています。 おそらく、世の中には分析という単語の意味についての公式な記述というのもたくさんあることでしょう。そういったもの=公式の意味から始めてもいいのですが、ここではあえて完全にゼロベースで僕の頭の中にある 分析という言葉の意味について、好き勝手に論じていこうと思っています。 僕の脳内にある概念をコンパクトに説明するために、一部では抽象度を上げながら話をするので、

    分析とはひとことでいうと◯◯◯である|樫田光 | Hikaru Kashida
  • 解像度を上げると「データ分析」はもっと幸せになる 現役データサイエンティストが教える、データ分析の4つの要素

    データサイエンティストは、ビジネスチームや上司から、さまざまなデータ分析を依頼されます。来自分がやりたかったデータ分析と、ちょっと違うという不一致はありませんか? こうした不一致は、データ分析というものが抽象的で、人によって期待値が違うからです。 では、どのように分析すればよいか。その考え方を、Wantedly社の松村優也氏が語ります。 データ分析に求めるものは、人によって違う 松村優也氏:「データ分析の解像度を上げたい」というタイトルで発表します。よろしくお願いします。 まず自己紹介です。松村優也と申します。Wantedlyという会社の推薦チーム(レコメンデーションチーム)で、データサイエンティストとチームリードをやっています。情報検索の分野と機械学習に興味があります。日が2020年での初登壇になります。 まずはみなさん、データ分析はうまくいっていますか? 自信を持って「私はデータ分

    解像度を上げると「データ分析」はもっと幸せになる 現役データサイエンティストが教える、データ分析の4つの要素
  • 「分析やってます」の大半は処理なんです 本質なきデータ分析がはびこるワケ

    「分析やってます」の大半は処理なんです 質なきデータ分析がはびこるワケ:これからのAIの話をしよう(データ整備人編)(1/3 ページ) データサイエンティストやデータアナリストなどに比べ、あまり目立たない「データ整備人」という仕事フリーランスとして20年以上データ分析に携わってきたしんゆうさんは、データの抽出・集計を行うデータ整備の重要性をブログなどで発信しています。 しんゆうさんへのインタビューの前編では、「データ分析においてデータ整備人が重要な理由」「なぜ多くの組織でデータ整備が後回しにされるのか」「日企業がデータ活用できないワケ」などを聞きました。 後編となる記事では、日データ分析の実態や、データ分析質にも切り込んでいます。 しんゆうさんのプロフィール データアナリストを名乗っているけど、データアーキテクト(データ整備人)+アナリティクスディレクターもやる何でも屋。む

    「分析やってます」の大半は処理なんです 本質なきデータ分析がはびこるワケ
    akatakun
    akatakun 2020/01/31
    1: 情報を提供しても使わずに自分で考えて解決したがる人,2: 自分で決められない丸投げタイプの人,意思決定者は「この問題に対して意思決定をしたいので、こういう情報が欲しい」というオーダーを出せないといけない
  • 「雑用扱いで名前もない」 データ分析の土台を支える“SQLを叩く人”の重要性を問い直す

    「雑用扱いで名前もない」 データ分析の土台を支える“SQLを叩く人”の重要性を問い直す:これからのAIの話をしよう(データ整備人編)(1/3 ページ) 多くの企業がデータの分析・活用に取り組んでいますが、その中で抜け落ちがちなのが、データ整備の視点です。データベースからデータを抽出・集計して分析者に渡す作業は地味に見えますが、データ分析の土台を支える極めて重要な仕事です。 この役割は、戦争でいうところの「兵站」(へいたん)に当たるほど重要なのではないか――データ分析に関する情報発信を続けるしんゆうさんが、自身のブログでこう問いかけた所、予想以上の反響があったといいます。 ※兵站:戦場で、前線の部隊のために軍需品や料などの供給・補充を行う機関 しんゆうさんは、データを抽出・集計して分析者に渡す人を「データ整備人」「データアーキテクト」と呼び、データ分析に関する勉強会を開催するなどの啓蒙活動

    「雑用扱いで名前もない」 データ分析の土台を支える“SQLを叩く人”の重要性を問い直す
    akatakun
    akatakun 2020/01/31
    料理を作るシーンを見て「僕も何かの料理を作りたい!」と言うようなものでしょうか。さまざまなスキルが要求されますが、そもそも何の料理を作るのかを決めないと適切に準備できません。
  • 正規分布の公式と特徴まとめ |AVILEN

    正規分布(ガウス分布)に関するあらゆる特徴を、分かりやすくまとめました。目次から気になるトピックをご覧ください。 また正規分布の関連記事はこちらからご確認ください。 正規分布(ガウス分布)とは正規分布とは、統計学を理解する上で最も大切な確率分布の一つです。 正規分布はガウス分布と呼ばれることもしばしばあります。これは18世紀から19世紀に渡って活躍した数学者C.F.ガウスに由来します。ガウスは天文学の観測データの研究から測定誤差がある法則に従うことを導き出し、誤差理論を確立しました。これが正規分布の基礎となったと言われています。 正規分布の基的な性質正規分布には以下のような基的な性質があります。 平均値と最頻値と中央値が一致する。平均値を中心にして左右対称である。(直線x=μに関して対称)x軸が漸近線である。分散(標準偏差)が大きくなると、曲線の山は低くなり、左右に広がって平らになる。

    akatakun
    akatakun 2019/06/27
    正規分布(ガウス分布): 平均値の付近に集積するようなデータの分布を表した連続的な変数に関する確率分布,平均値 = 中央値 = 最頻値で左右対称
  • 1