タグ

データに関するsh2nm0k2のブックマーク (3)

  • 【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します

    ―― 今のチーム課題と課題解決に向けた取り組みを教えてください。 Wang:私たちのチームでは、主に3つの課題について取り組みを進めています。 まずは1つ目の課題は「マルチテナントのクラスターの運用」についてです。 Hadoopは一般的に、有数のユーザと予測可能なワークロードで運用されていますが、LINEのData OpenによってDAUが700人弱であり、且つワークロードも10万+/日となっています。Isolationがまだ完備されていないので、ユーザ間にリソースの競合が発生している状況です。 2つ目は「Data catalog」についてです。ユーザが自由にデータを生成したり利用したりする環境においては、データのカタログがとても重要です。そのため、Data Lineageを自動的に生成する仕組みが必要となってきます。 そして「大規模のインフラを効率よく運用すること」も私たちの課題です。私

    【Team & Project】LINE全社のデータ基盤のミドルウェアやData ingestion pipelineの開発・運用を担当しているチームを紹介します
  • データの粒度とは? ~データの細かさを示す指標~|データ分析用語を解説 - GiXo Ltd.

    記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1) そのデータセットはどの項目でデータを一意に特定できるのか? データの粒度という言葉を分析の現場ではよく使用しますが、きちんと理解しているでしょうか? データの粒度とは、テーブルや表などのデータセットにおいて、データの細かさを表す指標です。例えば、『会員マスタは、会員IDひとつにつき、データが1件格納されている」、「売上テーブルは、店舗IDと決済キーの組み合わせひとつにつき、データが1件格納されている」といったように、どの項目でデータを一意に特定できるかを表す指標です。なお、お気づきの方もいらっしゃるかもしれませんが、これはデータベースにおけるプライマリキー(PK)に相当します。ですので、「このテーブルの粒度は?」と聞かれた場合は、テーブルのプライマリキーを答えてあげましょ

    データの粒度とは? ~データの細かさを示す指標~|データ分析用語を解説 - GiXo Ltd.
  • 【データ集計】粒度と解析単位とは?集計による情報量の減りを意識する。

    最近扱わせてもらったデータで思ったことで、そういえば意外に大事だな、と思ったことを書き留める。 データの粒度とは? 営業でもデータを扱うことは多いと思うが、データの粒度を意識しているだろうか。データの粒度とは、どの単位でデータをまとめるかということ。使われ方として時間や行動単位のどの範囲で、一つのデータとするか、という意味だけど、こういった解析単位として考えても意味は同じ。例えば購買ログとして以下のようなデータがあったとする。 データ例 ・売買id ・購買日 ・顧客名 ・売買金額 ・顧客の性別 ・顧客の年代 ・売買商品カテゴリ これは時系列に並んだ売買idごとのデータになる。粒度を変える、もしくは解析単位を変えるとは、スプレッドシートの別のシートのように、どう集計するか、ということ。これは当たり前のようだけど、何を求めたいかによって粒度・解析単位を変えないと行けず、結構奥が深い話だと思って

  • 1