タグ

pivotとurlに関するhiroomiのブックマーク (3)

  • 【Excel】ピボットテーブルは集計より「集約」の仕方を理解せよ - わえなび ワード&エクセル問題集

    Excelで、初心者にピボットテーブルの使い方を説明するとしたら、最初に何を語るべきでしょうか? ピボットテーブルの使い方を覚えたら簡単に集計表ができる・・・などと説明することが多いです。これは正しいです。Excelの公式のヘルプにも、「複雑なデータをピボットテーブルに簡単に配置し、集計することができる」と書いてあります。 しかし、何も分からない初心者が、いきなり集計表の作り方を練習するのは論外です。 Microsoftはあまり強調していませんが、ピボットテーブルの最大の強みは大量のデータを集約できることです。簡単に言えば「まとめ」機能です。ピボットテーブルの機能を練習するときには、集計を意識する前に、まず「集約こそが主役である」ということを根的に理解するべきです。 そこで、今回は、リスト形式の表をどのようにまとめたらよいかについて解説します。 「ピボットテーブル」シリーズ(この記事は第

    【Excel】ピボットテーブルは集計より「集約」の仕方を理解せよ - わえなび ワード&エクセル問題集
    hiroomi
    hiroomi 2018/11/01
    良くとらえてて、体験型。
  • pandasのcrosstabでクロス集計(カテゴリ毎の出現回数・頻度を算出) | note.nkmk.me

    pandas.crosstab()関数を使うとクロス集計分析ができる。 カテゴリデータ(カテゴリカルデータ、質的データ)のカテゴリごとのサンプル数(出現回数・頻度)の算出などが可能。 pandas.crosstab — pandas 0.22.0 documentation 出現回数ではなく、カテゴリごとの平均値などを算出したい場合はピボットテーブルpandas.pivot_table()を使う。以下の記事を参照。 関連記事: pandasのピボットテーブルでカテゴリ毎の統計量などを算出 ここでは、 pandas.crosstab()関数の基的な使い方 カテゴリごとの小計・総計を算出: 引数margins 全体・行ごと・列ごとに規格化(正規化): 引数normalize について説明する。 例としてタイタニックの生存情報のデータを使用する。Kaggleの問題からダウンロードできる。 im

    pandasのcrosstabでクロス集計(カテゴリ毎の出現回数・頻度を算出) | note.nkmk.me
  • 整然データとは何か|Colorless Green Ideas

    整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

    整然データとは何か|Colorless Green Ideas
    hiroomi
    hiroomi 2017/01/10
    今のピボットをしてるとよく遭遇する。いや、いい気づきだ。
  • 1